Monet internetin crawlerit on kirjoitettu pythonilla, ja jonkin aikaa sitten kirjoitettiin myös aps.net yksinkertainen crawler, joka voi indeksoida haluamasi datan. Nykyään monet verkkosivustot ovat kehittäneet backcrawling-mekanismin, mikä tekee indeksoijien tietojen keräämisestä erittäin vaikeaa. Useimpien verkkosivustojen käänteiseen indeksointiin on todennäköisesti useita tapoja: on varmennuskoodeja, IP-osoitteita, mustia listoja jne. sekä joitakin kehittyneempiä käänteisindeksointimenetelmiä. Tämä crawler on myös ryhtynyt toimiin estääkseen ryömintä, ohittaa varmennuskoodit, käyttää välityspalvelimia jne., liitä alla oleva koodi, keskustele ja opi kanssasi, korjaa mikä on vialla! Tämä indeksointisovellus on pääasiassa suunnattu tietylle verkkosivustolle.
URL-osoitteen syöttämisen jälkeen voit indeksoida tiedot takaisin URL-osoitteen mukaisesti ja suodattaa sekä puhdistaa tiedot XPathin kautta saadaksesi haluamasi tiedot
Backcrawlauksen ohittamiseksi voit käyttää välityspalvelin-IP:tä päästäksesi käsiin, lataat tai napata korkean piilotuksen, ja sitten vaihtaa välityspalvelimen IP-osoitetta satunnaisesti kaappaamaan
Yllä oleva koodi on tarkoitettu ensin selvittämään, onko kytketty IP-osoite saavutettavissa. Katso kyseisen koodin lähdekoodi ja anna se mukaan!
Lähdekoodin lataus
Turistit, jos haluatte nähdä tämän postauksen piilotetun sisällön, olkaa hyvä Vastaus
|