1. HTTP-pyyntöotsikko
Joka kerta kun HTTP-pyyntö lähetetään palvelimelle, välitetään joukko attribuutteja ja konfiguraatiotietoja, jotka ovat HTTP-pyynnön otsikko. Koska selaimen lähettämä pyyntöotsikko eroaa indeksin lähettämästä pyyntöotsikosta, on todennäköistä, että anti-crawler löytää sen, mikä johtaa IP-estoon.
2. Evästeasetukset
Verkkosivustot seuraavat käyntiäsi evästeiden avulla ja keskeyttävät vierailusi välittömästi, jos indeksin toimintaa havaitaan, kuten lomakkeen nopea täyttäminen tai suuren sivumäärän selaaminen lyhyessä ajassa. On suositeltavaa tarkistaa näiden sivustojen tuottamat evästeet kerättäessä ja miettiä, minkä evästeiden kanssa indeksointiohjelman täytyy toimia.
3. Kulkureitti
Yleinen crawlerin käyttöreitti on aina sama, ja sen tunnistaminen on helppoa anti-crawlereiden toimesta, yrittää simuloida käyttäjän pääsyä ja satunnaisesti päästä sivulle.
4. Käyntien tiheys
Suurin syy IP-osoitteiden estämiseen johtuu siitä, että pääsytiheys on liian nopea, sillä he haluavat suorittaa crawler-tehtävän nopeasti, mutta nopeutta ei saavuteta, ja tehokkuus laskee IP:n estämisen jälkeen.
Perus anti-crawler-strategia on tietysti nämä tiukemmat anti-crawlerit, ei pelkästään nämä, mikä vaatii anti-crawler-insinööreiltä hitaasti tutkimaan kohdesivuston anti-crawler-strategiaa. Jatkuvan indeksointistrategian päivittämisen myötä myös crawler-strategiaa täytyy jatkuvasti päivittää, yhdistettynä tehokkaaseen ja laadukkaaseen proxy-IP:hen, jotta indeksointityö voidaan suorittaa tehokkaasti.
|