1. HTTP hlavička požiadavky
Pri každom odoslaní HTTP požiadavky na server sa odovzdáva súbor atribútov a konfiguračných informácií, ktorým je hlavička HTTP požiadavky. Keďže hlavička požiadavky odosielaná prehliadačom sa líši od hlavičky požiadavky odoslanej kódom crawlera, je pravdepodobné, že ju anti-crawler odhalí, čo vedie k blokovaniu IP.
2. Nastavenia cookies
Webové stránky sledujú vašu návštevu prostredníctvom cookies a okamžite ju prerušia, ak je zistené správanie crawlera, napríklad pri rýchlom vyplnení formulára alebo prehliadaní veľkého množstva stránok v krátkom čase. Odporúča sa skontrolovať cookies generované týmito webovými stránkami počas zberu webových stránok a potom zvážiť, s ktorými sa crawler musí vysporiadať.
3. Prístupová cesta
Všeobecná prístupová cesta k crawlerom je vždy rovnaká a je ľahké byť rozpoznaný anti-crawlermi, snažiť sa simulovať prístup používateľa a náhodne pristupovať k stránke.
4. Frekvencia návštev
Väčšina dôvodov blokovania IP je príliš vysoká frekvencia prístupu, veď chcú rýchlo dokončiť úlohu crawlera, ale rýchlosť sa nedosiahne a efektivita klesá po zablokovaní IP.
Základná anti-crawler stratégia sú samozrejme niektoré prísnejšie anti-crawlery, nielen tieto, ktoré vyžadujú, aby anti-crawler inžinieri postupne študovali anti-crawler stratégiu cieľovej webovej stránky, pričom s neustálym vylepšovaním anti-crawler stratégie je tiež potrebné priebežne aktualizovať, v kombinácii s efektívnou a kvalitnou proxy IP môže byť práca crawlera vykonávaná efektívne.
|