1. HTTP hlavička požadavku
Pokaždé, když je server odeslán HTTP požadavek, je předána sada atributů a konfiguračních informací, což je hlavička HTTP požadavku. Protože hlavička požadavku odeslaná prohlížečem se liší od hlavičky požadavku odeslané kódem crawleru, je pravděpodobné, že ji anti-crawler objeví, což vede k blokování IP.
2. Nastavení cookies
Webové stránky sledují vaši návštěvu pomocí cookies a okamžitě ji přeruší, pokud je detekováno chování crawlera, například při rychlém vyplnění formuláře nebo při prohlížení velkého počtu stránek v krátkém čase. Doporučuje se zkontrolovat cookies generované těmito weby při sběru webů a poté zvážit, s kterými se crawler musí vypořádat.
3. Přístupová cesta
Obecná přístupová cesta k crawleru je vždy stejná a je snadné být rozpoznat anti-crawlery, snažit se simulovat uživatelský přístup a náhodně přistupovat ke stránce.
4. Frekvence návštěv
Většina důvodů blokování IP adres je příliš vysoká – koneckonců chtějí rychle dokončit úlohu crawleru, ale rychlost není dosažena a efektivita klesá po zablokování IP.
Základní anti-crawlerová strategie jsou samozřejmě některé přísnější anti-crawlery, nejen tyto, které vyžadují, aby anti-crawler inženýři postupně studovali anti-crawler strategii cílové webové stránky, s neustálým vylepšováním anti-crawler strategie je také nutné postupně aktualizovat, spolu s efektivní a kvalitní proxy IP lze práci crawleru provádět efektivně.
|