1. HTTP-verzoekheader
Elke keer dat een HTTP-verzoek naar de server wordt gestuurd, wordt een set attributen en configuratie-informatie doorgegeven, namelijk de HTTP-verzoekheader. Omdat de requestheader die door de browser wordt verzonden verschilt verschilt van de requestheader die door de crawlercode wordt verzonden, is het waarschijnlijk dat deze door de anticrawler wordt ontdekt, wat resulteert in IP-blokkering.
2. Cookie-instellingen
Websites volgen je bezoek via cookies en onderbreken je bezoek onmiddellijk als crawlergedrag wordt gedetecteerd, zoals het snel invullen van een formulier of het doorbladeren van een groot aantal pagina's in korte tijd. Het wordt aanbevolen om de cookies die door deze websites worden gegenereerd tijdens het verzamelen van websites te controleren en vervolgens na te denken over welke de crawler moet behandelen.
3. Toegangspad
Het algemene crawlertoegangspad is altijd hetzelfde, en het is gemakkelijk om door anti-crawlers herkend te worden, gebruikerstoegang te simuleren en de pagina willekeurig te openen.
4. Frequentie van bezoeken
De meeste redenen om IP's te blokkeren zijn omdat de toegangsfrequentie te hoog is; ze willen immers de crawler-taak snel voltooien, maar de snelheid wordt niet bereikt en de efficiëntie neemt af nadat het IP is geblokkeerd.
De basis anti-crawler strategie is natuurlijk enkele strengere anti-crawlers, niet alleen deze, wat vereist dat anti-crawler ingenieurs langzaam de anti-crawler strategie van de doelwebsite bestuderen; met de voortdurende upgrade van de anti-crawler strategie moet ook de crawlerstrategie continu worden geüpgraded, gecombineerd met efficiënte en hoogwaardige proxy-IP, kan het crawlerwerk efficiënt worden uitgevoerd.
|