Website tegen zakkenrolleren

Laical · Geplaatst op 12-07-2019 17:22:08

1. HTTP-verzoekheader

Elke keer dat een HTTP-verzoek naar de server wordt gestuurd, wordt een set attributen en configuratie-informatie doorgegeven, namelijk de HTTP-verzoekheader. Omdat de requestheader die door de browser wordt verzonden verschilt verschilt van de requestheader die door de crawlercode wordt verzonden, is het waarschijnlijk dat deze door de anticrawler wordt ontdekt, wat resulteert in IP-blokkering.

2. Cookie-instellingen

Websites volgen je bezoek via cookies en onderbreken je bezoek onmiddellijk als crawlergedrag wordt gedetecteerd, zoals het snel invullen van een formulier of het doorbladeren van een groot aantal pagina's in korte tijd. Het wordt aanbevolen om de cookies die door deze websites worden gegenereerd tijdens het verzamelen van websites te controleren en vervolgens na te denken over welke de crawler moet behandelen.

3. Toegangspad

Het algemene crawlertoegangspad is altijd hetzelfde, en het is gemakkelijk om door anti-crawlers herkend te worden, gebruikerstoegang te simuleren en de pagina willekeurig te openen.

4. Frequentie van bezoeken

De meeste redenen om IP's te blokkeren zijn omdat de toegangsfrequentie te hoog is; ze willen immers de crawler-taak snel voltooien, maar de snelheid wordt niet bereikt en de efficiëntie neemt af nadat het IP is geblokkeerd.

De basis anti-crawler strategie is natuurlijk enkele strengere anti-crawlers, niet alleen deze, wat vereist dat anti-crawler ingenieurs langzaam de anti-crawler strategie van de doelwebsite bestuderen; met de voortdurende upgrade van de anti-crawler strategie moet ook de crawlerstrategie continu worden geüpgraded, gecombineerd met efficiënte en hoogwaardige proxy-IP, kan het crawlerwerk efficiënt worden uitgevoerd.

Klein tuig · Geplaatst op 12-07-2019 19:01:50

Crawlers simuleren HTTP-verzoekgegevens, en alle anti-crawlers zijn hetzelfde, gewoon om te zien wiens algoritme slimmer en efficiënter is. Het is ook noodzakelijk om een redelijke strategie te formuleren op basis van je eigen zakelijke situatie.

Bijvoorbeeld, op een normale consultingwebsite kunnen gebruikers geen 1.000 verzoeken in 1 minuut hebben, of tienduizenden verzoeken in 1 uur; als één IP de ingestelde drempel overschrijdt, kun je het direct weigeren of naar een verificatiecodepagina springen, sleiden of de verificatiecode invoeren, die je normaal weer kunt openen, anders wordt het IP geblokkeerd.

[Communicatie] Website tegen zakkenrolleren

Secties bekeken