Dit artikel is een spiegelartikel van machinevertaling, klik hier om naar het oorspronkelijke artikel te gaan.

Bekijken: 10314|Antwoord: 1

[Communicatie] Website tegen zakkenrolleren

[Link kopiëren]
Geplaatst op 12-07-2019 17:22:08 | | |
1. HTTP-verzoekheader

Elke keer dat een HTTP-verzoek naar de server wordt gestuurd, wordt een set attributen en configuratie-informatie doorgegeven, namelijk de HTTP-verzoekheader. Omdat de requestheader die door de browser wordt verzonden verschilt verschilt van de requestheader die door de crawlercode wordt verzonden, is het waarschijnlijk dat deze door de anticrawler wordt ontdekt, wat resulteert in IP-blokkering.

2. Cookie-instellingen

Websites volgen je bezoek via cookies en onderbreken je bezoek onmiddellijk als crawlergedrag wordt gedetecteerd, zoals het snel invullen van een formulier of het doorbladeren van een groot aantal pagina's in korte tijd. Het wordt aanbevolen om de cookies die door deze websites worden gegenereerd tijdens het verzamelen van websites te controleren en vervolgens na te denken over welke de crawler moet behandelen.

3. Toegangspad

Het algemene crawlertoegangspad is altijd hetzelfde, en het is gemakkelijk om door anti-crawlers herkend te worden, gebruikerstoegang te simuleren en de pagina willekeurig te openen.

4. Frequentie van bezoeken

De meeste redenen om IP's te blokkeren zijn omdat de toegangsfrequentie te hoog is; ze willen immers de crawler-taak snel voltooien, maar de snelheid wordt niet bereikt en de efficiëntie neemt af nadat het IP is geblokkeerd.

De basis anti-crawler strategie is natuurlijk enkele strengere anti-crawlers, niet alleen deze, wat vereist dat anti-crawler ingenieurs langzaam de anti-crawler strategie van de doelwebsite bestuderen; met de voortdurende upgrade van de anti-crawler strategie moet ook de crawlerstrategie continu worden geüpgraded, gecombineerd met efficiënte en hoogwaardige proxy-IP, kan het crawlerwerk efficiënt worden uitgevoerd.




Vorig:SpringBootMainApplication of ook voor applicatie
Volgend:Python introductietutorial volledige versie (je kunt het leren als je Chinees kent)
Geplaatst op 12-07-2019 19:01:50 |
Crawlers simuleren HTTP-verzoekgegevens, en alle anti-crawlers zijn hetzelfde, gewoon om te zien wiens algoritme slimmer en efficiënter is. Het is ook noodzakelijk om een redelijke strategie te formuleren op basis van je eigen zakelijke situatie.

Bijvoorbeeld, op een normale consultingwebsite kunnen gebruikers geen 1.000 verzoeken in 1 minuut hebben, of tienduizenden verzoeken in 1 uur; als één IP de ingestelde drempel overschrijdt, kun je het direct weigeren of naar een verificatiecodepagina springen, sleiden of de verificatiecode invoeren, die je normaal weer kunt openen, anders wordt het IP geblokkeerd.
Disclaimer:
Alle software, programmeermaterialen of artikelen die door Code Farmer Network worden gepubliceerd, zijn uitsluitend bedoeld voor leer- en onderzoeksdoeleinden; De bovenstaande inhoud mag niet worden gebruikt voor commerciële of illegale doeleinden, anders dragen gebruikers alle gevolgen. De informatie op deze site komt van het internet, en auteursrechtconflicten hebben niets met deze site te maken. Je moet bovenstaande inhoud volledig van je computer verwijderen binnen 24 uur na het downloaden. Als je het programma leuk vindt, steun dan de echte software, koop registratie en krijg betere echte diensten. Als er sprake is van een inbreuk, neem dan contact met ons op via e-mail.

Mail To:help@itsvse.com