1. HTTP-forespørselsheader
Hver gang en HTTP-forespørsel sendes til serveren, sendes et sett med attributter og konfigurasjonsinformasjon, som er HTTP-forespørselshodet. Siden forespørselsheaderen sendt av nettleseren er forskjellig fra forespørselsheaderen sendt av crawler-koden, er det sannsynlig at anti-crawleren oppdager den, noe som resulterer i IP-blokkering.
2. Informasjonskapselinnstillinger
Nettsteder sporer besøket ditt gjennom informasjonskapsler og avbryter besøket umiddelbart hvis crawler-atferd oppdages, som å fylle ut et skjema spesielt raskt eller bla gjennom et stort antall sider på kort tid. Det anbefales å sjekke informasjonskapslene som genereres av disse nettstedene i prosessen med å samle inn nettsider, og deretter tenke på hvilken av dem crawleren må håndtere.
3. Adkomstvei
Den generelle crawler-tilgangsstien er alltid den samme, og det er lett å bli gjenkjent av anti-crawlere, prøve å simulere brukertilgang og tilfeldig få tilgang til siden.
4. Hyppighet av besøk
De fleste grunnene til å blokkere IP-adresser er fordi tilgangsfrekvensen er for rask, tross alt vil de fullføre crawler-oppgaven raskt, men hastigheten nås ikke, og effektiviteten reduseres etter at IP-en er blokkert.
Den grunnleggende anti-crawler-strategien er selvfølgelig noen strengere anti-crawlere, ikke bare disse, som krever at anti-crawler-ingeniører gradvis studerer anti-crawler-strategien til målnettstedet. Med kontinuerlig oppgradering av anti-crawler-strategien må også crawler-strategien oppgraderes kontinuerlig, kombinert med effektiv og høykvalitets proxy-IP kan crawler-arbeidet utføres effektivt.
|