Nettsted mot lommetyveri

Laisk · Publisert på 12.07.2019 17:22:08

1. HTTP-forespørselsheader

Hver gang en HTTP-forespørsel sendes til serveren, sendes et sett med attributter og konfigurasjonsinformasjon, som er HTTP-forespørselshodet. Siden forespørselsheaderen sendt av nettleseren er forskjellig fra forespørselsheaderen sendt av crawler-koden, er det sannsynlig at anti-crawleren oppdager den, noe som resulterer i IP-blokkering.

2. Informasjonskapselinnstillinger

Nettsteder sporer besøket ditt gjennom informasjonskapsler og avbryter besøket umiddelbart hvis crawler-atferd oppdages, som å fylle ut et skjema spesielt raskt eller bla gjennom et stort antall sider på kort tid. Det anbefales å sjekke informasjonskapslene som genereres av disse nettstedene i prosessen med å samle inn nettsider, og deretter tenke på hvilken av dem crawleren må håndtere.

3. Adkomstvei

Den generelle crawler-tilgangsstien er alltid den samme, og det er lett å bli gjenkjent av anti-crawlere, prøve å simulere brukertilgang og tilfeldig få tilgang til siden.

4. Hyppighet av besøk

De fleste grunnene til å blokkere IP-adresser er fordi tilgangsfrekvensen er for rask, tross alt vil de fullføre crawler-oppgaven raskt, men hastigheten nås ikke, og effektiviteten reduseres etter at IP-en er blokkert.

Den grunnleggende anti-crawler-strategien er selvfølgelig noen strengere anti-crawlere, ikke bare disse, som krever at anti-crawler-ingeniører gradvis studerer anti-crawler-strategien til målnettstedet. Med kontinuerlig oppgradering av anti-crawler-strategien må også crawler-strategien oppgraderes kontinuerlig, kombinert med effektiv og høykvalitets proxy-IP kan crawler-arbeidet utføres effektivt.

Lille skurk · Publisert på 12.07.2019 19:01:50

Crawlere simulerer HTTP-forespørselsdata, og alle anti-crawlere er like, bare for å se hvilken algoritme som er smartest og mer effektiv. Det er også nødvendig å formulere en rimelig strategi basert på din egen forretningssituasjon.

For eksempel, på et vanlig konsulentnettsted kan ikke brukere ha 1 000 forespørsler på ett minutt, eller titusenvis av forespørsler på én time; hvis en enkelt IP overstiger den oppgitte terskelen, kan du direkte avvise den eller hoppe til en verifiseringskodeside, skyve eller skrive inn verifiseringskoden, du kan få normal tilgang igjen, ellers vil IP-en bli blokkert.

[Kommunikasjon] Nettsted mot lommetyveri

Seksjoner sett