Denne artikkelen er en speilartikkel om maskinoversettelse, vennligst klikk her for å hoppe til originalartikkelen.

Utsikt: 10314|Svare: 1

[Kommunikasjon] Nettsted mot lommetyveri

[Kopier lenke]
Publisert på 12.07.2019 17:22:08 | | |
1. HTTP-forespørselsheader

Hver gang en HTTP-forespørsel sendes til serveren, sendes et sett med attributter og konfigurasjonsinformasjon, som er HTTP-forespørselshodet. Siden forespørselsheaderen sendt av nettleseren er forskjellig fra forespørselsheaderen sendt av crawler-koden, er det sannsynlig at anti-crawleren oppdager den, noe som resulterer i IP-blokkering.

2. Informasjonskapselinnstillinger

Nettsteder sporer besøket ditt gjennom informasjonskapsler og avbryter besøket umiddelbart hvis crawler-atferd oppdages, som å fylle ut et skjema spesielt raskt eller bla gjennom et stort antall sider på kort tid. Det anbefales å sjekke informasjonskapslene som genereres av disse nettstedene i prosessen med å samle inn nettsider, og deretter tenke på hvilken av dem crawleren må håndtere.

3. Adkomstvei

Den generelle crawler-tilgangsstien er alltid den samme, og det er lett å bli gjenkjent av anti-crawlere, prøve å simulere brukertilgang og tilfeldig få tilgang til siden.

4. Hyppighet av besøk

De fleste grunnene til å blokkere IP-adresser er fordi tilgangsfrekvensen er for rask, tross alt vil de fullføre crawler-oppgaven raskt, men hastigheten nås ikke, og effektiviteten reduseres etter at IP-en er blokkert.

Den grunnleggende anti-crawler-strategien er selvfølgelig noen strengere anti-crawlere, ikke bare disse, som krever at anti-crawler-ingeniører gradvis studerer anti-crawler-strategien til målnettstedet. Med kontinuerlig oppgradering av anti-crawler-strategien må også crawler-strategien oppgraderes kontinuerlig, kombinert med effektiv og høykvalitets proxy-IP kan crawler-arbeidet utføres effektivt.




Foregående:SpringBootMainApplication eller også for Application
Neste:Python introduksjonstutorial full versjon (du kan lære det hvis du kan kinesisk)
Publisert på 12.07.2019 19:01:50 |
Crawlere simulerer HTTP-forespørselsdata, og alle anti-crawlere er like, bare for å se hvilken algoritme som er smartest og mer effektiv. Det er også nødvendig å formulere en rimelig strategi basert på din egen forretningssituasjon.

For eksempel, på et vanlig konsulentnettsted kan ikke brukere ha 1 000 forespørsler på ett minutt, eller titusenvis av forespørsler på én time; hvis en enkelt IP overstiger den oppgitte terskelen, kan du direkte avvise den eller hoppe til en verifiseringskodeside, skyve eller skrive inn verifiseringskoden, du kan få normal tilgang igjen, ellers vil IP-en bli blokkert.
Ansvarsfraskrivelse:
All programvare, programmeringsmateriell eller artikler publisert av Code Farmer Network er kun for lærings- og forskningsformål; Innholdet ovenfor skal ikke brukes til kommersielle eller ulovlige formål, ellers skal brukerne bære alle konsekvenser. Informasjonen på dette nettstedet kommer fra Internett, og opphavsrettstvister har ingenting med dette nettstedet å gjøre. Du må fullstendig slette innholdet ovenfor fra datamaskinen din innen 24 timer etter nedlasting. Hvis du liker programmet, vennligst støtt ekte programvare, kjøp registrering, og få bedre ekte tjenester. Hvis det foreligger noen krenkelse, vennligst kontakt oss på e-post.

Mail To:help@itsvse.com