Denne artikel er en spejling af maskinoversættelse, klik venligst her for at springe til den oprindelige artikel.

Udsigt: 10314|Svar: 1

[Kommunikation] Hjemmeside mod lommetyveri

[Kopier link]
Opslået på 12/07/2019 17.22.08 | | |
1. HTTP-anmodningsheader

Hver gang en HTTP-anmodning sendes til serveren, sendes et sæt attributter og konfigurationsinformation, som er HTTP-anmodningsheaderen. Da anmodningsheaderen sendt af browseren er forskellig fra anmodningsheaderen fra crawler-koden, vil den sandsynligvis blive opdaget af anti-crawleren, hvilket resulterer i IP-blokering.

2. Cookie-indstillinger

Hjemmesider sporer dit besøg via cookies og afbryder dit besøg straks, hvis crawleradfærd opdages, såsom at udfylde en formular særligt hurtigt eller browse et stort antal sider på kort tid. Det anbefales at tjekke de cookies, som disse hjemmesider genererer i forbindelse med indsamlingen af hjemmesider, og derefter overveje, hvilken crawleren skal håndtere.

3. Adgangsvej

Den generelle crawler-adgangssti er altid den samme, og det er let at blive genkendt af anti-crawlere, forsøge at simulere brugeradgang og tilfældigt få adgang til siden.

4. Hyppighed af besøg

De fleste grunde til at blokere IP'er er, at adgangsfrekvensen er for hurtig, de vil jo gerne gennemføre crawler-opgaven hurtigt, men hastigheden nås ikke, og effektiviteten falder, når IP'en er blokeret.

Den grundlæggende anti-crawler-strategi er naturligvis nogle strengere anti-crawlere, ikke kun disse, hvilket kræver, at anti-crawler-ingeniører langsomt studerer anti-crawler-strategien på målwebsitet; med løbende opgradering af anti-crawler-strategien skal crawler-strategien også løbende opgraderes, kombineret med effektiv og højkvalitets proxy-IP, kan crawler-arbejdet udføres effektivt.




Tidligere:SpringBootMainApplication eller også for Application
Næste:Python introduktionstutorial fuld version (du kan lære det, hvis du kan kinesisk)
Opslået på 12/07/2019 19.01.50 |
Crawlere simulerer HTTP-anmodningsdata, og alle anti-crawlere er ens, bare for at se, hvis algoritme der er klogere og mere effektiv. Det er også nødvendigt at formulere en rimelig strategi baseret på din egen forretningssituation.

For eksempel kan brugere på en almindelig konsulenthjemmeside ikke have 1.000 forespørgsler på 1 minut eller titusindvis af forespørgsler på 1 time; hvis en enkelt IP overstiger den indsatte tærskel, kan du direkte afvise den eller hoppe til en verifikationskodeside, slide eller indtaste verifikationskoden, som du kan få adgang normalt igen, ellers vil IP'en blive blokeret.
Ansvarsfraskrivelse:
Al software, programmeringsmaterialer eller artikler udgivet af Code Farmer Network er kun til lærings- og forskningsformål; Ovenstående indhold må ikke bruges til kommercielle eller ulovlige formål, ellers skal brugerne bære alle konsekvenser. Oplysningerne på dette site kommer fra internettet, og ophavsretstvister har intet med dette site at gøre. Du skal slette ovenstående indhold fuldstændigt fra din computer inden for 24 timer efter download. Hvis du kan lide programmet, så understøt venligst ægte software, køb registrering og få bedre ægte tjenester. Hvis der er nogen overtrædelse, bedes du kontakte os via e-mail.

Mail To:help@itsvse.com