Hjemmeside mod lommetyveri

Laical · Opslået på 12/07/2019 17.22.08

1. HTTP-anmodningsheader

Hver gang en HTTP-anmodning sendes til serveren, sendes et sæt attributter og konfigurationsinformation, som er HTTP-anmodningsheaderen. Da anmodningsheaderen sendt af browseren er forskellig fra anmodningsheaderen fra crawler-koden, vil den sandsynligvis blive opdaget af anti-crawleren, hvilket resulterer i IP-blokering.

2. Cookie-indstillinger

Hjemmesider sporer dit besøg via cookies og afbryder dit besøg straks, hvis crawleradfærd opdages, såsom at udfylde en formular særligt hurtigt eller browse et stort antal sider på kort tid. Det anbefales at tjekke de cookies, som disse hjemmesider genererer i forbindelse med indsamlingen af hjemmesider, og derefter overveje, hvilken crawleren skal håndtere.

3. Adgangsvej

Den generelle crawler-adgangssti er altid den samme, og det er let at blive genkendt af anti-crawlere, forsøge at simulere brugeradgang og tilfældigt få adgang til siden.

4. Hyppighed af besøg

De fleste grunde til at blokere IP'er er, at adgangsfrekvensen er for hurtig, de vil jo gerne gennemføre crawler-opgaven hurtigt, men hastigheden nås ikke, og effektiviteten falder, når IP'en er blokeret.

Den grundlæggende anti-crawler-strategi er naturligvis nogle strengere anti-crawlere, ikke kun disse, hvilket kræver, at anti-crawler-ingeniører langsomt studerer anti-crawler-strategien på målwebsitet; med løbende opgradering af anti-crawler-strategien skal crawler-strategien også løbende opgraderes, kombineret med effektiv og højkvalitets proxy-IP, kan crawler-arbejdet udføres effektivt.

Lille skarn · Opslået på 12/07/2019 19.01.50

Crawlere simulerer HTTP-anmodningsdata, og alle anti-crawlere er ens, bare for at se, hvis algoritme der er klogere og mere effektiv. Det er også nødvendigt at formulere en rimelig strategi baseret på din egen forretningssituation.

For eksempel kan brugere på en almindelig konsulenthjemmeside ikke have 1.000 forespørgsler på 1 minut eller titusindvis af forespørgsler på 1 time; hvis en enkelt IP overstiger den indsatte tærskel, kan du direkte afvise den eller hoppe til en verifikationskodeside, slide eller indtaste verifikationskoden, som du kan få adgang normalt igen, ellers vil IP'en blive blokeret.

[Kommunikation] Hjemmeside mod lommetyveri

Afsnit set