1. HTTP-anmodningsheader
Hver gang en HTTP-anmodning sendes til serveren, sendes et sæt attributter og konfigurationsinformation, som er HTTP-anmodningsheaderen. Da anmodningsheaderen sendt af browseren er forskellig fra anmodningsheaderen fra crawler-koden, vil den sandsynligvis blive opdaget af anti-crawleren, hvilket resulterer i IP-blokering.
2. Cookie-indstillinger
Hjemmesider sporer dit besøg via cookies og afbryder dit besøg straks, hvis crawleradfærd opdages, såsom at udfylde en formular særligt hurtigt eller browse et stort antal sider på kort tid. Det anbefales at tjekke de cookies, som disse hjemmesider genererer i forbindelse med indsamlingen af hjemmesider, og derefter overveje, hvilken crawleren skal håndtere.
3. Adgangsvej
Den generelle crawler-adgangssti er altid den samme, og det er let at blive genkendt af anti-crawlere, forsøge at simulere brugeradgang og tilfældigt få adgang til siden.
4. Hyppighed af besøg
De fleste grunde til at blokere IP'er er, at adgangsfrekvensen er for hurtig, de vil jo gerne gennemføre crawler-opgaven hurtigt, men hastigheden nås ikke, og effektiviteten falder, når IP'en er blokeret.
Den grundlæggende anti-crawler-strategi er naturligvis nogle strengere anti-crawlere, ikke kun disse, hvilket kræver, at anti-crawler-ingeniører langsomt studerer anti-crawler-strategien på målwebsitet; med løbende opgradering af anti-crawler-strategien skal crawler-strategien også løbende opgraderes, kombineret med effektiv og højkvalitets proxy-IP, kan crawler-arbejdet udføres effektivt.
|