1. Antet de cerere HTTP
De fiecare dată când o cerere HTTP este trimisă către server, este transmis un set de atribute și informații de configurare, care reprezintă antetul cererii HTTP. Deoarece antetul de cerere trimis de browser este diferit de cel trimis de codul de crawler, este probabil ca acesta să fie descoperit de anti-crawler, ceea ce duce la blocarea IP-ului.
2. Setări pentru cookie-uri
Site-urile web urmăresc vizita ta prin cookie-uri și îți întrerup imediat vizita dacă se detectează comportamente de crawler, cum ar fi completarea rapidă a unui formular sau răsfoirea unui număr mare de pagini într-un interval scurt de timp. Se recomandă să verifici cookie-urile generate de aceste site-uri în procesul de colectare a site-urilor și apoi să te gândești la care trebuie să se ocupe crawlerul.
3. Calea de acces
Calea generală de acces a crawlerului este întotdeauna aceeași, iar anti-crawlerele pot fi recunoscute ușor, să încerci să simulezi accesul utilizatorului și să accesezi aleatoriu pagina.
4. Frecvența vizitelor
Majoritatea motivelor pentru blocarea IP-urilor sunt pentru că frecvența accesului este prea mare, până la urmă, vor să finalizeze rapid sarcina de crawler, dar viteza nu este atinsă, iar eficiența scade după ce IP-ul este blocat.
Strategia de bază anti-crawler este aceasta, desigur, unele anti-crawlere mai stricte, nu doar acestea, ceea ce necesită ca inginerii anti-crawler să studieze treptat strategia anti-crawler a site-ului țintă; odată cu actualizarea continuă a strategiei anti-crawler, strategia crawler trebuie actualizată continuu, iar împreună cu IP-uri proxy eficiente și de înaltă calitate, munca crawlerului poate fi realizată eficient.
|