Anti-furt de buzunare pe site-uri

Laic · Postat pe 12.07.2019 17:22:08

1. Antet de cerere HTTP

De fiecare dată când o cerere HTTP este trimisă către server, este transmis un set de atribute și informații de configurare, care reprezintă antetul cererii HTTP. Deoarece antetul de cerere trimis de browser este diferit de cel trimis de codul de crawler, este probabil ca acesta să fie descoperit de anti-crawler, ceea ce duce la blocarea IP-ului.

2. Setări pentru cookie-uri

Site-urile web urmăresc vizita ta prin cookie-uri și îți întrerup imediat vizita dacă se detectează comportamente de crawler, cum ar fi completarea rapidă a unui formular sau răsfoirea unui număr mare de pagini într-un interval scurt de timp. Se recomandă să verifici cookie-urile generate de aceste site-uri în procesul de colectare a site-urilor și apoi să te gândești la care trebuie să se ocupe crawlerul.

3. Calea de acces

Calea generală de acces a crawlerului este întotdeauna aceeași, iar anti-crawlerele pot fi recunoscute ușor, să încerci să simulezi accesul utilizatorului și să accesezi aleatoriu pagina.

4. Frecvența vizitelor

Majoritatea motivelor pentru blocarea IP-urilor sunt pentru că frecvența accesului este prea mare, până la urmă, vor să finalizeze rapid sarcina de crawler, dar viteza nu este atinsă, iar eficiența scade după ce IP-ul este blocat.

Strategia de bază anti-crawler este aceasta, desigur, unele anti-crawlere mai stricte, nu doar acestea, ceea ce necesită ca inginerii anti-crawler să studieze treptat strategia anti-crawler a site-ului țintă; odată cu actualizarea continuă a strategiei anti-crawler, strategia crawler trebuie actualizată continuu, iar împreună cu IP-uri proxy eficiente și de înaltă calitate, munca crawlerului poate fi realizată eficient.

Mică mizerie · Postat pe 12.07.2019 19:01:50

Crawlerele simulează datele de cerere HTTP, iar toate anti-crawlerele sunt la fel, doar pentru a vedea care algoritm este mai inteligent și mai eficient. De asemenea, este necesar să formulezi o strategie rezonabilă bazată pe situația ta de afaceri.

De exemplu, pe un site normal de consultanță, utilizatorii nu pot avea 1.000 de cereri în 1 minut sau zeci de mii de cereri într-o oră; dacă un singur IP depășește pragul stabilit, îl poți respinge direct sau sări la o pagină de coduri de verificare, să glisezi sau să introduci codul de verificare, poți accesa din nou normal, altfel IP-ul va fi blocat.

[Comunicare] Anti-furt de buzunare pe site-uri

Secțiuni vizualizate