Acest articol este un articol oglindă al traducerii automate, vă rugăm să faceți clic aici pentru a sări la articolul original.

Vedere: 10314|Răspunde: 1

[Comunicare] Anti-furt de buzunare pe site-uri

[Copiază linkul]
Postat pe 12.07.2019 17:22:08 | | |
1. Antet de cerere HTTP

De fiecare dată când o cerere HTTP este trimisă către server, este transmis un set de atribute și informații de configurare, care reprezintă antetul cererii HTTP. Deoarece antetul de cerere trimis de browser este diferit de cel trimis de codul de crawler, este probabil ca acesta să fie descoperit de anti-crawler, ceea ce duce la blocarea IP-ului.

2. Setări pentru cookie-uri

Site-urile web urmăresc vizita ta prin cookie-uri și îți întrerup imediat vizita dacă se detectează comportamente de crawler, cum ar fi completarea rapidă a unui formular sau răsfoirea unui număr mare de pagini într-un interval scurt de timp. Se recomandă să verifici cookie-urile generate de aceste site-uri în procesul de colectare a site-urilor și apoi să te gândești la care trebuie să se ocupe crawlerul.

3. Calea de acces

Calea generală de acces a crawlerului este întotdeauna aceeași, iar anti-crawlerele pot fi recunoscute ușor, să încerci să simulezi accesul utilizatorului și să accesezi aleatoriu pagina.

4. Frecvența vizitelor

Majoritatea motivelor pentru blocarea IP-urilor sunt pentru că frecvența accesului este prea mare, până la urmă, vor să finalizeze rapid sarcina de crawler, dar viteza nu este atinsă, iar eficiența scade după ce IP-ul este blocat.

Strategia de bază anti-crawler este aceasta, desigur, unele anti-crawlere mai stricte, nu doar acestea, ceea ce necesită ca inginerii anti-crawler să studieze treptat strategia anti-crawler a site-ului țintă; odată cu actualizarea continuă a strategiei anti-crawler, strategia crawler trebuie actualizată continuu, iar împreună cu IP-uri proxy eficiente și de înaltă calitate, munca crawlerului poate fi realizată eficient.




Precedent:SpringBootMainApplication sau de asemenea pentru aplicație
Următor:Tutorialul introductiv de Python versiunea completă (îl poți învăța dacă știi chineza)
Postat pe 12.07.2019 19:01:50 |
Crawlerele simulează datele de cerere HTTP, iar toate anti-crawlerele sunt la fel, doar pentru a vedea care algoritm este mai inteligent și mai eficient. De asemenea, este necesar să formulezi o strategie rezonabilă bazată pe situația ta de afaceri.

De exemplu, pe un site normal de consultanță, utilizatorii nu pot avea 1.000 de cereri în 1 minut sau zeci de mii de cereri într-o oră; dacă un singur IP depășește pragul stabilit, îl poți respinge direct sau sări la o pagină de coduri de verificare, să glisezi sau să introduci codul de verificare, poți accesa din nou normal, altfel IP-ul va fi blocat.
Disclaimer:
Tot software-ul, materialele de programare sau articolele publicate de Code Farmer Network sunt destinate exclusiv scopurilor de învățare și cercetare; Conținutul de mai sus nu va fi folosit în scopuri comerciale sau ilegale, altfel utilizatorii vor suporta toate consecințele. Informațiile de pe acest site provin de pe Internet, iar disputele privind drepturile de autor nu au legătură cu acest site. Trebuie să ștergi complet conținutul de mai sus de pe calculatorul tău în termen de 24 de ore de la descărcare. Dacă îți place programul, te rugăm să susții software-ul autentic, să cumperi înregistrarea și să primești servicii autentice mai bune. Dacă există vreo încălcare, vă rugăm să ne contactați prin e-mail.

Mail To:help@itsvse.com