Tento článok je zrkadlovým článkom o strojovom preklade, kliknite sem pre prechod na pôvodný článok.

Pohľad: 10314|Odpoveď: 1

[Komunikácia] Webová stránka proti vreckárstvu

[Kopírovať odkaz]
Zverejnené 12. 7. 2019 17:22:08 | | |
1. HTTP hlavička požiadavky

Pri každom odoslaní HTTP požiadavky na server sa odovzdáva súbor atribútov a konfiguračných informácií, ktorým je hlavička HTTP požiadavky. Keďže hlavička požiadavky odosielaná prehliadačom sa líši od hlavičky požiadavky odoslanej kódom crawlera, je pravdepodobné, že ju anti-crawler odhalí, čo vedie k blokovaniu IP.

2. Nastavenia cookies

Webové stránky sledujú vašu návštevu prostredníctvom cookies a okamžite ju prerušia, ak je zistené správanie crawlera, napríklad pri rýchlom vyplnení formulára alebo prehliadaní veľkého množstva stránok v krátkom čase. Odporúča sa skontrolovať cookies generované týmito webovými stránkami počas zberu webových stránok a potom zvážiť, s ktorými sa crawler musí vysporiadať.

3. Prístupová cesta

Všeobecná prístupová cesta k crawlerom je vždy rovnaká a je ľahké byť rozpoznaný anti-crawlermi, snažiť sa simulovať prístup používateľa a náhodne pristupovať k stránke.

4. Frekvencia návštev

Väčšina dôvodov blokovania IP je príliš vysoká frekvencia prístupu, veď chcú rýchlo dokončiť úlohu crawlera, ale rýchlosť sa nedosiahne a efektivita klesá po zablokovaní IP.

Základná anti-crawler stratégia sú samozrejme niektoré prísnejšie anti-crawlery, nielen tieto, ktoré vyžadujú, aby anti-crawler inžinieri postupne študovali anti-crawler stratégiu cieľovej webovej stránky, pričom s neustálym vylepšovaním anti-crawler stratégie je tiež potrebné priebežne aktualizovať, v kombinácii s efektívnou a kvalitnou proxy IP môže byť práca crawlera vykonávaná efektívne.




Predchádzajúci:SpringBootMainApplication alebo tiež pre Application
Budúci:Úvodný tutoriál v Pythone v plnej verzii (môžeš sa ho naučiť, ak ovládaš čínštinu)
Zverejnené 12. 7. 2019 19:01:50 |
Crawlery simulujú HTTP požiadavky a všetky anti-crawlery sú rovnaké, len aby zistili, ktorý algoritmus je múdrejší a efektívnejší. Je tiež potrebné formulovať rozumnú stratégiu založenú na vašej vlastnej podnikateľskej situácii.

Napríklad na bežnej konzultačnej webovej stránke používatelia nemôžu mať 1 000 požiadaviek za 1 minútu alebo desaťtisíce požiadaviek za 1 hodinu, ak jedna IP prekročí nastavený prah, môžete ju priamo odmietnuť alebo skočiť na stránku s overovacím kódom, posunúť či zadať overovací kód, môžete opäť normálne pristupovať, inak bude IP IP zablokovaná.
Vyhlásenie:
Všetok softvér, programovacie materiály alebo články publikované spoločnosťou Code Farmer Network slúžia len na vzdelávacie a výskumné účely; Vyššie uvedený obsah nesmie byť použitý na komerčné alebo nezákonné účely, inak nesú všetky následky používateľmi. Informácie na tejto stránke pochádzajú z internetu a spory o autorské práva s touto stránkou nesúvisia. Musíte úplne vymazať vyššie uvedený obsah zo svojho počítača do 24 hodín od stiahnutia. Ak sa vám program páči, podporte originálny softvér, zakúpte si registráciu a získajte lepšie originálne služby. Ak dôjde k akémukoľvek porušeniu, kontaktujte nás prosím e-mailom.

Mail To:help@itsvse.com