Tento článek je zrcadlovým článkem o strojovém překladu, klikněte zde pro přechod na původní článek.

Pohled: 10314|Odpověď: 1

[Komunikace] Webová ochrana proti kapsářství

[Kopírovat odkaz]
Zveřejněno 12.07.2019 17:22:08 | | |
1. HTTP hlavička požadavku

Pokaždé, když je server odeslán HTTP požadavek, je předána sada atributů a konfiguračních informací, což je hlavička HTTP požadavku. Protože hlavička požadavku odeslaná prohlížečem se liší od hlavičky požadavku odeslané kódem crawleru, je pravděpodobné, že ji anti-crawler objeví, což vede k blokování IP.

2. Nastavení cookies

Webové stránky sledují vaši návštěvu pomocí cookies a okamžitě ji přeruší, pokud je detekováno chování crawlera, například při rychlém vyplnění formuláře nebo při prohlížení velkého počtu stránek v krátkém čase. Doporučuje se zkontrolovat cookies generované těmito weby při sběru webů a poté zvážit, s kterými se crawler musí vypořádat.

3. Přístupová cesta

Obecná přístupová cesta k crawleru je vždy stejná a je snadné být rozpoznat anti-crawlery, snažit se simulovat uživatelský přístup a náhodně přistupovat ke stránce.

4. Frekvence návštěv

Většina důvodů blokování IP adres je příliš vysoká – koneckonců chtějí rychle dokončit úlohu crawleru, ale rychlost není dosažena a efektivita klesá po zablokování IP.

Základní anti-crawlerová strategie jsou samozřejmě některé přísnější anti-crawlery, nejen tyto, které vyžadují, aby anti-crawler inženýři postupně studovali anti-crawler strategii cílové webové stránky, s neustálým vylepšováním anti-crawler strategie je také nutné postupně aktualizovat, spolu s efektivní a kvalitní proxy IP lze práci crawleru provádět efektivně.




Předchozí:SpringBootMainApplication nebo také pro Application
Další:Úvodní tutoriál pro Python v plné verzi (můžete se ho naučit, pokud umíte čínsky)
Zveřejněno 12.07.2019 19:01:50 |
Crawlery simulují HTTP data požadavků a všechny anti-crawlery jsou stejné, jen aby zjistily, čí algoritmus je chytřejší a efektivnější. Je také nutné formulovat rozumnou strategii založenou na vaší vlastní podnikatelské situaci.

Například na běžném konzultačním webu uživatelé nemohou mít 1 000 požadavků za 1 minutu nebo desítky tisíc požadavků za 1 hodinu, pokud jedna IP překročí nastavený limit, můžete ji přímo odmítnout nebo přeskočit na stránku s ověřovacím kódem, posunout nebo zadat ověřovací kód, můžete se k němu vrátit normálně, jinak bude IP zablokována.
Zřeknutí se:
Veškerý software, programovací materiály nebo články publikované organizací Code Farmer Network slouží pouze k učení a výzkumu; Výše uvedený obsah nesmí být používán pro komerční ani nelegální účely, jinak nesou všechny důsledky uživatelé. Informace na tomto webu pocházejí z internetu a spory o autorská práva s tímto webem nesouvisí. Musíte výše uvedený obsah ze svého počítače zcela smazat do 24 hodin od stažení. Pokud se vám program líbí, podporujte prosím originální software, kupte si registraci a získejte lepší skutečné služby. Pokud dojde k jakémukoli porušení, kontaktujte nás prosím e-mailem.

Mail To:help@itsvse.com