1. HTTP päringu päis
Iga kord, kui HTTP-päring saadetakse serverisse, edastatakse komplekt atribuute ja konfiguratsiooniinfot, mis on HTTP päringu päis. Kuna brauseri saadetud päringupäis erineb roomiku koodi poolt saadetud päringupäisest, on tõenäoline, et anti-crawler avastab selle, mis põhjustab IP blokeerimise.
2. Küpsiste seaded
Veebilehed jälgivad teie külastust küpsiste kaudu ja katkestavad teie külastuse kohe, kui tuvastatakse roomiku käitumist, näiteks vormi täitmine eriti kiire täitmine või suure hulga lehtede sirvimine lühikese aja jooksul. Soovitatav on kontrollida nende veebilehtede poolt genereeritud küpsiseid veebisaitide kogumise käigus ja seejärel mõelda, millise brauseriga kraapija peab tegelema.
3. Ligipääsutee
Üldine roomaja ligipääsu tee on alati sama ning seda on lihtne tuvastada anti-roomajatele, proovida simuleerida kasutaja ligipääsu ja juhuslikult lehele ligi pääseda.
4. Külastuste sagedus
Enamik IP-de blokeerimise põhjuseid on see, et ligipääsu sagedus on liiga kiire, sest nad tahavad crawleri ülesande kiiresti lõpetada, kuid kiirust ei saavutata ja efektiivsus langeb pärast IP blokeerimist.
Põhiline anti-crawler strateegia on muidugi mõned rangemad anti-crawlerid, mitte ainult need, mis nõuavad anti-crawleri inseneridelt aeglaselt sihtveebisaidi anti-crawleri strateegia uurimist; pideva roomiku strateegia uuendamisega tuleb ka pidevalt uuendada, koos tõhusa ja kvaliteetse proxy IP-ga, et crawleri tööd saaks tõhusalt teha.
|