1. HTTP kérés fejléc
Minden alkalommal, amikor HTTP kérést küldenek a szervernek, egy attribútum- és konfigurációs információ halmazát továbbítják, ami az HTTP kérés fejléce. Mivel a böngésző által küldött kérésfejléc eltér a crawler kód által küldött kérésfejlétől, valószínűleg az anti-crawler felfedezi, ami az IP blokkoláshoz vezet.
2. Süti beállítások
A weboldalak sütiken keresztül követik a látogatásodat, és azonnal megszakítják a látogatásodat, ha crawler viselkedést észlelnek, például egy űrlap gyors kitöltése vagy rövid idő alatt sok oldal böngészése. Ajánlott ellenőrizni az ilyen oldalak által generált sütiket a weboldalak gyűjtése során, majd átgondolni, melyiket kell kezelnie a crawlernek.
3. Hozzáférési útvonal
Az általános crawler hozzáférési útvonal mindig ugyanaz, és könnyen felismerhető az anti-crawlerek, megpróbálják szimulálni a felhasználói hozzáférést, és véletlenszerűen hozzáférjenek az oldalhoz.
4. A látogatások gyakorisága
Az IP-k blokkolásának legtöbb oka az, hogy a hozzáférési frekvencia túl gyors, hiszen gyorsan akarják befejezni a crawler feladatot, de a sebesség nem érhető el, és a hatékonyság csökken, miután az IP letiltásra kerül.
Az alapvető feltérképező stratégia természetesen ezek a szigorúbb mágasztók – nem csak ezek, amelyek miatt az anticrawler mérnökök lassan tanulmányozzák a céloldal anti-crawler stratégiáját, a folyamatos fejlesztéssel a crawler stratégiát folyamatosan fejleszteni kell, és hatékony és magas színvonalú proxy IP-vel együtt a crawler munkát hatékonyan lehet végezni.
|