1. HTTP заглавие за заявка
Всеки път, когато се изпрати HTTP заявка към сървъра, се предава набор от атрибути и конфигурационна информация, която е заглавието на HTTP заявката. Тъй като заглавието на заявката, изпратено от браузъра, е различно от заглавието на заявката, изпратено от кода на краулъра, вероятно ще бъде открито от антикраулъра, което води до блокиране на IP адресите.
2. Настройки за бисквитки
Уебсайтовете проследяват посещението ви чрез бисквитки и прекъсват посещението ви веднага, ако бъде засечено поведение на краулър, като например попълване на формуляр особено бързо или разглеждане на голям брой страници за кратко време. Препоръчва се да се проверяват бисквитките, генерирани от тези сайтове по време на събирането на уебсайтове, и след това да се помисли с кои от тях трябва да се занимава краулърът.
3. Път за достъп
Общият път за достъп до краулърите винаги е един и същ и е лесно да бъдеш разпознат от анти-краулърите, да се опиташ да симулира потребителски достъп и да получиш случаен достъп до страницата.
4. Честота на посещенията
Повечето причини за блокиране на IP адреси са, че честотата на достъпа е твърде висока, все пак искат да завършат задачата с краулъра бързо, но скоростта не се достига и ефективността намалява след блокиране на IP-то.
Основната стратегия против краулъри са тези, разбира се, някои по-строги анти-краулъри, не само тези, които изискват инженерите на анти-краулърите да изучават постепенно стратегията на целевия уебсайт. С непрекъснатото ъпгрейдване на стратегията трябва да се обновява непрекъснато, в комбинация с ефективна и качествена прокси интелектуална собственост, работата по краулърите може да се извършва ефективно.
|