Тази статия е огледална статия за машинен превод, моля, кликнете тук, за да преминете към оригиналната статия.

Изглед: 10314|Отговор: 1

[Комуникация] Уебсайт срещу джебчийство

[Копирай линк]
Публикувано в 12.07.2019 г. 17:22:08 ч. | | |
1. HTTP заглавие за заявка

Всеки път, когато се изпрати HTTP заявка към сървъра, се предава набор от атрибути и конфигурационна информация, която е заглавието на HTTP заявката. Тъй като заглавието на заявката, изпратено от браузъра, е различно от заглавието на заявката, изпратено от кода на краулъра, вероятно ще бъде открито от антикраулъра, което води до блокиране на IP адресите.

2. Настройки за бисквитки

Уебсайтовете проследяват посещението ви чрез бисквитки и прекъсват посещението ви веднага, ако бъде засечено поведение на краулър, като например попълване на формуляр особено бързо или разглеждане на голям брой страници за кратко време. Препоръчва се да се проверяват бисквитките, генерирани от тези сайтове по време на събирането на уебсайтове, и след това да се помисли с кои от тях трябва да се занимава краулърът.

3. Път за достъп

Общият път за достъп до краулърите винаги е един и същ и е лесно да бъдеш разпознат от анти-краулърите, да се опиташ да симулира потребителски достъп и да получиш случаен достъп до страницата.

4. Честота на посещенията

Повечето причини за блокиране на IP адреси са, че честотата на достъпа е твърде висока, все пак искат да завършат задачата с краулъра бързо, но скоростта не се достига и ефективността намалява след блокиране на IP-то.

Основната стратегия против краулъри са тези, разбира се, някои по-строги анти-краулъри, не само тези, които изискват инженерите на анти-краулърите да изучават постепенно стратегията на целевия уебсайт. С непрекъснатото ъпгрейдване на стратегията трябва да се обновява непрекъснато, в комбинация с ефективна и качествена прокси интелектуална собственост, работата по краулърите може да се извършва ефективно.




Предишен:SpringBootMainApplication или също за приложение
Следващ:Пълна версия на въвеждащия урок по Python (можеш да го научиш, ако знаеш китайски)
Публикувано в 12.07.2019 г. 19:01:50 ч. |
Краулърите симулират данни за HTTP заявки и всички анти-краулъри са еднакви, за да се види чий алгоритъм е по-умен и по-ефективен. Също така е необходимо да формулирате разумна стратегия, базирана на вашата бизнес ситуация.

Например, на обикновен консултативен уебсайт потребителите не могат да имат 1 000 заявки за 1 минута или десетки хиляди заявки за 1 час, ако един IP надвиши зададения праг, можете директно да го отхвърлите или да преминете към кодова страница за верификация, да плъзнете или въведете кода за верификация, до който можете да получите нормален достъп отново, в противен случай IP адресът ще бъде блокиран.
Отричане:
Целият софтуер, програмни материали или статии, публикувани от Code Farmer Network, са само за учебни и изследователски цели; Горното съдържание не трябва да се използва за търговски или незаконни цели, в противен случай потребителите ще понесат всички последствия. Информацията на този сайт идва от интернет, а споровете за авторски права нямат нищо общо с този сайт. Трябва напълно да изтриете горното съдържание от компютъра си в рамките на 24 часа след изтеглянето. Ако ви харесва програмата, моля, подкрепете оригинален софтуер, купете регистрация и получете по-добри услуги. Ако има нарушение, моля, свържете се с нас по имейл.

Mail To:help@itsvse.com