Ця стаття є дзеркальною статтею машинного перекладу, будь ласка, натисніть тут, щоб перейти до оригінальної статті.

Вид: 10314|Відповідь: 1

[Зв'язок] Вебсайт, проти кишенькових крадіжок

[Копіювати посилання]
Опубліковано 12.07.2019 17:22:08 | | |
1. Заголовок HTTP-запиту

Кожного разу, коли HTTP-запит надсилається серверу, передається набір атрибутів і конфігураційної інформації, тобто заголовок HTTP-запиту. Оскільки заголовок запиту, надісланий браузером, відрізняється від заголовка запиту, який надсилає код краулера, його, ймовірно, виявляє антикраулер, що призводить до блокування IP.

2. Налаштування файлів cookie

Вебсайти відстежують ваш візит через файли cookie і негайно переривають його, якщо виявлено поведінку краулера, наприклад, швидко заповнювати форму або переглядати велику кількість сторінок за короткий час. Рекомендується перевіряти файли cookie, створені цими сайтами під час збіру сайтів, а потім вирішувати, з яким потрібно працювати краулер.

3. Шлях доступу

Загальний шлях доступу до краулера завжди однаковий, і його легко розпізнати антикраулери, спробувати імітувати доступ користувача та випадково отримати доступ до сторінки.

4. Частота візитів

Більшість причин блокування IP полягають у надто високій частоті доступу, адже вони хочуть швидко виконати завдання краулера, але швидкість не досягається, і ефективність знижується після блокування IP.

Базова стратегія протикраулерів — це, звісно, суворіші антикраулери, не лише ці, які вимагають, щоб інженери поступово вивчали стратегію проти краулерів цільового сайту, а з постійним оновленням стратегії потрібно постійно оновлювати стратегію краулерів, у поєднанні з ефективним і якісним проксі-IP, робота з краулером може виконуватися ефективно.




Попередній:SpringBootMainApplication або також для додатку
Наступний:Повна версія вступного туторіалу з Python (ви можете вивчити, якщо знаєте китайську)
Опубліковано 12.07.2019 19:01:50 |
Краулери імітують дані HTTP-запитів, і всі антикраулери однакові, щоб побачити, чий алгоритм розумніший і ефективніший. Також необхідно розробити розумну стратегію, виходячи з вашої бізнес-ситуації.

Наприклад, на звичайному консалтинговому сайті користувачі не можуть отримати 1 000 запитів за 1 хвилину або десятки тисяч запитів за 1 годину, якщо одна IP перевищує встановлений поріг, ви можете її безпосередньо відхилити або перейти на сторінку коду верифікації, просунути або ввести код перевірки, до якого можна отримати звичайний доступ, інакше IP буде заблоковано.
Застереження:
Усе програмне забезпечення, програмні матеріали або статті, опубліковані Code Farmer Network, призначені лише для навчання та досліджень; Вищезазначений контент не повинен використовуватися в комерційних чи незаконних цілях, інакше користувачі несуть усі наслідки. Інформація на цьому сайті надходить з Інтернету, і спори щодо авторських прав не мають до цього сайту. Ви повинні повністю видалити вищезазначений контент зі свого комп'ютера протягом 24 годин після завантаження. Якщо вам подобається програма, будь ласка, підтримуйте справжнє програмне забезпечення, купуйте реєстрацію та отримайте кращі справжні послуги. Якщо є будь-яке порушення, будь ласка, зв'яжіться з нами електронною поштою.

Mail To:help@itsvse.com