Багато краулерів в Інтернеті написані на Python, а деякий час тому також був написаний aps.net простий краулер, який може сканувати потрібні вам дані. Сьогодні багато сайтів створили механізм зворотного сканування, що дуже ускладнює краулерам скрейпінг даних. Ймовірно, існує кілька способів зворотного сканування більшості сайтів: є коди верифікації, IP-адреси, чорні списки тощо, а також більш просунуті методи зворотного сканування. Цей краулер також вжив заходів для боротьби з анти-скануванням, обходом кодів верифікації, використанням проксі тощо, вставте деякі з коду нижче, обговоріть і навчайтеся з вами, будь ласка, виправте те, що не так! Цей краулер головним чином орієнтований на певний вебсайт.
Після введення URL ви можете просканити дані за цією адресою, а потім відфільтрувати та очистити їх через XPath, щоб отримати потрібні дані
Щоб уникнути зворотного краулінгу, ви можете скористатися проксі-IP для доступу, завантажити або взяти IP-адресу з високим прихованням в Інтернеті, а потім випадково переключити проксі-IP для завантаження
Наведений вище код спочатку має визначити, чи доступна комутована IP-адреса Подивіться на вихідний код конкретного коду і надайте його!
Завантаження вихідного коду
Туристи, якщо ви хочете побачити прихований контент цього допису, будь ласка Відповідь
|