Многие краулеры в Интернете написаны на Python, а некоторое время назад был написан aps.net простой краулер, который может сканировать нужные вам данные. Сегодня многие сайты создали механизм обратного крауна, который сильно затрудняет краулерам скрапинг данных. Вероятно, существует несколько способов обратного сканирования большинства сайтов: есть коды проверки, IP-адреса, черные списки и т.д., а также более продвинутые методы обратного сканирования. Этот краулер также предпринял меры для борьбы с анти-краулингом, обходом кодов верификации, использованием прокси и т.д., вставьте часть кода ниже, обсудите и учитесь вместе с вами, пожалуйста, исправьте проблемы! Этот краулер в основном ориентирован на определённый сайт.
После ввода URL вы можете сканировать данные по этому адресу, а затем отфильтровать и очистить их через XPath, чтобы получить нужные данные
Чтобы обойти обратный краул, можно использовать прокси-IP для доступа, скачать или получить высокоскрытый IP в Интернете, а затем случайным образом переключить прокси-IP для захвата
Приведённый выше код сначала должен определить, доступен ли коммутируемый IP Посмотрите исходный код конкретного кода и укажите исходный код!
Скачать исходный код
Туристы, если вы хотите увидеть скрытое содержание этого поста, пожалуйста Ответ
|