Muitos crawlers na Internet são escritos em python, e há algum tempo, um crawler aps.net simples também foi criado, que pode rastrear os dados que você deseja rastrear. Hoje em dia, muitos sites criaram um mecanismo de backcrawling, o que torna muito difícil para os rastreadores extraírem dados. Provavelmente existem várias formas de rastrear reversamente a maioria dos sites: códigos de verificação, endereços IP, listas negras, etc., e alguns métodos mais avançados de rastreamento reverso. Este crawler também tomou algumas medidas para lidar com anti-rastreamento, burlar códigos de verificação, usar proxies, etc., cole alguns códigos abaixo, discuta e aprenda com você, por favor, corrija o que está errado! Este rastreador é direcionado principalmente a um determinado site.
Após inserir a URL, você pode rastrear os dados de acordo com a URL e então filtrar e limpar os dados pelo XPath para obter os dados que deseja
Para evitar o backcrawling, você pode usar um IP proxy para acessar, pode baixar ou pegar um IP de alta ocultação na Internet e então trocar aleatoriamente o IP proxy para o grab
O código acima serve primeiro para determinar se o IP comutado é acessível Olhe o código-fonte do código específico e forneça o código-fonte!
Download do código-fonte
Turistas, se quiserem ver o conteúdo oculto deste post, por favor Resposta
|