Este artigo é um artigo espelhado de tradução automática, por favor clique aqui para ir para o artigo original.

Vista: 10314|Resposta: 1

[Comunicação] Site anti-batedor de carteiras

[Copiar link]
Publicado em 12/07/2019 17:22:08 | | |
1. Cabeçalho de requisição HTTP

Cada vez que uma requisição HTTP é enviada ao servidor, um conjunto de atributos e informações de configuração é passado, que é o cabeçalho da requisição HTTP. Como o cabeçalho de requisição enviado pelo navegador é diferente do cabeçalho de requisição enviado pelo código do rastreador, é provável que ele seja descoberto pelo anti-rastreador, resultando no bloqueio de IP.

2. Configurações de cookies

Os sites rastreiam sua visita por meio de cookies e interrompem sua visita imediatamente se comportamentos do rastreador forem detectados, como preencher um formulário rapidamente ou navegar por um grande número de páginas em um curto período de tempo. Recomenda-se verificar os cookies gerados por esses sites durante a coleta dos sites e então pensar em qual deles o rastreador precisa lidar.

3. Caminho de acesso

O caminho geral de acesso do crawler é sempre o mesmo, e é fácil ser reconhecido por anti-crawlers, tentar simular o acesso do usuário e acessar a página aleatoriamente.

4. Frequência das visitas

A maioria dos motivos para bloquear IPs é porque a frequência de acesso é muito rápida, afinal, eles querem concluir a tarefa do crawler rapidamente, mas a velocidade não é alcançada, e a eficiência diminui depois que o IP é bloqueado.

A estratégia básica anti-crawler é essa, claro, alguns anti-crawlers mais rigorosos, não só esses, que exigem que os engenheiros anti-crawlers estudem lentamente a estratégia anti-crawler do site-alvo; com a atualização contínua da estratégia anti-crawler, a estratégia também precisa ser continuamente atualizada, aliada a IPs proxy eficiente e de alta qualidade, o trabalho do crawler pode ser realizado de forma eficiente.




Anterior:SpringBootMainApplication ou também para Application
Próximo:Tutorial introdutório de Python versão completa (você pode aprender se souber chinês)
Publicado em 12/07/2019 19:01:50 |
Crawlers simulam dados de requisições HTTP, e todos os anti-crawlers são iguais, só para ver qual algoritmo é mais inteligente e eficiente. Também é necessário formular uma estratégia razoável baseada na sua própria situação de negócios.

Por exemplo, em um site de consultoria normal, os usuários não podem receber 1.000 solicitações em 1 minuto, ou dezenas de milhares de solicitações em 1 hora; se um único IP ultrapassar o limite estabelecido, você pode rejeitá-lo diretamente ou pular para uma página de códigos de verificação, deslizar ou inserir o código, e você pode acessar normalmente novamente, caso contrário o IP será bloqueado.
Disclaimer:
Todo software, material de programação ou artigos publicados pela Code Farmer Network são apenas para fins de aprendizado e pesquisa; O conteúdo acima não deve ser usado para fins comerciais ou ilegais, caso contrário, os usuários terão todas as consequências. As informações deste site vêm da Internet, e disputas de direitos autorais não têm nada a ver com este site. Você deve deletar completamente o conteúdo acima do seu computador em até 24 horas após o download. Se você gosta do programa, por favor, apoie um software genuíno, compre o registro e obtenha serviços genuínos melhores. Se houver qualquer infração, por favor, entre em contato conosco por e-mail.

Mail To:help@itsvse.com