Site anti-batedor de carteiras

Laico · Publicado em 12/07/2019 17:22:08

1. Cabeçalho de requisição HTTP

Cada vez que uma requisição HTTP é enviada ao servidor, um conjunto de atributos e informações de configuração é passado, que é o cabeçalho da requisição HTTP. Como o cabeçalho de requisição enviado pelo navegador é diferente do cabeçalho de requisição enviado pelo código do rastreador, é provável que ele seja descoberto pelo anti-rastreador, resultando no bloqueio de IP.

2. Configurações de cookies

Os sites rastreiam sua visita por meio de cookies e interrompem sua visita imediatamente se comportamentos do rastreador forem detectados, como preencher um formulário rapidamente ou navegar por um grande número de páginas em um curto período de tempo. Recomenda-se verificar os cookies gerados por esses sites durante a coleta dos sites e então pensar em qual deles o rastreador precisa lidar.

3. Caminho de acesso

O caminho geral de acesso do crawler é sempre o mesmo, e é fácil ser reconhecido por anti-crawlers, tentar simular o acesso do usuário e acessar a página aleatoriamente.

4. Frequência das visitas

A maioria dos motivos para bloquear IPs é porque a frequência de acesso é muito rápida, afinal, eles querem concluir a tarefa do crawler rapidamente, mas a velocidade não é alcançada, e a eficiência diminui depois que o IP é bloqueado.

A estratégia básica anti-crawler é essa, claro, alguns anti-crawlers mais rigorosos, não só esses, que exigem que os engenheiros anti-crawlers estudem lentamente a estratégia anti-crawler do site-alvo; com a atualização contínua da estratégia anti-crawler, a estratégia também precisa ser continuamente atualizada, aliada a IPs proxy eficiente e de alta qualidade, o trabalho do crawler pode ser realizado de forma eficiente.

Pequeno · Publicado em 12/07/2019 19:01:50

Crawlers simulam dados de requisições HTTP, e todos os anti-crawlers são iguais, só para ver qual algoritmo é mais inteligente e eficiente. Também é necessário formular uma estratégia razoável baseada na sua própria situação de negócios.

Por exemplo, em um site de consultoria normal, os usuários não podem receber 1.000 solicitações em 1 minuto, ou dezenas de milhares de solicitações em 1 hora; se um único IP ultrapassar o limite estabelecido, você pode rejeitá-lo diretamente ou pular para uma página de códigos de verificação, deslizar ou inserir o código, e você pode acessar normalmente novamente, caso contrário o IP será bloqueado.

[Comunicação] Site anti-batedor de carteiras

Seções visualizadas