1. Cabeçalho de requisição HTTP
Cada vez que uma requisição HTTP é enviada ao servidor, um conjunto de atributos e informações de configuração é passado, que é o cabeçalho da requisição HTTP. Como o cabeçalho de requisição enviado pelo navegador é diferente do cabeçalho de requisição enviado pelo código do rastreador, é provável que ele seja descoberto pelo anti-rastreador, resultando no bloqueio de IP.
2. Configurações de cookies
Os sites rastreiam sua visita por meio de cookies e interrompem sua visita imediatamente se comportamentos do rastreador forem detectados, como preencher um formulário rapidamente ou navegar por um grande número de páginas em um curto período de tempo. Recomenda-se verificar os cookies gerados por esses sites durante a coleta dos sites e então pensar em qual deles o rastreador precisa lidar.
3. Caminho de acesso
O caminho geral de acesso do crawler é sempre o mesmo, e é fácil ser reconhecido por anti-crawlers, tentar simular o acesso do usuário e acessar a página aleatoriamente.
4. Frequência das visitas
A maioria dos motivos para bloquear IPs é porque a frequência de acesso é muito rápida, afinal, eles querem concluir a tarefa do crawler rapidamente, mas a velocidade não é alcançada, e a eficiência diminui depois que o IP é bloqueado.
A estratégia básica anti-crawler é essa, claro, alguns anti-crawlers mais rigorosos, não só esses, que exigem que os engenheiros anti-crawlers estudem lentamente a estratégia anti-crawler do site-alvo; com a atualização contínua da estratégia anti-crawler, a estratégia também precisa ser continuamente atualizada, aliada a IPs proxy eficiente e de alta qualidade, o trabalho do crawler pode ser realizado de forma eficiente.
|