1. Cabecera de solicitud HTTP
Cada vez que se envía una solicitud HTTP al servidor, se pasa un conjunto de atributos e información de configuración, que es la cabecera de la solicitud HTTP. Dado que la cabecera de la solicitud enviada por el navegador es diferente de la encabezada enviada por el código del rastreador, es probable que sea descubierta por el anti-rastreador, lo que resultará en el bloqueo de la IP.
2. Configuración de cookies
Los sitios web rastrean tu visita mediante cookies e interrumpen tu visita inmediatamente si se detecta comportamiento de rastreadores, como rellenar un formulario especialmente rápido o navegar por un gran número de páginas en poco tiempo. Se recomienda revisar las cookies generadas por estos sitios web durante el proceso de recopilación y luego pensar en cuál debe tratar el rastreador.
3. Ruta de acceso
La ruta general de acceso al rastreador es siempre la misma, y es fácil ser reconocido por anti-rastreadores, intentar simular el acceso del usuario y acceder aleatoriamente a la página.
4. Frecuencia de visitas
La mayoría de las razones para bloquear IPs son porque la frecuencia de acceso es demasiado rápida; al fin y al cabo, quieren completar la tarea del rastreador rápidamente, pero no se alcanza la velocidad y la eficiencia disminuye después de bloquear la IP.
La estrategia básica anti-crawler es esta, por supuesto, algunos anti-crawlers más estrictos, no solo estos, lo que requiere que los ingenieros anti-crawler estudien lentamente la estrategia anti-crawler del sitio objetivo y con la actualización continua de la estrategia anti-crawler, la estrategia también debe actualizarse continuamente, junto con una IP proxy eficiente y de alta calidad, el trabajo del crawler puede realizarse de forma eficiente.
|