Sitio web contra el carterismo

Laic · Publicado en 12/7/2019 17:22:08

1. Cabecera de solicitud HTTP

Cada vez que se envía una solicitud HTTP al servidor, se pasa un conjunto de atributos e información de configuración, que es la cabecera de la solicitud HTTP. Dado que la cabecera de la solicitud enviada por el navegador es diferente de la encabezada enviada por el código del rastreador, es probable que sea descubierta por el anti-rastreador, lo que resultará en el bloqueo de la IP.

2. Configuración de cookies

Los sitios web rastrean tu visita mediante cookies e interrumpen tu visita inmediatamente si se detecta comportamiento de rastreadores, como rellenar un formulario especialmente rápido o navegar por un gran número de páginas en poco tiempo. Se recomienda revisar las cookies generadas por estos sitios web durante el proceso de recopilación y luego pensar en cuál debe tratar el rastreador.

3. Ruta de acceso

La ruta general de acceso al rastreador es siempre la misma, y es fácil ser reconocido por anti-rastreadores, intentar simular el acceso del usuario y acceder aleatoriamente a la página.

4. Frecuencia de visitas

La mayoría de las razones para bloquear IPs son porque la frecuencia de acceso es demasiado rápida; al fin y al cabo, quieren completar la tarea del rastreador rápidamente, pero no se alcanza la velocidad y la eficiencia disminuye después de bloquear la IP.

La estrategia básica anti-crawler es esta, por supuesto, algunos anti-crawlers más estrictos, no solo estos, lo que requiere que los ingenieros anti-crawler estudien lentamente la estrategia anti-crawler del sitio objetivo y con la actualización continua de la estrategia anti-crawler, la estrategia también debe actualizarse continuamente, junto con una IP proxy eficiente y de alta calidad, el trabajo del crawler puede realizarse de forma eficiente.

Pequeña basura · Publicado en 12/7/2019 19:01:50

Los rastreadores simulan datos de peticiones HTTP, y todos los anti-rastreadores son iguales, solo para ver cuál algoritmo es más inteligente y eficiente. También es necesario formular una estrategia razonable basada en la situación de tu propio negocio.

Por ejemplo, en una web de consultoría normal, los usuarios no pueden recibir 1.000 solicitudes en 1 minuto, ni decenas de miles en 1 hora; si una IP supera el umbral establecido, puedes rechazarla directamente o saltar a una página de códigos de verificación, deslizar o introducir el código de verificación, puedes acceder normalmente de nuevo, de lo contrario la IP quedará bloqueada.

[Comunicación] Sitio web contra el carterismo

Secciones vistas