Este artículo es un artículo espejo de traducción automática, por favor haga clic aquí para saltar al artículo original.

Vista: 10314|Respuesta: 1

[Comunicación] Sitio web contra el carterismo

[Copiar enlace]
Publicado en 12/7/2019 17:22:08 | | |
1. Cabecera de solicitud HTTP

Cada vez que se envía una solicitud HTTP al servidor, se pasa un conjunto de atributos e información de configuración, que es la cabecera de la solicitud HTTP. Dado que la cabecera de la solicitud enviada por el navegador es diferente de la encabezada enviada por el código del rastreador, es probable que sea descubierta por el anti-rastreador, lo que resultará en el bloqueo de la IP.

2. Configuración de cookies

Los sitios web rastrean tu visita mediante cookies e interrumpen tu visita inmediatamente si se detecta comportamiento de rastreadores, como rellenar un formulario especialmente rápido o navegar por un gran número de páginas en poco tiempo. Se recomienda revisar las cookies generadas por estos sitios web durante el proceso de recopilación y luego pensar en cuál debe tratar el rastreador.

3. Ruta de acceso

La ruta general de acceso al rastreador es siempre la misma, y es fácil ser reconocido por anti-rastreadores, intentar simular el acceso del usuario y acceder aleatoriamente a la página.

4. Frecuencia de visitas

La mayoría de las razones para bloquear IPs son porque la frecuencia de acceso es demasiado rápida; al fin y al cabo, quieren completar la tarea del rastreador rápidamente, pero no se alcanza la velocidad y la eficiencia disminuye después de bloquear la IP.

La estrategia básica anti-crawler es esta, por supuesto, algunos anti-crawlers más estrictos, no solo estos, lo que requiere que los ingenieros anti-crawler estudien lentamente la estrategia anti-crawler del sitio objetivo y con la actualización continua de la estrategia anti-crawler, la estrategia también debe actualizarse continuamente, junto con una IP proxy eficiente y de alta calidad, el trabajo del crawler puede realizarse de forma eficiente.




Anterior:SpringBootMainApplication o también para Application
Próximo:Tutorial introductorio de Python, versión completa (puedes aprenderlo si sabes chino)
Publicado en 12/7/2019 19:01:50 |
Los rastreadores simulan datos de peticiones HTTP, y todos los anti-rastreadores son iguales, solo para ver cuál algoritmo es más inteligente y eficiente. También es necesario formular una estrategia razonable basada en la situación de tu propio negocio.

Por ejemplo, en una web de consultoría normal, los usuarios no pueden recibir 1.000 solicitudes en 1 minuto, ni decenas de miles en 1 hora; si una IP supera el umbral establecido, puedes rechazarla directamente o saltar a una página de códigos de verificación, deslizar o introducir el código de verificación, puedes acceder normalmente de nuevo, de lo contrario la IP quedará bloqueada.
Renuncia:
Todo el software, materiales de programación o artículos publicados por Code Farmer Network son únicamente para fines de aprendizaje e investigación; El contenido anterior no se utilizará con fines comerciales o ilegales; de lo contrario, los usuarios asumirán todas las consecuencias. La información de este sitio proviene de Internet, y las disputas de derechos de autor no tienen nada que ver con este sitio. Debes eliminar completamente el contenido anterior de tu ordenador en un plazo de 24 horas desde la descarga. Si te gusta el programa, por favor apoya el software genuino, compra el registro y obtén mejores servicios genuinos. Si hay alguna infracción, por favor contáctanos por correo electrónico.

Mail To:help@itsvse.com