Anti-pickpocketing sur le site web

Laïc · Publié sur 12/07/2019 17:22:08

1. En-tête de requête HTTP

Chaque fois qu’une requête HTTP est envoyée au serveur, un ensemble d’attributs et d’informations de configuration est transmis, qui est l’en-tête de requête HTTP. Puisque l’en-tête de requête envoyé par le navigateur est différent de celui envoyé par le code du crawler, il est probable qu’il soit découvert par l’anti-crawler, entraînant le blocage de l’IP.

2. Paramètres des cookies

Les sites web suivent votre visite via des cookies et interrompent immédiatement votre visite si un comportement d’un crawler est détecté, comme remplir un formulaire très rapidement ou parcourir un grand nombre de pages en peu de temps. Il est recommandé de vérifier les cookies générés par ces sites lors de la collecte, puis de réfléchir à ceux avec lesquels le robot doit s’occuper.

3. Chemin d’accès

Le chemin d’accès général du robot d’indexation est toujours le même, et il est facile d’être reconnu par les anti-crawlers, d’essayer de simuler l’accès de l’utilisateur, puis d’accéder aléatoirement à la page.

4. Fréquence des visites

La plupart des raisons de bloquer les IP sont que la fréquence d’accès est trop rapide, après tout, ils veulent terminer la tâche du crawler rapidement, mais la vitesse n’est pas atteinte, et l’efficacité diminue après le blocage de l’IP.

La stratégie anti-crawler de base est celles-ci, bien sûr, des anti-crawlers plus stricts, et non seulement celles-ci, qui exigent que les ingénieurs anti-crawler étudient progressivement la stratégie anti-crawler du site cible ; avec la mise à jour continue de la stratégie anti-crawler, celle-ci doit également être continuellement mise à jour, couplée à une IP proxy efficace et de haute qualité, le travail sur le crawler peut être effectué efficacement.

Petite ordure · Publié sur 12/07/2019 19:01:50

Les robots simulent les données de requêtes HTTP, et tous les anti-crawlers sont identiques, juste pour voir quel algorithme est le plus intelligent et le plus efficace. Il est également nécessaire d’élaborer une stratégie raisonnable basée sur votre propre situation professionnelle.

Par exemple, sur un site de conseil classique, les utilisateurs ne peuvent pas avoir 1 000 requêtes en 1 minute, ni des dizaines de milliers de requêtes en 1 heure, si une IP dépasse le seuil fixé, vous pouvez la rejeter directement ou aller directement à une page de codes de vérification, glisser ou entrer le code de vérification, vous pouvez accéder normalement à nouveau, sinon l’IP sera bloquée.

[Communication] Anti-pickpocketing sur le site web

Sections vues