1. En-tête de requête HTTP
Chaque fois qu’une requête HTTP est envoyée au serveur, un ensemble d’attributs et d’informations de configuration est transmis, qui est l’en-tête de requête HTTP. Puisque l’en-tête de requête envoyé par le navigateur est différent de celui envoyé par le code du crawler, il est probable qu’il soit découvert par l’anti-crawler, entraînant le blocage de l’IP.
2. Paramètres des cookies
Les sites web suivent votre visite via des cookies et interrompent immédiatement votre visite si un comportement d’un crawler est détecté, comme remplir un formulaire très rapidement ou parcourir un grand nombre de pages en peu de temps. Il est recommandé de vérifier les cookies générés par ces sites lors de la collecte, puis de réfléchir à ceux avec lesquels le robot doit s’occuper.
3. Chemin d’accès
Le chemin d’accès général du robot d’indexation est toujours le même, et il est facile d’être reconnu par les anti-crawlers, d’essayer de simuler l’accès de l’utilisateur, puis d’accéder aléatoirement à la page.
4. Fréquence des visites
La plupart des raisons de bloquer les IP sont que la fréquence d’accès est trop rapide, après tout, ils veulent terminer la tâche du crawler rapidement, mais la vitesse n’est pas atteinte, et l’efficacité diminue après le blocage de l’IP.
La stratégie anti-crawler de base est celles-ci, bien sûr, des anti-crawlers plus stricts, et non seulement celles-ci, qui exigent que les ingénieurs anti-crawler étudient progressivement la stratégie anti-crawler du site cible ; avec la mise à jour continue de la stratégie anti-crawler, celle-ci doit également être continuellement mise à jour, couplée à une IP proxy efficace et de haute qualité, le travail sur le crawler peut être effectué efficacement.
|