Cet article est un article miroir de traduction automatique, veuillez cliquer ici pour accéder à l’article original.

Vue: 10314|Répondre: 1

[Communication] Anti-pickpocketing sur le site web

[Copié le lien]
Publié sur 12/07/2019 17:22:08 | | |
1. En-tête de requête HTTP

Chaque fois qu’une requête HTTP est envoyée au serveur, un ensemble d’attributs et d’informations de configuration est transmis, qui est l’en-tête de requête HTTP. Puisque l’en-tête de requête envoyé par le navigateur est différent de celui envoyé par le code du crawler, il est probable qu’il soit découvert par l’anti-crawler, entraînant le blocage de l’IP.

2. Paramètres des cookies

Les sites web suivent votre visite via des cookies et interrompent immédiatement votre visite si un comportement d’un crawler est détecté, comme remplir un formulaire très rapidement ou parcourir un grand nombre de pages en peu de temps. Il est recommandé de vérifier les cookies générés par ces sites lors de la collecte, puis de réfléchir à ceux avec lesquels le robot doit s’occuper.

3. Chemin d’accès

Le chemin d’accès général du robot d’indexation est toujours le même, et il est facile d’être reconnu par les anti-crawlers, d’essayer de simuler l’accès de l’utilisateur, puis d’accéder aléatoirement à la page.

4. Fréquence des visites

La plupart des raisons de bloquer les IP sont que la fréquence d’accès est trop rapide, après tout, ils veulent terminer la tâche du crawler rapidement, mais la vitesse n’est pas atteinte, et l’efficacité diminue après le blocage de l’IP.

La stratégie anti-crawler de base est celles-ci, bien sûr, des anti-crawlers plus stricts, et non seulement celles-ci, qui exigent que les ingénieurs anti-crawler étudient progressivement la stratégie anti-crawler du site cible ; avec la mise à jour continue de la stratégie anti-crawler, celle-ci doit également être continuellement mise à jour, couplée à une IP proxy efficace et de haute qualité, le travail sur le crawler peut être effectué efficacement.




Précédent:SpringBootMainApplication ou aussi pour Application
Prochain:Version complète du tutoriel d’introduction en Python (vous pouvez l’apprendre si vous parlez chinois)
Publié sur 12/07/2019 19:01:50 |
Les robots simulent les données de requêtes HTTP, et tous les anti-crawlers sont identiques, juste pour voir quel algorithme est le plus intelligent et le plus efficace. Il est également nécessaire d’élaborer une stratégie raisonnable basée sur votre propre situation professionnelle.

Par exemple, sur un site de conseil classique, les utilisateurs ne peuvent pas avoir 1 000 requêtes en 1 minute, ni des dizaines de milliers de requêtes en 1 heure, si une IP dépasse le seuil fixé, vous pouvez la rejeter directement ou aller directement à une page de codes de vérification, glisser ou entrer le code de vérification, vous pouvez accéder normalement à nouveau, sinon l’IP sera bloquée.
Démenti:
Tous les logiciels, supports de programmation ou articles publiés par Code Farmer Network sont uniquement destinés à l’apprentissage et à la recherche ; Le contenu ci-dessus ne doit pas être utilisé à des fins commerciales ou illégales, sinon les utilisateurs assumeront toutes les conséquences. Les informations sur ce site proviennent d’Internet, et les litiges de droits d’auteur n’ont rien à voir avec ce site. Vous devez supprimer complètement le contenu ci-dessus de votre ordinateur dans les 24 heures suivant le téléchargement. Si vous aimez le programme, merci de soutenir un logiciel authentique, d’acheter l’immatriculation et d’obtenir de meilleurs services authentiques. En cas d’infraction, veuillez nous contacter par e-mail.

Mail To:help@itsvse.com