Plusieurs schémas permettant aux robots distribués d’utiliser des IP proxy

Petite ordure · Publié sur 17/07/2018 13:54:35

Sans IP proxy, le travail sur les crawlers sera difficile, donc de nombreux ingénieurs de crawlers doivent acheter des IP proxy efficaces et stables. Avec une IP proxy de haute qualité, pouvez-vous vous détendre ? Les choses ne sont pas si simples, et il est aussi nécessaire d’optimiser le schéma, d’allouer rationnellement les ressources, d’améliorer l’efficacité du travail et d’exécuter le travail sur un crawler de manière plus efficace, plus rapide et plus stable.

Option 1: Chaque processus sélectionne aléatoirement une liste d’IP de l’API d’interface (par exemple, en extrayant 100 IP à la fois) pour les parcourir, puis appelle l’API pour les obtenir en cas d’échec, et la logique générale est la suivante :

1. Chaque processus (ou thread) récupère aléatoirement un lot d’IP depuis l’interface, et tente de récupérer des données de la liste IP dans une boucle.

2. Si l’accès est réussi, continuez à attraper le suivant.

3. Si cela ne fonctionne pas (comme le délai d’attente, le code de vérification, etc.), prenez un lot d’IP de l’interface et continuez à essayer.

Inconvénients de la solution : chaque IP a une date d’expiration ; si 100 sont extraites, lorsque la dixième est utilisée, la plupart de ces dernières peuvent être invalides. Si vous configurez une requête HTTP avec un délai de connexion de 3 secondes et un délai de lecture de 5 secondes, vous risquez de perdre 3 à 8 secondes, et peut-être que ces 3 à 8 secondes peuvent être récupérées des dizaines de fois.

Option 2: Chaque processus prend une IP aléatoire de l’API d’interface pour l’utiliser, puis appelle l’API pour obtenir une IP en cas d’échec, la logique générale est la suivante :

1. Chaque processus (ou thread) récupère aléatoirement une IP depuis l’interface et utilise cette IP pour accéder aux ressources.

2. Si l’accès est réussi, continuez à attraper le suivant.

3. Si cela échoue (comme le délai d’attente, le code de vérification, etc.), sélectionnez aléatoirement une IP depuis l’interface et continuez d’essayer.

Inconvénients : L’appel d’API pour obtenir des adresses IP est très fréquent, ce qui exercera une forte pression sur le serveur proxy, affectera la stabilité de l’interface API et pourrait être restreint dans l’extraction. Ce programme n’est pas non plus adapté et ne peut pas être géré de manière durable et stable.

Option 3: D’abord, extraire un grand nombre d’IP et les importer dans la base de données locale, puis prendre l’IP de la base de données, la logique générale est la suivante :

1. Créer une table dans la base de données, écrire un script d’importation, demander l’API par minute (consulter les suggestions du fournisseur de services IP proxy), et importer la liste IP dans la base de données.

2. Enregistrer l’heure d’importation, l’IP, le port, l’expiration du temps d’expiration, l’état de disponibilité de l’IP et d’autres champs dans la base de données ;

3. Écrire un script grab, le script crab lit l’IP disponible de la base de données, et chaque processus obtient une IP de la base de données pour être utilisé.

4. Effectuer des recherches d’exploration, juger les résultats, traiter les cookies, etc., tant qu’il y a un code de vérification ou une défaillance, abandonner cette IP et en changer pour une nouvelle IP.

Cette solution évite efficacement la consommation des ressources du serveur proxy, alloue efficacement l’utilisation de l’IP proxy, est plus efficace et stable, et garantit la durabilité et la stabilité du travail sur les crawlers.

spin100 · Publié sur 18/07/2018 14:50:55

Le Scheme 3 et le Scheme 1 ne sont-ils pas les mêmes, si on extrait un grand nombre d’IP, et ceux qui ne seront pas utilisés plus tard expireront bientôt

HDIXJLH003 · Publié sur 29/01/2019 21:06:25

Mark, j’ai appris l’idée, et ensuite j’essaierai de l’écrire

Plusieurs schémas permettant aux robots distribués d’utiliser des IP proxy

Articles connexes

Sections vues