De nombreux robots d’exploration sur Internet sont écrits en python, et il y a quelque temps, un aps.net simple a également été écrit, capable de faire repérer les données que vous souhaitez explorer. De nos jours, de nombreux sites web ont mis en place un mécanisme de backcrawling, ce qui rend très difficile pour les robots d’exploration de récupérer les données. Il existe probablement plusieurs façons de faire un reverse crawling sur la plupart des sites web : il y a des codes de vérification, des adresses IP, des blacklists, etc., ainsi que des méthodes d’exploration inversée plus avancées. Ce crawler a également pris des mesures pour lutter contre l’anti-crawling, contourner les codes de vérification, utiliser des proxys, etc., coller certains codes ci-dessous, discuter et apprendre avec vous, merci de corriger ce qui ne va pas ! Cet outil d’exploration vise principalement un site web spécifique.
Après avoir saisi l’URL, vous pouvez revenir en arrière sur les données selon l’URL, puis filtrer et nettoyer les données via XPath pour obtenir les données souhaitées
Pour contourner le backcrawling, vous pouvez utiliser une IP proxy pour y accéder, télécharger ou récupérer une IP à haute visibilité sur Internet, puis changer aléatoirement l’IP proxy pour la récupérer
Le code ci-dessus sert d’abord à déterminer si l’IP commutée est accessible Regardez le code source du code spécifique et fournissez le code source !
Téléchargement du code source
Touristes, si vous voulez voir le contenu caché de ce post, s’il vous plaît Répondre
|