Viele Crawler im Internet sind in Python geschrieben, und vor einiger Zeit wurde auch ein aps.net einfacher Crawler entwickelt, der die Daten crawlen kann, die du crawlen möchtest. Heutzutage haben viele Websites einen Backcrawling-Mechanismus entwickelt, der es Crawlern sehr schwer macht, Daten zu scrapen. Es gibt wahrscheinlich mehrere Möglichkeiten, die meisten Webseiten rückwärts zu crawlen: Es gibt Verifizierungscodes, IP-Adressen, schwarze Listen usw. sowie einige fortschrittlichere Methoden des Reverse-Crawlings. Dieser Crawler hat außerdem Maßnahmen ergriffen, um mit Anti-Crawling, dem Umgehen von Verifizierungscodes, der Nutzung von Proxys usw. umzugehen, füge unten einen Teil des Codes ein, diskutiere und lerne mit dir, bitte korrigiere das Problem! Dieser Crawler richtet sich hauptsächlich an eine bestimmte Website.
Nach der Eingabe der URL kannst du die Daten entsprechend der URL crawlen und dann die Daten mit XPath filtern und bereinigen, um die gewünschten Daten zu erhalten
Um Backcrawling zu umgehen, kannst du eine Proxy-IP zum Zugriff verwenden, du kannst eine stark versteckte IP im Internet herunterladen oder herunterladen und dann zufällig die Proxy-IP wechseln, um zu Grab zu greifen
Der obige Code soll zunächst bestimmen, ob die geschaltete IP zugänglich ist Schau dir den Quellcode des jeweiligen Codes an und gib den Quellcode an!
Quellcode-Download
Touristen, wenn ihr den versteckten Inhalt dieses Beitrags sehen wollt, bitte Antwort
|