Veel crawlers op het internet zijn geschreven in Python, en enige tijd geleden is er ook een aps.net eenvoudige crawler geschreven, die de data die je wilt crawlen kan crawlen. Tegenwoordig hebben veel websites een backcrawlingmechanisme ontwikkeld, waardoor het voor crawlers erg moeilijk is om data te scrapen. Er zijn waarschijnlijk verschillende manieren om de meeste websites te reverse crawlen: er zijn verificatiecodes, IP-adressen, zwarte lijsten, enzovoort, en enkele meer geavanceerde reverse crawling-methoden. Deze crawler heeft ook maatregelen genomen om anti-crawling aan te pakken, het omzeilen van verificatiecodes, het gebruik van proxies, enzovoort, plak hieronder wat code, bespreek en leer met je mee, corrigeer alsjeblieft wat er mis is! Deze crawler is voornamelijk gericht op een bepaalde website.
Na het invoeren van de URL kun je de data terugcrawlen volgens de URL, en vervolgens de data filteren en opschonen via XPath om de data te verkrijgen die je wilt
Om backcrawling te omzeilen, kun je een proxy-IP gebruiken om toegang te krijgen, je kunt een hoog verborgen IP downloaden of downloaden op het internet, en vervolgens willekeurig het proxy-IP wisselen om te pakken
De bovenstaande code is eerst bedoeld om te bepalen of het geschakelde IP toegankelijk is Bekijk de broncode van de specifieke code en geef de broncode aan!
Broncode downloaden
Toeristen, als jullie de verborgen inhoud van dit bericht willen zien, alsjeblieft Antwoord
|