Mange crawlere på Internett er skrevet i Python, og for en tid tilbake ble det også laget en aps.net enkel crawler, som kan crawle dataene du ønsker å crawle. I dag har mange nettsteder laget en backcrawling-mekanisme, som gjør det svært vanskelig for crawlere å skrape data. Det finnes sannsynligvis flere måter å reverse crawle de fleste nettsteder på: det finnes verifiseringskoder, IP-adresser, svartelister osv., og noen mer avanserte reverse crawling-metoder. Denne crawleren har også tatt noen tiltak for å håndtere anti-crawling, omgå verifiseringskoder, bruk av proxyer osv., lim inn noe av koden nedenfor, diskuter og lær med deg, vennligst korriger det som er galt! Denne crawleren er hovedsakelig rettet mot et bestemt nettsted.
Etter å ha skrevet inn URL-en, kan du crawle dataene tilbake i henhold til URL-en, og deretter filtrere og rense dataene gjennom XPath for å hente dataene du ønsker
For å omgå backcrawling kan du bruke en proxy-IP for å få tilgang, du kan laste ned eller hente en høyt skjult IP på Internett, og deretter tilfeldig bytte proxy-IP for å hente
Koden ovenfor er først for å avgjøre om den svitsjede IP-en er tilgjengelig Se på kildekoden for den spesifikke koden, og oppgi kildekoden!
Nedlasting av kildekode
Turister, hvis dere vil se det skjulte innholdet i dette innlegget, vær så snill Svare
|