Mange crawlere på internettet er skrevet i python, og for noget tid siden blev der også skrevet en aps.net simpel crawler, som kan crawle de data, du ønsker at crawle. I dag har mange hjemmesider lavet en backcrawling-mekanisme, hvilket gør det meget svært for crawlere at skrabe data. Der er sandsynligvis flere måder at reverse crawle de fleste hjemmesider på: der findes verifikationskoder, IP-adresser, sortlister osv., og nogle mere avancerede reverse crawling-metoder. Denne crawler har også taget nogle skridt mod anti-crawling, omgåelse af verifikationskoder, brug af proxyer osv., indsæt noget af koden nedenfor, diskuter og lær med dig, ret venligst fejl! Denne crawler er primært rettet mod en bestemt hjemmeside.
Efter at have indtastet URL'en, kan du crawle dataene tilbage i henhold til URL'en og derefter filtrere og rense dataene gennem XPath for at få de data, du ønsker
For at omgå backcrawling kan du bruge en proxy-IP til at få adgang, du kan downloade eller hente en højt skjult IP på internettet, og så tilfældigt skifte proxy-IP'en for at tage
Ovenstående kode skal først afgøre, om den switchede IP er tilgængelig Se på kildekoden til den specifikke kode, og giv kildekoden!
Kildekode-download
Turister, hvis I vil se det skjulte indhold i dette indlæg, så vær venlig Svar
|