Många crawlers på internet är skrivna i Python, och för ett tag sedan skrevs också en aps.net enkel crawler som kan crawla den data du vill crawla. Numera har många webbplatser infört en backcrawling-mekanism, vilket gör det mycket svårt för crawlers att samla data. Det finns förmodligen flera sätt att reverse crawla de flesta webbplatser: det finns verifieringskoder, IP-adresser, svartlistor osv., samt några mer avancerade reverse crawling-metoder. Denna crawler har också vidtagit åtgärder för att hantera anti-crawling, att kringgå verifieringskoder, använda proxyer, etc., klistra in en del av koden nedan, diskutera och lär dig med dig, snälla rätta till det som är fel! Denna crawler riktar sig främst mot en viss webbplats.
Efter att ha angett URL:en kan du crawla tillbaka datan enligt URL:en, och sedan filtrera och rensa datan via XPath för att få fram den data du vill ha
För att kringgå backcrawling kan du använda en proxy-IP för att komma åt, du kan ladda ner eller ta en mycket dold IP på Internet, och sedan slumpmässigt byta proxy-IP till grab
Ovanstående kod är först för att avgöra om den switchade IP:n är tillgänglig Titta på källkoden för den specifika koden och lämna källkoden!
Källkodsnedladdning
Turister, om ni vill se det dolda innehållet i detta inlägg, snälla Svar
|