Molti crawler su Internet sono scritti in python, e tempo fa è stato scritto anche un crawler aps.net semplice, che può rastrelare i dati che si desiderano scansionare. Oggigiorno, molti siti web hanno creato un meccanismo di backcrawling, che rende molto difficile per i crawler lo scraping dei dati. Probabilmente ci sono diversi modi per scansionare al contrario la maggior parte dei siti: ci sono codici di verifica, indirizzi IP, blacklist, ecc., e alcuni metodi di scansione inversa più avanzati. Questo crawler ha anche adottato alcune misure per affrontare l'anti-crawling, bypassare i codici di verifica, usare proxy, ecc., incolla parte del codice qui sotto, discutere e imparare con te, per favore correggi ciò che non va! Questo crawler è principalmente rivolto a un certo sito web.
Dopo aver inserito l'URL, puoi scansionare i dati in base all'URL, poi filtrare e pulire i dati tramite XPath per ottenere i dati desiderati
Per bypassare il backcrawling, puoi usare un IP proxy per accedere, puoi scaricare o prendere un IP altamente nascosto su Internet, e poi cambiare casualmente l'IP proxy per prenderlo
Il codice sopra serve innanzitutto a determinare se l'IP commutato è accessibile Guarda il codice sorgente del codice specifico e fornisci il codice sorgente!
Download del codice sorgente
Turisti, se volete vedere il contenuto nascosto di questo post, vi prego Risposta
|