Multe crawlere de pe Internet sunt scrise în python, iar acum ceva timp a fost scris și un crawler aps.net simplu, care poate crawla datele pe care vrei să le crawlezi. În prezent, multe site-uri web au creat un mecanism de backcrawling, ceea ce face foarte dificil pentru crawleri să extragă date. Probabil există mai multe moduri de a scana invers majoritatea site-urilor: există coduri de verificare, adrese IP, liste negre etc., și unele metode mai avansate de crawling invers. Acest crawler a luat, de asemenea, unele măsuri pentru a face față anti-crawling-ului, ocolirea codurilor de verificare, folosirea proxy-urilor etc., lipește o parte din codul de mai jos, discută și învăță cu tine, te rog corectează ce este în neregulă! Acest crawler este destinat în principal unui anumit site.
După introducerea URL-ului, poți căuta datele înapoi conform URL-ului, apoi să filtrezi și să cureți datele prin XPath pentru a obține datele dorite
Pentru a evita backcrawling-ul, poți folosi un IP proxy pentru acces, poți descărca sau prelua un IP cu ascundere mare de pe Internet și apoi poți schimba aleatoriu IP-ul proxy pentru a obține
Codul de mai sus este pentru a determina mai întâi dacă IP-ul comutat este accesibil Uită-te la codul sursă pentru codul specific și oferă codul sursă!
Descărcare codului sursă
Turiști, dacă vreți să vedeți conținutul ascuns al acestei postări, vă rog Răspunde
|