Veliko pajkov na internetu je napisanih v Pythonu, pred časom pa je bil napisan tudi aps.net preprost pajek, ki lahko preiskuje podatke, ki jih želite preiskati. Danes je veliko spletnih strani uvedlo mehanizem za backcrawling, ki pajkom zelo otežuje pridobivanje podatkov. Verjetno obstaja več načinov za obratno pregledovanje večine spletnih strani: obstajajo verifikacijske kode, IP naslovi, črne liste itd., ter nekatere bolj napredne metode obratnega pajkanja. Ta pajk je sprejel tudi ukrepe za preprečevanje plazenja, obhod verifikacijskih kod, uporabo proxyjev itd., prilepim nekaj kode spodaj, razpravljam in se učimo z vami, prosim, popravite, kaj je narobe! Ta pajka je predvsem namenjena določeni spletni strani.
Po vnosu URL-ja lahko podatke prikličete nazaj glede na URL, nato pa jih filtrirate in očistite skozi XPath, da dobite želene podatke
Za obhod backcrawlinga lahko uporabite proxy IP za dostop, prenesete ali pridobite IP z visoko skritostjo na internetu in nato naključno zamenjate proxy IP za pridobitev
Zgornja koda je najprej namenjena ugotavljanju, ali je preklopljeni IP dostopen Poglejte izvorno kodo za določeno kodo in jo zagotovite!
Prenos izvorne kode
Turisti, če želite videti skrito vsebino te objave, prosim Odgovoriti
|