Mnohé prehľadávače na internete sú napísané v pythone a pred časom bol napísaný aj aps.net jednoduchý prehľadávač, ktorý dokáže prehľadávať dáta, ktoré chcete prehľadávať. V súčasnosti mnohé webové stránky vytvorili mechanizmus spätného prehľadávania, ktorý veľmi sťažuje prehľadávačom získavanie dát. Pravdepodobne existuje niekoľko spôsobov, ako reverzne prehľadávať väčšinu webových stránok: existujú overovacie kódy, IP adresy, čierne listiny a podobne, a niektoré pokročilejšie metódy reverzného prehľadávania. Tento crawler tiež prijal opatrenia na riešenie anti-crawlingu, obchádzania overovacích kódov, používania proxy a podobne, vložte časť kódu nižšie, diskutujte a učte sa s vami, prosím, opravte, čo je zle! Tento crawler je primárne zameraný na určitú webovú stránku.
Po zadaní URL môžete dáta podľa URL vyhľadať späť a potom ich filtrovať a čistiť cez XPath, aby ste získali požadované dáta
Na obchádzanie spätného prehľadu môžete použiť proxy IP na prístup, môžete stiahnuť alebo získať vysoko skrytú IP na internete a potom náhodne prepínať proxy IP na získanie
Vyššie uvedený kód slúži najprv na zistenie, či je prepínaná IP adresa prístupná Pozrite si zdrojový kód konkrétneho kódu a poskytnite zdrojový kód!
Stiahnutie zdrojového kódu
Turisti, ak chcete vidieť skrytý obsah tohto príspevku, prosím. Odpoveď
|