Mnoho crawlerů na internetu je napsáno v pythonu a před časem byl napsán také aps.net jednoduchý crawler, který dokáže prohledat data, která chcete prohledat. V dnešní době mnoho webů vytvořilo zpětný crawling, což velmi ztěžuje crawlerům stahování dat. Pravděpodobně existuje několik způsobů, jak zpětně procházet většinu webů: existují ověřovací kódy, IP adresy, černé listiny atd. a některé pokročilejší metody reverzního procházení. Tento crawler také přijal opatření proti procházení, obcházení ověřovacích kódů, používání proxy a podobně, vložte část kódu níže, diskutujte a učte se s vámi, prosím, opravte, co je špatně! Tento crawler je zaměřen hlavně na určitý web.
Po zadání URL můžete data podle URL znovu vyhledat a pak je filtrovat a čistit přes XPath, abyste získali požadovaná data
Pro obejití backcrawlingu můžete použít proxy IP pro přístup, stáhnout nebo získat IP s vysokým skrytým přístupem na internetu a pak náhodně přepnout proxy IP pro získání
Výše uvedený kód slouží nejprve k určení, zda je přepínaná IP adresa přístupná Podívejte se na zdrojový kód konkrétního kódu a poskytněte zdrojový kód!
Stažení zdrojového kódu
Turisté, pokud chcete vidět skrytý obsah tohoto příspěvku, prosím Odpověď
|