Много краулъри в интернет са написани на python, а преди време беше написан и aps.net прост краулър, който може да обхожда данните, които искате да обходите. В наши дни много уебсайтове са създали механизъм за връщане на краулинга, който прави много трудно за краулърите да събират данни. Вероятно има няколко начина за обратен преглед на повечето уебсайтове: има кодове за верификация, IP адреси, черни списъци и т.н., както и някои по-напреднали методи за обратен обход. Този краулър е предприел и мерки за справяне с анти-краулиране, заобикаляне на кодове за верификация, използване на проксита и др., поставете част от кода по-долу, обсъждайте и учете с вас, моля, коригирайте какво не е наред! Този краулър е насочен основно към определен уебсайт.
След като въведете URL адреса, можете да върнете данните според URL адреса и след това да филтрирате и почистите данните през XPath, за да получите желаните данни
За да избегнете backcrawling, можете да използвате прокси IP за достъп, да изтеглите или вземете IP с високо скрит достъп от интернет и след това случайно да превключите прокси IP-то, за да го вземете.
Горният код първо трябва да определи дали превключваният IP адрес е достъпен Погледнете изходния код за конкретния код и го предоставени!
Изтегляне на изходния код
Туристи, ако искате да видите скритото съдържание на този пост, моля Отговор
|