Wiele crawlerów w Internecie jest napisanych w Pythonie, a jakiś czas temu powstał także aps.net prosty crawler, który może przeszukiwać dane, które chcesz przeszukać. Obecnie wiele stron internetowych wprowadziło mechanizm backcrawlingu, co bardzo utrudnia crawlerom pobieranie danych. Prawdopodobnie istnieje kilka sposobów na odwrócone przeszukiwanie większości stron: są kody weryfikacyjne, adresy IP, czarne listy itp. oraz bardziej zaawansowane metody wstecznego indeksowania. Ten crawler podjął również środki zapobiegające indeksowaniu, omijaniu kodów weryfikacyjnych, używaniu proxy itp., wklej część poniższego kodu, omówcie i uczcie się z wami, proszę, poprawcie to, co jest nie tak! Ten crawler jest głównie skierowany do konkretnej strony internetowej.
Po wpisaniu adresu URL możesz przeszukiwać dane według URL, a następnie filtrować i czyścić dane przez XPath, aby uzyskać potrzebne dane
Aby obejść backcrawling, możesz użyć adresu IP proxy, pobrać lub pobrać IP o wysokiej ukryciu w Internecie, a następnie losowo zmienić adres IP proxy, aby pobrać
Powyższy kod ma najpierw ustalić, czy przełączane IP jest dostępne Sprawdź kod źródłowy konkretnego kodu i podaj go pod sobą!
Pobranie kodu źródłowego
Turyści, jeśli chcecie zobaczyć ukrytą zawartość tego wpisu, proszę Odpowiedź
|