Ten artykuł jest lustrzanym artykułem tłumaczenia maszynowego, kliknij tutaj, aby przejść do oryginalnego artykułu.

Widok: 10314|Odpowiedź: 1

[Komunikacja] Strona internetowa przeciw kieszonkowaniu

[Skopiuj link]
Opublikowano 12.07.2019 17:22:08 | | |
1. Nagłówek HTTP request

Za każdym razem, gdy żądanie HTTP jest wysyłane do serwera, przekazywany jest zestaw atrybutów i informacji konfiguracyjnych, którym jest nagłówek HTTP request. Ponieważ nagłówek żądania wysyłany przez przeglądarkę różni się od nagłówka żądania wysyłanego przez kod crawlera, prawdopodobnie zostanie on wykryty przez antycrawlera, co skutkuje zablokowaniem IP.

2. Ustawienia plików cookie

Strony internetowe śledzą Twoją wizytę za pomocą ciasteczek i natychmiast ją przerywają, jeśli wykryje się zachowanie crawlera, na przykład podczas szybkiego wypełniania formularza lub przeglądania dużej liczby stron w krótkim czasie. Zaleca się sprawdzenie plików cookie generowanych przez te strony podczas zbierania witryn, a następnie zastanowienie się, z którymi z nich musi się zmierzyć crawler.

3. Ścieżka dostępu

Ogólna ścieżka dostępu do crawlera jest zawsze taka sama i łatwo jest zostać rozpoznanym przez anty-crawlery, próbować symulować dostęp użytkownika i losowo uzyskiwać dostęp do strony.

4. Częstotliwość wizyt

Większość powodów blokowania IP wynika z zbyt wysokiej częstotliwości dostępu – w końcu chcą szybko zakończyć zadanie crawlera, ale prędkość nie jest osiągnięta, a efektywność spada po zablokowaniu IP.

Podstawowa strategia antycrawlerów to oczywiście te, bardziej rygorystyczne antycrawlery, nie tylko te, które wymagają od inżynierów antycrawlerów stopniowego badania strategii antycrawlerowej docelowej strony; wraz z ciągłym ulepszaniem strategii antycrawlerów, strategia crawlerów również musi być stale aktualizowana, a w połączeniu z wydajnym i wysokiej jakości IP-proxy praca crawlera może być wykonywana efektywnie.




Poprzedni:SpringBootMainApplication lub także dla aplikacji
Następny:Pełna wersja wprowadzającego tutorialu do Pythona (możesz się go nauczyć, jeśli znasz chiński)
Opublikowano 12.07.2019 19:01:50 |
Crawlery symulują dane żądań HTTP, a wszystkie anty-crawlery są takie same, tylko po to, by sprawdzić, czyj algorytm jest mądrzejszy i bardziej wydajny. Konieczne jest również opracowanie rozsądnej strategii opartej na własnej sytuacji biznesowej.

Na przykład na zwykłej stronie konsultingowej użytkownicy nie mogą otrzymać 1000 żądań w ciągu 1 minuty ani dziesiątek tysięcy w godzinę; jeśli pojedynczy adres IP przekroczy ustalony próg, można je bezpośrednio odrzucić lub przejść do strony z kodem weryfikacyjnym, przesunąć lub wpisać kod weryfikacyjny, można ponownie normalnie uzyskać dostęp, w przeciwnym razie IP zostanie zablokowane.
Zrzeczenie się:
Całe oprogramowanie, materiały programistyczne lub artykuły publikowane przez Code Farmer Network służą wyłącznie celom edukacyjnym i badawczym; Powyższe treści nie mogą być wykorzystywane do celów komercyjnych ani nielegalnych, w przeciwnym razie użytkownicy ponoszą wszelkie konsekwencje. Informacje na tej stronie pochodzą z Internetu, a spory dotyczące praw autorskich nie mają z nią nic wspólnego. Musisz całkowicie usunąć powyższą zawartość z komputera w ciągu 24 godzin od pobrania. Jeśli spodoba Ci się program, wspieraj oryginalne oprogramowanie, kup rejestrację i korzystaj z lepszych, autentycznych usług. W przypadku naruszenia praw prosimy o kontakt mailowy.

Mail To:help@itsvse.com