Strona internetowa przeciw kieszonkowaniu

Laical · Opublikowano 12.07.2019 17:22:08

1. Nagłówek HTTP request

Za każdym razem, gdy żądanie HTTP jest wysyłane do serwera, przekazywany jest zestaw atrybutów i informacji konfiguracyjnych, którym jest nagłówek HTTP request. Ponieważ nagłówek żądania wysyłany przez przeglądarkę różni się od nagłówka żądania wysyłanego przez kod crawlera, prawdopodobnie zostanie on wykryty przez antycrawlera, co skutkuje zablokowaniem IP.

2. Ustawienia plików cookie

Strony internetowe śledzą Twoją wizytę za pomocą ciasteczek i natychmiast ją przerywają, jeśli wykryje się zachowanie crawlera, na przykład podczas szybkiego wypełniania formularza lub przeglądania dużej liczby stron w krótkim czasie. Zaleca się sprawdzenie plików cookie generowanych przez te strony podczas zbierania witryn, a następnie zastanowienie się, z którymi z nich musi się zmierzyć crawler.

3. Ścieżka dostępu

Ogólna ścieżka dostępu do crawlera jest zawsze taka sama i łatwo jest zostać rozpoznanym przez anty-crawlery, próbować symulować dostęp użytkownika i losowo uzyskiwać dostęp do strony.

4. Częstotliwość wizyt

Większość powodów blokowania IP wynika z zbyt wysokiej częstotliwości dostępu – w końcu chcą szybko zakończyć zadanie crawlera, ale prędkość nie jest osiągnięta, a efektywność spada po zablokowaniu IP.

Podstawowa strategia antycrawlerów to oczywiście te, bardziej rygorystyczne antycrawlery, nie tylko te, które wymagają od inżynierów antycrawlerów stopniowego badania strategii antycrawlerowej docelowej strony; wraz z ciągłym ulepszaniem strategii antycrawlerów, strategia crawlerów również musi być stale aktualizowana, a w połączeniu z wydajnym i wysokiej jakości IP-proxy praca crawlera może być wykonywana efektywnie.

Mały śmiecie · Opublikowano 12.07.2019 19:01:50

Crawlery symulują dane żądań HTTP, a wszystkie anty-crawlery są takie same, tylko po to, by sprawdzić, czyj algorytm jest mądrzejszy i bardziej wydajny. Konieczne jest również opracowanie rozsądnej strategii opartej na własnej sytuacji biznesowej.

Na przykład na zwykłej stronie konsultingowej użytkownicy nie mogą otrzymać 1000 żądań w ciągu 1 minuty ani dziesiątek tysięcy w godzinę; jeśli pojedynczy adres IP przekroczy ustalony próg, można je bezpośrednio odrzucić lub przejść do strony z kodem weryfikacyjnym, przesunąć lub wpisać kod weryfikacyjny, można ponownie normalnie uzyskać dostęp, w przeciwnym razie IP zostanie zablokowane.

[Komunikacja] Strona internetowa przeciw kieszonkowaniu

Oglądane sekcje