1. Nagłówek HTTP request
Za każdym razem, gdy żądanie HTTP jest wysyłane do serwera, przekazywany jest zestaw atrybutów i informacji konfiguracyjnych, którym jest nagłówek HTTP request. Ponieważ nagłówek żądania wysyłany przez przeglądarkę różni się od nagłówka żądania wysyłanego przez kod crawlera, prawdopodobnie zostanie on wykryty przez antycrawlera, co skutkuje zablokowaniem IP.
2. Ustawienia plików cookie
Strony internetowe śledzą Twoją wizytę za pomocą ciasteczek i natychmiast ją przerywają, jeśli wykryje się zachowanie crawlera, na przykład podczas szybkiego wypełniania formularza lub przeglądania dużej liczby stron w krótkim czasie. Zaleca się sprawdzenie plików cookie generowanych przez te strony podczas zbierania witryn, a następnie zastanowienie się, z którymi z nich musi się zmierzyć crawler.
3. Ścieżka dostępu
Ogólna ścieżka dostępu do crawlera jest zawsze taka sama i łatwo jest zostać rozpoznanym przez anty-crawlery, próbować symulować dostęp użytkownika i losowo uzyskiwać dostęp do strony.
4. Częstotliwość wizyt
Większość powodów blokowania IP wynika z zbyt wysokiej częstotliwości dostępu – w końcu chcą szybko zakończyć zadanie crawlera, ale prędkość nie jest osiągnięta, a efektywność spada po zablokowaniu IP.
Podstawowa strategia antycrawlerów to oczywiście te, bardziej rygorystyczne antycrawlery, nie tylko te, które wymagają od inżynierów antycrawlerów stopniowego badania strategii antycrawlerowej docelowej strony; wraz z ciągłym ulepszaniem strategii antycrawlerów, strategia crawlerów również musi być stale aktualizowana, a w połączeniu z wydajnym i wysokiej jakości IP-proxy praca crawlera może być wykonywana efektywnie.
|