Website-Anti-Taschendiebstahl

Laical · Veröffentlicht am 12.07.2019 17:22:08

1. HTTP-Anfrage-Header

Jedes Mal, wenn eine HTTP-Anfrage an den Server gesendet wird, wird eine Menge von Attributen und Konfigurationsinformationen übermittelt, nämlich der HTTP-Anfrage-Header. Da der vom Browser gesendete Anfrageheader sich von dem vom Crawler-Code gesendeten Anfrageheader unterscheidet, wird er wahrscheinlich vom Anti-Crawler entdeckt, was zu einer IP-Blockierung führt.

2. Cookie-Einstellungen

Webseiten verfolgen Ihren Besuch über Cookies und unterbrechen Ihren Besuch sofort, wenn Crawler-Verhalten erkannt wird, etwa das schnelle Ausfüllen eines Formulars oder das Durchsuchen einer großen Anzahl von Seiten in kurzer Zeit. Es wird empfohlen, die Cookies zu überprüfen, die diese Websites im Rahmen der Sammlung der Websites erstellen, und dann zu überlegen, mit welchem der Crawler zu tun hat.

3. Zugangsweg

Der allgemeine Crawler-Zugriffspfad ist immer derselbe, und es ist leicht, von Anti-Crawlern erkannt zu werden, den Benutzerzugriff zu simulieren und zufällig auf die Seite zuzugreifen.

4. Häufigkeit der Besuche

Die meisten Gründe für das Blockieren von IPs sind, dass die Zugriffsfrequenz zu hoch ist – schließlich wollen sie die Crawler-Aufgabe schnell erledigen, aber die Geschwindigkeit wird nicht erreicht und die Effizienz nimmt ab, nachdem die IP blockiert wurde.

Die grundlegende Anti-Crawler-Strategie ist natürlich einige strengere Anti-Crawler, nicht nur diese, was erfordert, dass Anti-Crawler-Ingenieure die Anti-Crawler-Strategie der Zielwebsite langsam untersuchen; mit dem kontinuierlichen Upgrade der Anti-Crawler-Strategie muss auch die Crawler-Strategie kontinuierlich aufgerüstet werden, kombiniert mit effizienten und hochwertigen Proxy-IP, sodass die Arbeit effizient ausgeführt werden kann.

Kleiner Abschaum · Veröffentlicht am 12.07.2019 19:01:50

Crawler simulieren HTTP-Anfragedaten, und alle Anti-Crawler sind gleich, nur um zu sehen, welcher Algorithmus intelligenter und effizienter ist. Es ist außerdem notwendig, eine vernünftige Strategie basierend auf Ihrer eigenen Geschäftssituation zu formulieren.

Zum Beispiel können Nutzer auf einer normalen Beratungswebsite nicht 1.000 Anfragen in einer Minute oder Zehntausende Anfragen in einer Stunde haben; wenn eine einzelne IP die festgelegte Schwelle überschreitet, kann man sie direkt ablehnen oder auf eine Verifikationscodeseite springen, schieben oder den Verifizierungscode eingeben, den man wieder normal abrufen kann, andernfalls wird die IP blockiert.

[Kommunikation] Website-Anti-Taschendiebstahl

Betrachtete Abschnitte