Dieser Artikel ist ein Spiegelartikel der maschinellen Übersetzung, bitte klicken Sie hier, um zum Originalartikel zu springen.

Ansehen: 10314|Antwort: 1

[Kommunikation] Website-Anti-Taschendiebstahl

[Link kopieren]
Veröffentlicht am 12.07.2019 17:22:08 | | |
1. HTTP-Anfrage-Header

Jedes Mal, wenn eine HTTP-Anfrage an den Server gesendet wird, wird eine Menge von Attributen und Konfigurationsinformationen übermittelt, nämlich der HTTP-Anfrage-Header. Da der vom Browser gesendete Anfrageheader sich von dem vom Crawler-Code gesendeten Anfrageheader unterscheidet, wird er wahrscheinlich vom Anti-Crawler entdeckt, was zu einer IP-Blockierung führt.

2. Cookie-Einstellungen

Webseiten verfolgen Ihren Besuch über Cookies und unterbrechen Ihren Besuch sofort, wenn Crawler-Verhalten erkannt wird, etwa das schnelle Ausfüllen eines Formulars oder das Durchsuchen einer großen Anzahl von Seiten in kurzer Zeit. Es wird empfohlen, die Cookies zu überprüfen, die diese Websites im Rahmen der Sammlung der Websites erstellen, und dann zu überlegen, mit welchem der Crawler zu tun hat.

3. Zugangsweg

Der allgemeine Crawler-Zugriffspfad ist immer derselbe, und es ist leicht, von Anti-Crawlern erkannt zu werden, den Benutzerzugriff zu simulieren und zufällig auf die Seite zuzugreifen.

4. Häufigkeit der Besuche

Die meisten Gründe für das Blockieren von IPs sind, dass die Zugriffsfrequenz zu hoch ist – schließlich wollen sie die Crawler-Aufgabe schnell erledigen, aber die Geschwindigkeit wird nicht erreicht und die Effizienz nimmt ab, nachdem die IP blockiert wurde.

Die grundlegende Anti-Crawler-Strategie ist natürlich einige strengere Anti-Crawler, nicht nur diese, was erfordert, dass Anti-Crawler-Ingenieure die Anti-Crawler-Strategie der Zielwebsite langsam untersuchen; mit dem kontinuierlichen Upgrade der Anti-Crawler-Strategie muss auch die Crawler-Strategie kontinuierlich aufgerüstet werden, kombiniert mit effizienten und hochwertigen Proxy-IP, sodass die Arbeit effizient ausgeführt werden kann.




Vorhergehend:SpringBootMainApplication oder auch für Application
Nächster:Python-Einführungs-Tutorial Vollversion (du kannst es lernen, wenn du Chinesisch kannst)
Veröffentlicht am 12.07.2019 19:01:50 |
Crawler simulieren HTTP-Anfragedaten, und alle Anti-Crawler sind gleich, nur um zu sehen, welcher Algorithmus intelligenter und effizienter ist. Es ist außerdem notwendig, eine vernünftige Strategie basierend auf Ihrer eigenen Geschäftssituation zu formulieren.

Zum Beispiel können Nutzer auf einer normalen Beratungswebsite nicht 1.000 Anfragen in einer Minute oder Zehntausende Anfragen in einer Stunde haben; wenn eine einzelne IP die festgelegte Schwelle überschreitet, kann man sie direkt ablehnen oder auf eine Verifikationscodeseite springen, schieben oder den Verifizierungscode eingeben, den man wieder normal abrufen kann, andernfalls wird die IP blockiert.
Verzichtserklärung:
Alle von Code Farmer Network veröffentlichten Software, Programmiermaterialien oder Artikel dienen ausschließlich Lern- und Forschungszwecken; Die oben genannten Inhalte dürfen nicht für kommerzielle oder illegale Zwecke verwendet werden, andernfalls tragen die Nutzer alle Konsequenzen. Die Informationen auf dieser Seite stammen aus dem Internet, und Urheberrechtsstreitigkeiten haben nichts mit dieser Seite zu tun. Sie müssen die oben genannten Inhalte innerhalb von 24 Stunden nach dem Download vollständig von Ihrem Computer löschen. Wenn Ihnen das Programm gefällt, unterstützen Sie bitte echte Software, kaufen Sie die Registrierung und erhalten Sie bessere echte Dienstleistungen. Falls es eine Verletzung gibt, kontaktieren Sie uns bitte per E-Mail.

Mail To:help@itsvse.com