Questo articolo è un articolo speculare di traduzione automatica, clicca qui per saltare all'articolo originale.

Vista: 10314|Risposta: 1

[Comunicazione] Sito web anti-borseggiamento

[Copiato link]
Pubblicato su 12/07/2019 17:22:08 | | |
1. Intestazione della richiesta HTTP

Ogni volta che una richiesta HTTP viene inviata al server, viene passato un insieme di attributi e informazioni di configurazione, che è l'intestazione della richiesta HTTP. Poiché l'intestazione della richiesta inviata dal browser è diversa da quella inviata dal codice del crawler, è probabile che venga scoperta dall'anti-crawler, causando il blocco dell'IP.

2. Impostazioni dei cookie

I siti web tracciano la tua visita tramite cookie e interrompono immediatamente la visita se viene rilevato un comportamento del crawler, come compilare un modulo particolarmente rapidamente o sfogliare un gran numero di pagine in poco tempo. Si consiglia di controllare i cookie generati da questi siti durante il processo di raccolta dei siti e poi pensare a quale dei cookie deve gestire il crawler.

3. Percorso di accesso

Il percorso di accesso generale del crawler è sempre lo stesso, ed è facile farsi riconoscere dagli anti-crawler, cercare di simulare l'accesso dell'utente e accedere casualmente alla pagina.

4. Frequenza delle visite

La maggior parte delle ragioni per bloccare gli IP è che la frequenza di accesso è troppo alta, dopotutto vogliono completare rapidamente il compito del crawler, ma la velocità non viene raggiunta e l'efficienza diminuisce dopo che l'IP è bloccato.

La strategia base anti-crawler è questa, ovviamente, alcuni anti-crawler più severi, non solo questi, che richiedono agli ingegneri anti-crawler di studiare lentamente la strategia anti-crawler del sito target; con il continuo aggiornamento della strategia anti-crawler, la strategia crawler deve essere aggiornata continuamente, unita a IP proxy efficiente e di alta qualità, il lavoro sul crawler può essere svolto in modo efficiente.




Precedente:SpringBootMainApplication o anche per Application
Prossimo:Versione completa del tutorial introduttivo di Python (puoi impararlo se conosci il cinese)
Pubblicato su 12/07/2019 19:01:50 |
I crawler simulano i dati delle richieste HTTP, e tutti gli anti-crawler sono uguali, solo per vedere quale algoritmo sia più intelligente ed efficiente. È inoltre necessario formulare una strategia ragionevole basata sulla propria situazione aziendale.

Ad esempio, su un normale sito di consulenza, gli utenti non possono ricevere 1.000 richieste in 1 minuto, né decine di migliaia di richieste in 1 ora; se un singolo IP supera la soglia stabilita, puoi rifiutarlo direttamente o saltare a una pagina di codici di verifica, scorrere o inserire il codice di verifica, puoi accedere normalmente, altrimenti l'IP verrà bloccato.
Disconoscimento:
Tutto il software, i materiali di programmazione o gli articoli pubblicati dalla Code Farmer Network sono destinati esclusivamente all'apprendimento e alla ricerca; I contenuti sopra elencati non devono essere utilizzati per scopi commerciali o illegali, altrimenti gli utenti dovranno sostenere tutte le conseguenze. Le informazioni su questo sito provengono da Internet, e le controversie sul copyright non hanno nulla a che fare con questo sito. Devi eliminare completamente i contenuti sopra elencati dal tuo computer entro 24 ore dal download. Se ti piace il programma, ti preghiamo di supportare software autentico, acquistare la registrazione e ottenere servizi autentici migliori. In caso di violazione, vi preghiamo di contattarci via email.

Mail To:help@itsvse.com