1. Intestazione della richiesta HTTP
Ogni volta che una richiesta HTTP viene inviata al server, viene passato un insieme di attributi e informazioni di configurazione, che è l'intestazione della richiesta HTTP. Poiché l'intestazione della richiesta inviata dal browser è diversa da quella inviata dal codice del crawler, è probabile che venga scoperta dall'anti-crawler, causando il blocco dell'IP.
2. Impostazioni dei cookie
I siti web tracciano la tua visita tramite cookie e interrompono immediatamente la visita se viene rilevato un comportamento del crawler, come compilare un modulo particolarmente rapidamente o sfogliare un gran numero di pagine in poco tempo. Si consiglia di controllare i cookie generati da questi siti durante il processo di raccolta dei siti e poi pensare a quale dei cookie deve gestire il crawler.
3. Percorso di accesso
Il percorso di accesso generale del crawler è sempre lo stesso, ed è facile farsi riconoscere dagli anti-crawler, cercare di simulare l'accesso dell'utente e accedere casualmente alla pagina.
4. Frequenza delle visite
La maggior parte delle ragioni per bloccare gli IP è che la frequenza di accesso è troppo alta, dopotutto vogliono completare rapidamente il compito del crawler, ma la velocità non viene raggiunta e l'efficienza diminuisce dopo che l'IP è bloccato.
La strategia base anti-crawler è questa, ovviamente, alcuni anti-crawler più severi, non solo questi, che richiedono agli ingegneri anti-crawler di studiare lentamente la strategia anti-crawler del sito target; con il continuo aggiornamento della strategia anti-crawler, la strategia crawler deve essere aggiornata continuamente, unita a IP proxy efficiente e di alta qualità, il lavoro sul crawler può essere svolto in modo efficiente.
|