Sito web anti-borseggiamento

Laico · Pubblicato su 12/07/2019 17:22:08

1. Intestazione della richiesta HTTP

Ogni volta che una richiesta HTTP viene inviata al server, viene passato un insieme di attributi e informazioni di configurazione, che è l'intestazione della richiesta HTTP. Poiché l'intestazione della richiesta inviata dal browser è diversa da quella inviata dal codice del crawler, è probabile che venga scoperta dall'anti-crawler, causando il blocco dell'IP.

2. Impostazioni dei cookie

I siti web tracciano la tua visita tramite cookie e interrompono immediatamente la visita se viene rilevato un comportamento del crawler, come compilare un modulo particolarmente rapidamente o sfogliare un gran numero di pagine in poco tempo. Si consiglia di controllare i cookie generati da questi siti durante il processo di raccolta dei siti e poi pensare a quale dei cookie deve gestire il crawler.

3. Percorso di accesso

Il percorso di accesso generale del crawler è sempre lo stesso, ed è facile farsi riconoscere dagli anti-crawler, cercare di simulare l'accesso dell'utente e accedere casualmente alla pagina.

4. Frequenza delle visite

La maggior parte delle ragioni per bloccare gli IP è che la frequenza di accesso è troppo alta, dopotutto vogliono completare rapidamente il compito del crawler, ma la velocità non viene raggiunta e l'efficienza diminuisce dopo che l'IP è bloccato.

La strategia base anti-crawler è questa, ovviamente, alcuni anti-crawler più severi, non solo questi, che richiedono agli ingegneri anti-crawler di studiare lentamente la strategia anti-crawler del sito target; con il continuo aggiornamento della strategia anti-crawler, la strategia crawler deve essere aggiornata continuamente, unita a IP proxy efficiente e di alta qualità, il lavoro sul crawler può essere svolto in modo efficiente.

Piccola feccia · Pubblicato su 12/07/2019 19:01:50

I crawler simulano i dati delle richieste HTTP, e tutti gli anti-crawler sono uguali, solo per vedere quale algoritmo sia più intelligente ed efficiente. È inoltre necessario formulare una strategia ragionevole basata sulla propria situazione aziendale.

Ad esempio, su un normale sito di consulenza, gli utenti non possono ricevere 1.000 richieste in 1 minuto, né decine di migliaia di richieste in 1 ora; se un singolo IP supera la soglia stabilita, puoi rifiutarlo direttamente o saltare a una pagina di codici di verifica, scorrere o inserire il codice di verifica, puoi accedere normalmente, altrimenti l'IP verrà bloccato.

[Comunicazione] Sito web anti-borseggiamento

Sezioni visualizzate