Robot intelligenti per evitare i buchi neri dei ragni

Admin · Pubblicato su 23/10/2014 22:44:58

Per il motore di ricerca Baidu, il buco nero del ragno si riferisce al sito web che crea un gran numero di parametri a costi molto bassi, e URL dinamici con contenuti simili ma parametri specifici diversi, proprio come un ciclo infinito di ragni "buchi neri" che intrappolano, Baiduspider spreca molte risorse per scansionare pagine web non valide.
Ad esempio, molti siti web hanno una funzione di filtraggio, e le pagine web generate dalla funzione di filtraggio vengono spesso rastrelate dai motori di ricerca, e gran parte di esse ha un basso valore di ricerca, come ad esempio "affittare una casa con un prezzo compreso tra 500 e 1000"; innanzitutto, praticamente non ci sono risorse rilevanti sul sito (anche nella realtà), e in secondo luogo, non esiste tale abitudine di ricerca per gli utenti sul sito e per quelli dei motori di ricerca. Questo tipo di pagina web viene rastrelato dai motori di ricerca in gran numero, che possono occupare solo una quota di scansione preziosa sul sito. Quindi, come si può evitare tutto ciò?
Prendiamo come esempio un sito di acquisti di gruppo a Pechino per vedere come il sito utilizza robot per evitare abilmente questo buco nero di ragno:

Per le pagine dei risultati con filtro normale, il sito sceglie di utilizzare link statici, come http://bj.XXXXX.com/category/zizhucan/weigongcun
Nella stessa pagina di risultati del filtro condizionato, quando gli utenti selezionano condizioni di ordinamento diverse, verranno generati collegamenti dinamici con parametri diversi e, anche se i criteri di ordinamento sono gli stessi (ad esempio, tutti in ordine decrescente di vendita), i parametri generati sono diversi. Per esempio: http://bj.XXXXX.com/category/zizhucan/weigongcun/hot?mtt=1.index%2Fpoi.0.0.i1afqhek
http://bj.XXXXX.com/category/zizhucan/weigongcun/hot?mtt=1.index%2Fpoi.0.0.i1afqi5c

Per la rete di acquisti di gruppo, solo il motore di ricerca può scansionare la pagina dei risultati del filtro, mentre la pagina di ordinamento dei risultati con vari parametri viene rifiutata dal motore di ricerca tramite regole robot.
robots.txt ha una regola sull'uso dei file: Dispermetti: /*?*, che vieta ai motori di ricerca di accedere a tutte le pagine dinamiche del sito. In questo modo, il sito dà priorità alle pagine di alta qualità e blocca quelle di bassa qualità per Baiduspider, offrendo a Baiduspider una struttura più amichevole ed evitando la formazione di buchi neri.

[Conoscenza sulla costruzione di siti web] Robot intelligenti per evitare i buchi neri dei ragni

Post correlati

Sezioni visualizzate