|
Per il motore di ricerca Baidu, il buco nero dello spider si riferisce al sito web attraverso il costo molto basso per creare un gran numero di parametri troppo, e il contenuto dello stesso, ma i parametri specifici del diverso URL dinamico, come un ciclo infinito del "buco nero" spider intrappolato, Baiduspider sprecato un gran numero di risorse per strisciare è pagina web non valida. Ad esempio, molti siti web hanno una funzione di screening, attraverso la funzione di screening della pagina web sarà spesso un gran numero di motori di ricerca crawl, e gran parte del valore di ricerca non è alto, come "500-1000 prezzi tra il noleggio", prima di tutto, il sito web (tra cui la realtà) sulla base di nessuna risorsa rilevante, e in secondo luogo, il sito web (tra cui la realtà ) è sostanzialmente privo di risorse rilevanti e, in secondo luogo, gli utenti del sito e gli utenti dei motori di ricerca non hanno questa abitudine di ricerca. Questo tipo di pagina web è un gran numero di crawling dei motori di ricerca, può solo occupare la preziosa quota di crawling del sito. Come evitare questa situazione? Prendiamo come esempio un sito di acquisti di gruppo a Pechino, per vedere come il sito utilizza i robot per evitare abilmente questo buco nero per gli spider: Per la pagina dei risultati di selezione ordinaria, il sito ha scelto di utilizzare link statici, come ad esempio: http://bj.XXXXX.com/category/zizhucan/weigongcun La pagina dei risultati di selezione con la stessa condizione, quando l'utente seleziona una diversa condizione di selezione, genera un link dinamico con parametri diversi. link dinamici, e anche a parità di condizioni di ordinamento (es.: sono in ordine decrescente per vendite), i parametri generati sono diversi. Ad esempio: http://bj.XXXXX.com/category/zizhucan/weigongcun/hot?mtt=1.index%2Fpoi.0.0.i1afqhek http://bj.XXXXX.com/category/zizhucan/ weigongcun/hot?mtt=1.index%2Fpoi.0.0.i1afqi5c
Per questa rete di acquisto di gruppo, solo lasciare che il motore di ricerca strisciare la pagina dei risultati di screening può essere, e tutti i tipi di con i parametri dei risultati della pagina di ordinamento attraverso le regole robots rifiutare di fornire al motore di ricerca. L'uso del file robots.txt ha una regola: Disallow: /*? *, ovvero vietare ai motori di ricerca l'accesso a tutte le pagine dinamiche del sito. In questo modo, il sito è esattamente la priorità di Baiduspider per mostrare pagine di alta qualità, bloccando le pagine di bassa qualità, per Baiduspider per fornire una struttura del sito più amichevole, per evitare la formazione di buchi neri.
|