|
Para o motor de busca Baidu, o buraco negro da aranha refere-se ao site através do custo muito baixo para criar um grande número de parâmetros demais, e o conteúdo do mesmo, mas os parâmetros específicos do URL dinâmico diferente, como um loop infinito do "buraco negro" vai aranha presa, Baiduspider desperdiçou um grande número de recursos para rastrear é página da web inválida. Por exemplo, muitos sítios Web têm uma função de rastreio, através da função de rastreio da página Web, muitas vezes, um grande número de motores de busca rastreia, e uma grande parte do valor da pesquisa não é elevado, como "500-1000 preços entre o aluguer", em primeiro lugar, o sítio Web (incluindo a realidade) no básico não tem recursos relevantes e, em segundo lugar, o sítio Web (incluindo o real ) não tem basicamente recursos relevantes e, em segundo lugar, os utilizadores do sítio e os utilizadores dos motores de busca não têm este hábito de pesquisa. Este tipo de página web é um grande número de rastreamento do motor de busca, só pode ocupar a quota de rastreamento valioso do site. Como evitar esta situação? Tomemos como exemplo um sítio de compras em grupo em Pequim, para ver como o sítio utiliza os robôs para evitar habilmente este buraco negro das aranhas: Na página de resultados da seleção normal, o sítio optou por utilizar ligações estáticas, como: http://bj.XXXXX.com/category/zizhucan/weigongcun Na página de resultados da seleção da mesma condição, quando o utilizador seleciona uma condição de seleção diferente, é criada uma ligação dinâmica com parâmetros diferentes. Se o utilizador selecionar uma ligação dinâmica, mesmo que as condições de seleção sejam as mesmas (por exemplo, por ordem decrescente de vendas), os parâmetros gerados são diferentes. Por exemplo: http://bj.XXXXX.com/category/zizhucan/weigongcun/hot?mtt=1.index%2Fpoi.0.0.i1afqhek http://bj.XXXXX.com/category/zizhucan/ weigongcun/hot?mtt=1.index%2Fpoi.0.0.i1afqi5c
Para esta rede de compras em grupo, só é possível deixar o motor de busca rastrear a página de resultados da triagem, e todos os tipos de parâmetros dos resultados da página de triagem através das regras dos robots recusam-se a fornecer ao motor de busca. A utilização do ficheiro robots.txt tem uma regra deste tipo: Disallow: /*? *, ou seja, proibir os motores de busca de acederem a todas as páginas dinâmicas do sítio. Desta forma, o sítio é exatamente a prioridade do Baiduspider para mostrar páginas de alta qualidade, bloqueando as páginas de baixa qualidade, para que o Baiduspider forneça uma estrutura de sítio mais amigável, para evitar a formação de buracos negros.
|