Robôs inteligentes para evitar buracos negros de aranha

admin · Publicado em 23/10/2014 22:44:58

Para o motor de busca Baidu, buraco negro aranha refere-se ao site criando um grande número de parâmetros a um custo muito baixo, e URLs dinâmicas com conteúdo semelhante, mas parâmetros específicos diferentes, assim como um loop infinito de aranhas "buracos negros" que aprisionam, Baiduspider desperdiça muitos recursos rastreando páginas web inválidas.
Por exemplo, muitos sites possuem uma função de filtragem, e as páginas geradas pela função de filtragem são frequentemente rastreadas por mecanismos de busca, e grande parte delas tem baixo valor de busca, como "alugar uma casa com preço entre 500-1000"; primeiro, basicamente não há recursos relevantes no site (inclusive na realidade), e segundo, não existe esse hábito de busca para usuários do site e de mecanismos de busca. Esse tipo de página é rastreado por motores de busca em grande número, o que só pode ocupar uma cota valiosa de rastreamento no site. Então, como isso pode ser evitado?
Vamos pegar um site de compras em grupo em Pequim como exemplo para ver como o site usa robôs para evitar de forma inteligente esse buraco negro de aranha:

Para páginas de resultados com filtro normal, o site opta por usar links estáticos, como http://bj.XXXXX.com/category/zizhucan/weigongcun
Na mesma página de resultados do filtro condicional, quando os usuários selecionam diferentes condições de ordenação, links dinâmicos com diferentes parâmetros serão gerados e, mesmo que os mesmos critérios de ordenação (por exemplo, todos em ordem decrescente de vendas), os parâmetros gerados são diferentes. Por exemplo: http://bj.XXXXX.com/category/zizhucan/weigongcun/hot?mtt=1.index%2Fpoi.0.0.i1afqhek
http://bj.XXXXX.com/category/zizhucan/weigongcun/hot?mtt=1.index%2Fpoi.0.0.i1afqi5c

Para a rede de compras em grupo, apenas o mecanismo de busca pode rastrear a página de resultados do filtro, enquanto a página de ordenação de resultados com vários parâmetros é rejeitada pelo mecanismo de busca por meio das regras dos robôs.
robots.txt tem uma regra no uso de arquivos: Disallow: /*?*, que proíbe os mecanismos de busca de acessarem todas as páginas dinâmicas do site. Dessa forma, o site prioriza páginas de alta qualidade e bloqueia páginas de baixa qualidade para Baiduspider, proporcionando ao Baiduspider uma estrutura de site mais amigável e evitando a formação de buracos negros.

[Conhecimento sobre Construção de Sites] Robôs inteligentes para evitar buracos negros de aranha

Posts Relacionados

Seções visualizadas