Este artigo é um artigo espelhado de tradução automática, por favor clique aqui para ir para o artigo original.

Vista: 13134|Resposta: 0

[Conhecimento sobre Construção de Sites] Robôs inteligentes para evitar buracos negros de aranha

[Copiar link]
Publicado em 23/10/2014 22:44:58 | | |

Para o motor de busca Baidu, buraco negro aranha refere-se ao site criando um grande número de parâmetros a um custo muito baixo, e URLs dinâmicas com conteúdo semelhante, mas parâmetros específicos diferentes, assim como um loop infinito de aranhas "buracos negros" que aprisionam, Baiduspider desperdiça muitos recursos rastreando páginas web inválidas.
       Por exemplo, muitos sites possuem uma função de filtragem, e as páginas geradas pela função de filtragem são frequentemente rastreadas por mecanismos de busca, e grande parte delas tem baixo valor de busca, como "alugar uma casa com preço entre 500-1000"; primeiro, basicamente não há recursos relevantes no site (inclusive na realidade), e segundo, não existe esse hábito de busca para usuários do site e de mecanismos de busca. Esse tipo de página é rastreado por motores de busca em grande número, o que só pode ocupar uma cota valiosa de rastreamento no site. Então, como isso pode ser evitado?
       Vamos pegar um site de compras em grupo em Pequim como exemplo para ver como o site usa robôs para evitar de forma inteligente esse buraco negro de aranha:

Para páginas de resultados com filtro normal, o site opta por usar links estáticos, como http://bj.XXXXX.com/category/zizhucan/weigongcun
       Na mesma página de resultados do filtro condicional, quando os usuários selecionam diferentes condições de ordenação, links dinâmicos com diferentes parâmetros serão gerados e, mesmo que os mesmos critérios de ordenação (por exemplo, todos em ordem decrescente de vendas), os parâmetros gerados são diferentes. Por exemplo: http://bj.XXXXX.com/category/zizhucan/weigongcun/hot?mtt=1.index%2Fpoi.0.0.i1afqhek
http://bj.XXXXX.com/category/zizhucan/weigongcun/hot?mtt=1.index%2Fpoi.0.0.i1afqi5c

Para a rede de compras em grupo, apenas o mecanismo de busca pode rastrear a página de resultados do filtro, enquanto a página de ordenação de resultados com vários parâmetros é rejeitada pelo mecanismo de busca por meio das regras dos robôs.
       robots.txt tem uma regra no uso de arquivos: Disallow: /*?*, que proíbe os mecanismos de busca de acessarem todas as páginas dinâmicas do site. Dessa forma, o site prioriza páginas de alta qualidade e bloqueia páginas de baixa qualidade para Baiduspider, proporcionando ao Baiduspider uma estrutura de site mais amigável e evitando a formação de buracos negros.






Anterior:Máquinas virtuais VMware são instaladas no MAC OSX Mountain Lion
Próximo:Instale o Mac OS X10.9 no sistema Windows Black Apple tutorial
Disclaimer:
Todo software, material de programação ou artigos publicados pela Code Farmer Network são apenas para fins de aprendizado e pesquisa; O conteúdo acima não deve ser usado para fins comerciais ou ilegais, caso contrário, os usuários terão todas as consequências. As informações deste site vêm da Internet, e disputas de direitos autorais não têm nada a ver com este site. Você deve deletar completamente o conteúdo acima do seu computador em até 24 horas após o download. Se você gosta do programa, por favor, apoie um software genuíno, compre o registro e obtenha serviços genuínos melhores. Se houver qualquer infração, por favor, entre em contato conosco por e-mail.

Mail To:help@itsvse.com