架构师_程序员_码农网

N Recuperar palavra-passe
Registar

QQ登录

Apenas um passo para começar

Pesquisar
Visualizações:8779|Repostas: 0
打印 上一主题 下一主题

[Website Knowledge]Evitando Buracos Negros de Aranhas com Robôs

[copy link]
E 跳转到指定楼层
o proprietário do edifício
发表于 2014-10-23 22:44:58|只看该作者回帖奖励|ReverseBrowse|Read Mode

Para o motor de busca Baidu, o buraco negro da aranha refere-se ao site através do custo muito baixo para criar um grande número de parâmetros demais, e o conteúdo do mesmo, mas os parâmetros específicos do URL dinâmico diferente, como um loop infinito do "buraco negro" vai aranha presa, Baiduspider desperdiçou um grande número de recursos para rastrear é página da web inválida.
Por exemplo, muitos sítios Web têm uma função de rastreio, através da função de rastreio da página Web, muitas vezes, um grande número de motores de busca rastreia, e uma grande parte do valor da pesquisa não é elevado, como "500-1000 preços entre o aluguer", em primeiro lugar, o sítio Web (incluindo a realidade) no básico não tem recursos relevantes e, em segundo lugar, o sítio Web (incluindo o real ) não tem basicamente recursos relevantes e, em segundo lugar, os utilizadores do sítio e os utilizadores dos motores de busca não têm este hábito de pesquisa. Este tipo de página web é um grande número de rastreamento do motor de busca, só pode ocupar a quota de rastreamento valioso do site. Como evitar esta situação?
Tomemos como exemplo um sítio de compras em grupo em Pequim, para ver como o sítio utiliza os robôs para evitar habilmente este buraco negro das aranhas:


Na página de resultados da seleção normal, o sítio optou por utilizar ligações estáticas, como: http://bj.XXXXX.com/category/zizhucan/weigongcun Na página de resultados da seleção da mesma condição, quando o utilizador seleciona uma condição de seleção diferente, é criada uma ligação dinâmica com parâmetros diferentes. Se o utilizador selecionar uma ligação dinâmica, mesmo que as condições de seleção sejam as mesmas (por exemplo, por ordem decrescente de vendas), os parâmetros gerados são diferentes.
Por exemplo: http://bj.XXXXX.com/category/zizhucan/weigongcun/hot?mtt=1.index%2Fpoi.0.0.i1afqhek http://bj.XXXXX.com/category/zizhucan/ weigongcun/hot?mtt=1.index%2Fpoi.0.0.i1afqi5c

Para esta rede de compras em grupo, só é possível deixar o motor de busca rastrear a página de resultados da triagem, e todos os tipos de parâmetros dos resultados da página de triagem através das regras dos robots recusam-se a fornecer ao motor de busca.
A utilização do ficheiro robots.txt tem uma regra deste tipo: Disallow: /*? *, ou seja, proibir os motores de busca de acederem a todas as páginas dinâmicas do sítio. Desta forma, o sítio é exatamente a prioridade do Baiduspider para mostrar páginas de alta qualidade, bloqueando as páginas de baixa qualidade, para que o Baiduspider forneça uma estrutura de sítio mais amigável, para evitar a formação de buracos negros.






Artigo anterior: Máquina virtual VMware para instalar o MAC OSX Mountain Lion
Próximo artigo: Instalar o Mac OS X10.9 Black Apple Tutorial no sistema Win
A primeira vez que vi isto, consegui vê-lo no ecrã e foi uma grande oportunidade de o ver no ecrã.
Tem de iniciar sessão antes de poder voltar a publicar Iniciar sessão | Registar

E sta versão das regras integrais


DISCLAIMER: Todo o software, materiais de programação ou artigos publicados pelo Code Farmer estão limitados a serem utilizados apenas para fins de aprendizagem e investigação; os conteúdos acima referidos não devem ser utilizados para fins comerciais ou ilegais, caso contrário, todas as consequências serão suportadas pelos próprios utilizadores. A informação deste sítio é proveniente da rede, a disputa de direitos de autor não tem nada a ver com este sítio. Deve remover completamente o conteúdo acima do seu computador no prazo de 24 horas após o descarregamento. Se gosta do programa, por favor apoie o software genuíno, compre o registo e obtenha um melhor serviço genuíno. Se houver alguma infração, contacte-nos por correio eletrónico para tratarmos do assunto.

Correio eletrónico To:help@itsvse.com

QQ| ( 鲁ICP备14021824号-2)|Sitemap

GMT+8, 2024-9-17 14:06

Resposta rápidaVoltar ao topoVoltar à lista