|
Pour le moteur de recherche Baidu, le trou noir de l'araignée se réfère au site web par le biais du très faible coût de créer un grand nombre de paramètres trop, et le contenu de la même mais les paramètres spécifiques de l'URL dynamique différente, comme une boucle infinie du "trou noir" sera araignée piégé, Baiduspider gaspillé un grand nombre de ressources pour crawl est page web invalide. Par exemple, de nombreux sites web ont une fonction de filtrage, grâce à la fonction de filtrage de la page web sera souvent un grand nombre de moteurs de recherche crawl, et une grande partie de la valeur de la recherche n'est pas élevé, comme "500-1000 prix entre la location", tout d'abord, le site web (y compris la réalité) sur la base aucune ressource pertinente, et deuxièmement, le site web (y compris la réalité) est fondamentalement aucune ressource pertinente, et une grande partie de la valeur de la recherche n'est pas élevée. ) n'est fondamentalement pas pertinent, et deuxièmement, les utilisateurs du site et les utilisateurs des moteurs de recherche n'ont pas cette habitude de recherche. Ce type de page web est un grand nombre de pages explorées par les moteurs de recherche, ce qui ne peut qu'accaparer le précieux quota d'exploration du site. Comment éviter cette situation ? Prenons l'exemple d'un site d'achat groupé à Pékin, pour voir comment le site utilise les robots pour éviter intelligemment ce trou noir des araignées : Pour la page de résultats de la sélection ordinaire, le site a choisi d'utiliser des liens statiques, tels que : http://bj.XXXXX.com/category/zizhucan/weigongcun La page de résultats de la sélection des mêmes conditions, lorsque l'utilisateur sélectionne des conditions de tri différentes, elle génère un lien dynamique avec des paramètres différents. Les liens dynamiques, et même les mêmes conditions de tri (ex : sont dans l'ordre décroissant des ventes), les paramètres générés sont différents. Par exemple : http://bj.XXXXX.com/category/zizhucan/weigongcun/hot?mtt=1.index%2Fpoi.0.0.i1afqhek http://bj.XXXXX.com/category/zizhucan/ weigongcun/hot?mtt=1.index%2Fpoi.0.0.i1afqi5c
Pour ce réseau d'achat groupé, seul le moteur de recherche peut explorer la page de résultats de la sélection, et toutes sortes de paramètres des résultats de la page de tri à travers les règles des robots refusent de fournir au moteur de recherche. Le fichier robots.txt contient une règle de ce type : Disallow : /* ? *, c'est-à-dire interdire aux moteurs de recherche d'accéder à toutes les pages dynamiques du site. De cette manière, le site est exactement la priorité de Baiduspider pour montrer les pages de haute qualité, bloquer les pages de faible qualité, pour Baiduspider de fournir une structure de site plus conviviale, pour éviter la formation de trous noirs.
|