Robots astucieux pour éviter les trous noirs d’araignées

Admin · Publié sur 23/10/2014 22:44:58

Pour le moteur de recherche Baidu, le trou noir d’araignée fait référence au site web créant un grand nombre de paramètres à très faible coût, et des URL dynamiques avec un contenu similaire mais des paramètres spécifiques différents, tout comme une boucle infinie d’araignées piégeant des « trous noirs », Baiduspider gaspille beaucoup de ressources à explorer des pages web invalides.
Par exemple, de nombreux sites web disposent d’une fonction de filtrage, et les pages web générées par cette fonction sont souvent explorées par les moteurs de recherche, et une grande partie d’entre elles ont une faible valeur de recherche, comme « louer une maison avec un prix entre 500 et 1000 », d’abord, il n’y a pratiquement aucune ressource pertinente sur le site (y compris dans la réalité), et ensuite, il n’existe pas de cette habitude de recherche pour les utilisateurs sur site et les moteurs de recherche. Ce type de page web est exploré en grand nombre par les moteurs de recherche, ce qui ne peut occuper que des quotas de recherche précieux sur le site. Alors, comment éviter cela ?
Prenons un exemple d’un site d’achat collectif à Pékin pour voir comment le site utilise des robots pour éviter habilement ce trou noir d’araignée :

Pour les pages de résultats à filtres classiques, le site choisit d’utiliser des liens statiques, tels que http://bj.XXXXX.com/category/zizhucan/weigongcun
Dans la même page de résultats du filtre conditionnel, lorsque les utilisateurs sélectionnent différentes conditions de tri, des liens dynamiques avec des paramètres différents seront générés, et même si les mêmes critères de tri sont (par exemple, tous dans l’ordre décroissant des ventes), les paramètres générés sont différents. Par exemple : http://bj.XXXXX.com/category/zizhucan/weigongcun/hot?mtt=1.index%2Fpoi.0.0.i1afqhek
http://bj.XXXXX.com/category/zizhucan/weigongcun/hot?mtt=1.index%2Fpoi.0.0.i1afqi5c

Pour le réseau d’achat collectif, seul le moteur de recherche peut explorer la page de résultats du filtre, tandis que la page de tri des résultats avec divers paramètres est rejetée par le moteur via les règles des robots.
robots.txt a une règle d’utilisation des fichiers : Interpermettre : /* ?*, qui interdit aux moteurs de recherche d’accéder à toutes les pages dynamiques du site web. Ainsi, le site privilégie les pages de haute qualité et bloque les pages de faible qualité pour Baiduspider, offrant ainsi à Baiduspider une structure plus conviviale et évitant la formation de trous noirs.

[Connaissances sur la création de sites web] Robots astucieux pour éviter les trous noirs d’araignées

Articles connexes

Sections vues