Robots ingeniosos para evitar agujeros negros de arañas

Admin · Publicado en 23/10/2014 22:44:58

Para el motor de búsqueda Baidu, agujero negro de araña se refiere a que el sitio web crea un gran número de parámetros a un coste muy bajo, y URLs dinámicas con contenido similar pero parámetros específicos diferentes, igual que un bucle infinito de arañas que atrapan "agujeros negros", Baiduspider desperdicia muchos recursos rastreando páginas web inválidas.
Por ejemplo, muchos sitios web tienen función de filtrado, y las páginas web generadas por la función de filtrado suelen ser rastreadas por motores de búsqueda, y una gran parte de ellas tienen un valor de búsqueda bajo, como "alquilar una casa con un precio entre 500 y 1000"; primero, básicamente no hay recursos relevantes en la web (ni siquiera en la realidad), y segundo, no existe ese hábito de búsqueda para usuarios en el sitio y motores de búsqueda. Este tipo de página web es rastreada por motores de búsqueda en grandes cantidades, lo que solo puede ocupar una cuota de rastreo valiosa en la web. ¿Cómo se puede evitar esto?
Tomemos como ejemplo una web de compras en grupo en Pekín para ver cómo la web utiliza robots para evitar de forma inteligente este agujero negro de arañas:

Para las páginas de resultados de filtros normales, el sitio elige usar enlaces estáticos, como http://bj.XXXXX.com/category/zizhucan/weigongcun
En la misma página de resultados de filtro condicional, cuando los usuarios seleccionan diferentes condiciones de ordenación, se generan enlaces dinámicos con diferentes parámetros y, aunque los mismos criterios de ordenación (por ejemplo, todos en orden descendente de ventas), los parámetros generados son diferentes. Por ejemplo: http://bj.XXXXX.com/category/zizhucan/weigongcun/hot?mtt=1.index%2Fpoi.0.0.i1afqhek
http://bj.XXXXX.com/category/zizhucan/weigongcun/hot?mtt=1.index%2Fpoi.0.0.i1afqi5c

Para la red de compras en grupo, solo el motor de búsqueda puede rastrear la página de resultados del filtro, mientras que la página de ordenación de resultados con varios parámetros es rechazada por el motor de búsqueda mediante reglas de robots.
robots.txt tiene una regla en el uso de archivos: No permitir: /*?*, que prohíbe a los motores de búsqueda acceder a todas las páginas dinámicas del sitio web. De este modo, el sitio web prioriza páginas de alta calidad y bloquea las de baja calidad para Baiduspider, proporcionando a Baiduspider una estructura web más amigable y evitando la formación de agujeros negros.

[Conocimiento sobre la creación de sitios web] Robots ingeniosos para evitar agujeros negros de arañas

Publicaciones relacionadas

Secciones vistas