Este artículo es un artículo espejo de traducción automática, por favor haga clic aquí para saltar al artículo original.

Vista: 13134|Respuesta: 0

[Conocimiento sobre la creación de sitios web] Robots ingeniosos para evitar agujeros negros de arañas

[Copiar enlace]
Publicado en 23/10/2014 22:44:58 | | |

Para el motor de búsqueda Baidu, agujero negro de araña se refiere a que el sitio web crea un gran número de parámetros a un coste muy bajo, y URLs dinámicas con contenido similar pero parámetros específicos diferentes, igual que un bucle infinito de arañas que atrapan "agujeros negros", Baiduspider desperdicia muchos recursos rastreando páginas web inválidas.
       Por ejemplo, muchos sitios web tienen función de filtrado, y las páginas web generadas por la función de filtrado suelen ser rastreadas por motores de búsqueda, y una gran parte de ellas tienen un valor de búsqueda bajo, como "alquilar una casa con un precio entre 500 y 1000"; primero, básicamente no hay recursos relevantes en la web (ni siquiera en la realidad), y segundo, no existe ese hábito de búsqueda para usuarios en el sitio y motores de búsqueda. Este tipo de página web es rastreada por motores de búsqueda en grandes cantidades, lo que solo puede ocupar una cuota de rastreo valiosa en la web. ¿Cómo se puede evitar esto?
       Tomemos como ejemplo una web de compras en grupo en Pekín para ver cómo la web utiliza robots para evitar de forma inteligente este agujero negro de arañas:

Para las páginas de resultados de filtros normales, el sitio elige usar enlaces estáticos, como http://bj.XXXXX.com/category/zizhucan/weigongcun
       En la misma página de resultados de filtro condicional, cuando los usuarios seleccionan diferentes condiciones de ordenación, se generan enlaces dinámicos con diferentes parámetros y, aunque los mismos criterios de ordenación (por ejemplo, todos en orden descendente de ventas), los parámetros generados son diferentes. Por ejemplo: http://bj.XXXXX.com/category/zizhucan/weigongcun/hot?mtt=1.index%2Fpoi.0.0.i1afqhek
http://bj.XXXXX.com/category/zizhucan/weigongcun/hot?mtt=1.index%2Fpoi.0.0.i1afqi5c

Para la red de compras en grupo, solo el motor de búsqueda puede rastrear la página de resultados del filtro, mientras que la página de ordenación de resultados con varios parámetros es rechazada por el motor de búsqueda mediante reglas de robots.
       robots.txt tiene una regla en el uso de archivos: No permitir: /*?*, que prohíbe a los motores de búsqueda acceder a todas las páginas dinámicas del sitio web. De este modo, el sitio web prioriza páginas de alta calidad y bloquea las de baja calidad para Baiduspider, proporcionando a Baiduspider una estructura web más amigable y evitando la formación de agujeros negros.






Anterior:Las máquinas virtuales VMware se instalan en MAC OSX Mountain Lion
Próximo:Instala Mac OS X10.9 en el sistema Windows Black Apple tutorial
Renuncia:
Todo el software, materiales de programación o artículos publicados por Code Farmer Network son únicamente para fines de aprendizaje e investigación; El contenido anterior no se utilizará con fines comerciales o ilegales; de lo contrario, los usuarios asumirán todas las consecuencias. La información de este sitio proviene de Internet, y las disputas de derechos de autor no tienen nada que ver con este sitio. Debes eliminar completamente el contenido anterior de tu ordenador en un plazo de 24 horas desde la descarga. Si te gusta el programa, por favor apoya el software genuino, compra el registro y obtén mejores servicios genuinos. Si hay alguna infracción, por favor contáctanos por correo electrónico.

Mail To:help@itsvse.com