Умные роботы, чтобы избегать паучьих чёрных дыр

Администратора · Опубликовано 23.10.2014 22:44:58

Для поисковой системы Baidu spider black hole означает, что сайт создаёт большое количество параметров с очень низкой стоимостью, а динамические URL с похожим содержанием, но разными специфическими параметрами, как бесконечный цикл «чёрной дыры», ловящий пауков, Baiduspider тратит много ресурсов на обход недействительных веб-страниц.
Например, на многих сайтах есть функция фильтрации, и страницы, генерируемые этой функцией, часто сканируются поисковыми системами, и большая часть из них имеют низкую ценность поиска, например, «аренда дома по цене от 500 до 1000», во-первых, на сайте практически нет релевантных ресурсов (включая реальность), а во-вторых, такой привычки поиска нет для пользователей сайта и поисковых систем. Такие веб-страницы обрабатываются поисковыми системами в больших количествах, которые могут занимать только ценные квоты на сайте. Так как же этого избежать?
Возьмём, к примеру, сайт для групповых покупок в Пекине, чтобы увидеть, как сайт использует роботов, чтобы умело избегать этой паучьей чёрной дыры:

Для обычных страниц с результатами фильтра сайт выбирает статические ссылки, такие как http://bj.XXXXX.com/category/zizhucan/weigongcun
На той же странице результатов условного фильтра, когда пользователи выбирают разные условия сортировки, будут генерироваться динамические ссылки с разными параметрами, и даже если критерии сортировки одинаковы (например, все в порядке убывания продаж), сгенерированные параметры разные. Например: http://bj.XXXXX.com/category/zizhucan/weigongcun/hot?mtt=1.index%2Fpoi.0.0.i1afqhek
http://bj.XXXXX.com/category/zizhucan/weigongcun/hot?mtt=1.index%2Fpoi.0.0.i1afqi5c

Для групповой покупки только поисковая система может сканировать страницу результатов фильтра, а страница сортировки результатов с различными параметрами отклоняется поисковой системой по правилам роботов.
robots.txt имеет правило по использованию файлов: Disallow: /*?*, которое запрещает поисковым системам заходить ко всем динамическим страницам сайта. Таким образом, сайт отдаёт приоритет качественным страницам и блокирует низкокачественные страницы для Baiduspider, обеспечивая более дружелюбную структуру сайта и избегая образования чёрных дыр.

[Создание знаний на сайте] Умные роботы, чтобы избегать паучьих чёрных дыр

Связанные публикации

Просмотренные разделы