|
Для пошукової системи Baidu павук чорна діра відноситься до веб-сайту через дуже низьку вартість створення великої кількості параметрів занадто багато, а вміст однаковий, але конкретні параметри різних динамічних URL-адрес, як нескінченний цикл "чорної діри" буде павуком у пастці, Baiduspider витратив велику кількість ресурсів на сканування недійсної веб-сторінки. Наприклад, багато веб-сайтів мають функцію скринінгу, через функцію скринінгу веб-сторінки часто буде велика кількість сканування пошукових систем, і значна частина пошукового значення не висока, наприклад, "500-1000 цін між орендою", по-перше, веб-сайт (включаючи реальність) в основному не має відповідних ресурсів, а по-друге, веб-сайт (включаючи реальний ) в основному немає релевантних ресурсів, а по-друге, користувачі сайту і користувачі пошукових систем не мають такої пошукової звички. Такого роду веб-сторінки є великою кількістю сканування пошукових систем, можуть тільки зайняти цінну квоту сканування сайту. Тож як уникнути цієї ситуації? Ми візьмемо для прикладу сайт групових покупок в Пекіні, щоб побачити, як сайт використовує роботів, щоб розумно уникнути цієї павукової чорної діри: Для звичайної сторінки результатів скринінгу сайт вирішив використовувати статичні посилання, такі як: http://bj.XXXXX.com/category/zizhucan/weigongcun На сторінці результатів скринінгу з однаковими умовами, коли користувач обирає інші умови сортування, він генерує динамічне посилання з іншими параметрами. У динамічних посиланнях, і навіть при однакових умовах сортування (наприклад: за спаданням продажів), параметри, що генеруються, будуть різними. Наприклад: http://bj.XXXXX.com/category/zizhucan/weigongcun/hot?mtt=1.index%2Fpoi.0.0.i1afqhek http://bj.XXXXX.com/category/zizhucan/ weigongcun/hot?mtt=1.index%2Fpoi.0.0.i1afqi5c
Для цієї мережі групових закупівель можна дозволити пошуковій системі сканувати тільки сторінку результатів сортування, а всілякі з параметрами сторінки результатів сортування через правила роботів відмовитися надавати пошуковій системі. У файлі robots.txt є таке правило: Disallow: /*? *, тобто заборонити пошуковим системам доступ до всіх динамічних сторінок сайту. Таким чином, на сайті саме Baiduspider в пріоритеті показуються якісні сторінки, блокуються неякісні, для Baiduspider забезпечується більш дружня структура сайту, щоб уникнути утворення чорних дір.
|