Умни роботи за избягване на паякообразни черни дупки

Администратор · Публикувано в 23.10.2014 г. 22:44:58 ч.

За търсачката Baidu, spider black hole означава уебсайт, който създава голям брой параметри на много ниска цена, и динамични URL адреси с подобно съдържание, но различни специфични параметри, точно както безкраен цикъл от "черна дупка", който улавя паяци, Baiduspider губи много ресурси, за да обхожда невалидни уеб страници.
Например, много уебсайтове имат функция за филтриране, а уеб страниците, генерирани от тази функция, често се обхождат от търсачките, като голяма част от тях имат ниска стойност за търсене, като например "наемане на къща на цена между 500-1000", първо, на сайта практически няма релевантни ресурси (включително в реалността), и второ, няма такъв навик за търсене за потребителите на сайта и търсачките. Този тип уеб страница се обхожда от търсачките в големи количества, които заемат само ценна квота за обхождане на сайта. Как може да се избегне това?
Нека вземем за пример уебсайт за групови покупки в Пекин, за да видим как сайтът използва роботи, за да избегне умело тази паякова черна дупка:

За нормалните страници с резултати от филтъра сайтът избира да използва статични връзки, като http://bj.XXXXX.com/category/zizhucan/weigongcun
В една и съща страница с резултати за условен филтър, когато потребителите избират различни условия за сортиране, ще се генерират динамични връзки с различни параметри, и дори ако са същите критерии за сортиране (например всички в низходящ ред на продажби), генерираните параметри са различни. Например: http://bj.XXXXX.com/category/zizhucan/weigongcun/hot?mtt=1.index%2Fpoi.0.0.i1afqhek
http://bj.XXXXX.com/category/zizhucan/weigongcun/hot?mtt=1.index%2Fpoi.0.0.i1afqi5c

За мрежата за групови покупки само търсачката може да обхожда страницата с резултати от филтъра, докато страницата за сортиране на резултати с различни параметри се отхвърля от търсачката чрез правилата на роботите.
robots.txt има правило за използване на файлове: Disallow: /*?*, което забранява на търсачките да достъпват всички динамични страници в сайта. По този начин уебсайтът приоритизира висококачествени страници и блокира нискокачествени страници за Baiduspider, предоставяйки на Baiduspider по-приятелска структура на уебсайта и избягвайки образуването на черни дупки.

[Изграждане на знания за уебсайт] Умни роботи за избягване на паякообразни черни дупки

Свързани публикации

Разгледани секции