Тази статия е огледална статия за машинен превод, моля, кликнете тук, за да преминете към оригиналната статия.

Изглед: 13134|Отговор: 0

[Изграждане на знания за уебсайт] Умни роботи за избягване на паякообразни черни дупки

[Копирай линк]
Публикувано в 23.10.2014 г. 22:44:58 ч. | | |

За търсачката Baidu, spider black hole означава уебсайт, който създава голям брой параметри на много ниска цена, и динамични URL адреси с подобно съдържание, но различни специфични параметри, точно както безкраен цикъл от "черна дупка", който улавя паяци, Baiduspider губи много ресурси, за да обхожда невалидни уеб страници.
       Например, много уебсайтове имат функция за филтриране, а уеб страниците, генерирани от тази функция, често се обхождат от търсачките, като голяма част от тях имат ниска стойност за търсене, като например "наемане на къща на цена между 500-1000", първо, на сайта практически няма релевантни ресурси (включително в реалността), и второ, няма такъв навик за търсене за потребителите на сайта и търсачките. Този тип уеб страница се обхожда от търсачките в големи количества, които заемат само ценна квота за обхождане на сайта. Как може да се избегне това?
       Нека вземем за пример уебсайт за групови покупки в Пекин, за да видим как сайтът използва роботи, за да избегне умело тази паякова черна дупка:

За нормалните страници с резултати от филтъра сайтът избира да използва статични връзки, като http://bj.XXXXX.com/category/zizhucan/weigongcun
       В една и съща страница с резултати за условен филтър, когато потребителите избират различни условия за сортиране, ще се генерират динамични връзки с различни параметри, и дори ако са същите критерии за сортиране (например всички в низходящ ред на продажби), генерираните параметри са различни. Например: http://bj.XXXXX.com/category/zizhucan/weigongcun/hot?mtt=1.index%2Fpoi.0.0.i1afqhek
http://bj.XXXXX.com/category/zizhucan/weigongcun/hot?mtt=1.index%2Fpoi.0.0.i1afqi5c

За мрежата за групови покупки само търсачката може да обхожда страницата с резултати от филтъра, докато страницата за сортиране на резултати с различни параметри се отхвърля от търсачката чрез правилата на роботите.
       robots.txt има правило за използване на файлове: Disallow: /*?*, което забранява на търсачките да достъпват всички динамични страници в сайта. По този начин уебсайтът приоритизира висококачествени страници и блокира нискокачествени страници за Baiduspider, предоставяйки на Baiduspider по-приятелска структура на уебсайта и избягвайки образуването на черни дупки.






Предишен:VMware виртуалните машини се инсталират на MAC OSX Mountain Lion
Следващ:Инсталирайте Mac OS X10.9 под Win System Black Apple урок
Отричане:
Целият софтуер, програмни материали или статии, публикувани от Code Farmer Network, са само за учебни и изследователски цели; Горното съдържание не трябва да се използва за търговски или незаконни цели, в противен случай потребителите ще понесат всички последствия. Информацията на този сайт идва от интернет, а споровете за авторски права нямат нищо общо с този сайт. Трябва напълно да изтриете горното съдържание от компютъра си в рамките на 24 часа след изтеглянето. Ако ви харесва програмата, моля, подкрепете оригинален софтуер, купете регистрация и получете по-добри услуги. Ако има нарушение, моля, свържете се с нас по имейл.

Mail To:help@itsvse.com