|
За търсачката Baidu, паяк черна дупка се отнася до уебсайта чрез много ниска цена за създаване на голям брой параметри твърде много, и съдържанието на същото, но специфичните параметри на различни динамични URL, като безкраен цикъл на "черна дупка" ще паяк в капан, Baiduspider губи голям брой ресурси за обхождане е невалидна уеб страница. Например, много уебсайтове имат функция за скрининг, чрез функцията за скрининг на уебстраницата често ще бъде голям брой на търсачката обхождане, и голяма част от стойността на търсенето не е висока, като например "500-1000 цени между наем", на първо място, уебсайтът (включително реалността) на основните не съответните ресурси, и второ, уебсайтът (включително реалността ) по принцип няма релевантни ресурси, и второ, потребителите на сайта и потребителите на търсачката нямат този навик за търсене. Този вид уебстраница е голям брой обхождания на търсачката, може само да отнеме ценната квота за обхождане на сайта. И така, как да избегнем тази ситуация? Вземаме за пример сайт за групово пазаруване в Пекин, за да видим как сайтът е използването на роботи, за да се избегне умело тази черна дупка за паяци: За обикновената страница с резултатите от скрининга сайтът е избрал да използва статични връзки, като например: http://bj.XXXXX.com/category/zizhucan/weigongcun Страницата с резултатите от скрининга на същите условия, когато потребителят избере различни условия за сортиране, ще се генерира динамична връзка с различни параметри. Динамични връзки и дори едни и същи условия за сортиране (например: подредени са в низходящ ред по продажби), генерираните параметри са различни. Например: http://bj.XXXXX.com/category/zizhucan/weigongcun/hot?mtt=1.index%2Fpoi.0.0.i1afqhek http://bj.XXXXX.com/category/zizhucan/ weigongcun/hot?mtt=1.index%2Fpoi.0.0.i1afqi5c
За тази мрежа за групово пазаруване може да се позволи на търсачката да обхожда само страницата с резултатите от сортирането, а всички видове с параметрите на резултатите от страницата за сортиране чрез правилата на роботите отказват да се предоставят на търсачката. Използването на файла robots.txt има такова правило: Disallow: /*? *, т.е. да се забрани на търсачките да имат достъп до всички динамични страници в сайта. По този начин сайтът е точно Baiduspider приоритет за показване на висококачествени страници, блокира нискокачествените страници, за Baiduspider да осигури по-приятелска структура на сайта, за да се избегне образуването на черни дупки.
|