|
Pro vyhledávač Baidu znamená pavoučí černá díra web, který vytváří velké množství parametrů za velmi nízké náklady a dynamické URL s podobným obsahem, ale jinými specifickými parametry, podobně jako nekonečná smyčka "černých děr" lapajících pavouky, Baiduspider plýtvá mnoha zdroji na procházení neplatných webových stránek. Například mnoho webových stránek má filtrační funkci a webové stránky generované touto funkcí jsou často procházeny vyhledávači, přičemž velká část z nich má nízkou hodnotu vyhledávání, například "pronájem domu za cenu mezi 500–1000". Za prvé, na webu v podstatě nejsou žádné relevantní zdroje (včetně skutečnosti), a za druhé, neexistuje žádný takový vyhledávací zvyk pro uživatele na webu a vyhledávače. Tento typ webu je procházen vyhledávači ve velkém množstvím, což může zaplnit jen cennou kvótu procházení na webu. Jak tomu tedy zabránit? Vezměme si jako příklad web s hromadným nákupem v Pekingu, abychom viděli, jak web využívá roboty k chytrému vyhýbání se této pavoučí černé díře: Pro stránky s běžnými filtry s výsledky web volí používat statické odkazy, například http://bj.XXXXX.com/category/zizhucan/weigongcun Na stejné stránce výsledků s podmíněným filtrem, když uživatelé zvolí různé podmínky třídění, budou generovány dynamické odkazy s různými parametry, a i když jsou stejná kritéria třídění (např. všechna v sestupném pořadí prodejů), generované parametry jsou odlišné. Například: http://bj.XXXXX.com/category/zizhucan/weigongcun/hot?mtt=1.index%2Fpoi.0.0.i1afqhek
http://bj.XXXXX.com/category/zizhucan/weigongcun/hot?mtt=1.index%2Fpoi.0.0.i1afqi5c Pro skupinovou nákupní síť může filtrační stránku s výsledky procházet pouze vyhledávač, zatímco stránka pro třídění výsledků s různými parametry je vyhledávačem odmítána pomocí pravidel robotů. robots.txt má pravidlo pro používání souborů: Zakaz: /*?*, které zakazuje vyhledávačům přístup ke všem dynamickým stránkám na webu. Tímto způsobem web upřednostňuje vysoce kvalitní stránky a blokuje stránky nízké kvality pro Baiduspider, čímž Baiduspider poskytuje přívětivější strukturu webu a zabraňuje vzniku černých děr.
|