Tento článek je zrcadlovým článkem o strojovém překladu, klikněte zde pro přechod na původní článek.

Pohled: 13134|Odpověď: 0

[Vytváření znalostí webových stránek] Chytří roboti, jak se vyhnout pavoučím černým dírám

[Kopírovat odkaz]
Zveřejněno 23.10.2014 22:44:58 | | |

Pro vyhledávač Baidu znamená pavoučí černá díra web, který vytváří velké množství parametrů za velmi nízké náklady a dynamické URL s podobným obsahem, ale jinými specifickými parametry, podobně jako nekonečná smyčka "černých děr" lapajících pavouky, Baiduspider plýtvá mnoha zdroji na procházení neplatných webových stránek.
       Například mnoho webových stránek má filtrační funkci a webové stránky generované touto funkcí jsou často procházeny vyhledávači, přičemž velká část z nich má nízkou hodnotu vyhledávání, například "pronájem domu za cenu mezi 500–1000". Za prvé, na webu v podstatě nejsou žádné relevantní zdroje (včetně skutečnosti), a za druhé, neexistuje žádný takový vyhledávací zvyk pro uživatele na webu a vyhledávače. Tento typ webu je procházen vyhledávači ve velkém množstvím, což může zaplnit jen cennou kvótu procházení na webu. Jak tomu tedy zabránit?
       Vezměme si jako příklad web s hromadným nákupem v Pekingu, abychom viděli, jak web využívá roboty k chytrému vyhýbání se této pavoučí černé díře:

Pro stránky s běžnými filtry s výsledky web volí používat statické odkazy, například http://bj.XXXXX.com/category/zizhucan/weigongcun
       Na stejné stránce výsledků s podmíněným filtrem, když uživatelé zvolí různé podmínky třídění, budou generovány dynamické odkazy s různými parametry, a i když jsou stejná kritéria třídění (např. všechna v sestupném pořadí prodejů), generované parametry jsou odlišné. Například: http://bj.XXXXX.com/category/zizhucan/weigongcun/hot?mtt=1.index%2Fpoi.0.0.i1afqhek
http://bj.XXXXX.com/category/zizhucan/weigongcun/hot?mtt=1.index%2Fpoi.0.0.i1afqi5c

Pro skupinovou nákupní síť může filtrační stránku s výsledky procházet pouze vyhledávač, zatímco stránka pro třídění výsledků s různými parametry je vyhledávačem odmítána pomocí pravidel robotů.
       robots.txt má pravidlo pro používání souborů: Zakaz: /*?*, které zakazuje vyhledávačům přístup ke všem dynamickým stránkám na webu. Tímto způsobem web upřednostňuje vysoce kvalitní stránky a blokuje stránky nízké kvality pro Baiduspider, čímž Baiduspider poskytuje přívětivější strukturu webu a zabraňuje vzniku černých děr.






Předchozí:VMware virtuální stroje jsou instalovány na MAC OSX Mountain Lion
Další:Nainstalujte Mac OS X10.9 v rámci Win System Black Apple tutoriál
Zřeknutí se:
Veškerý software, programovací materiály nebo články publikované organizací Code Farmer Network slouží pouze k učení a výzkumu; Výše uvedený obsah nesmí být používán pro komerční ani nelegální účely, jinak nesou všechny důsledky uživatelé. Informace na tomto webu pocházejí z internetu a spory o autorská práva s tímto webem nesouvisí. Musíte výše uvedený obsah ze svého počítače zcela smazat do 24 hodin od stažení. Pokud se vám program líbí, podporujte prosím originální software, kupte si registraci a získejte lepší skutečné služby. Pokud dojde k jakémukoli porušení, kontaktujte nás prosím e-mailem.

Mail To:help@itsvse.com