|
For Baidu-søkemotoren refererer spider black hole til at nettsiden lager et stort antall parametere til svært lav kostnad, og dynamiske URL-er med lignende innhold, men forskjellige spesifikke parametere, akkurat som en uendelig løkke av «black hole» som fanger edderkopper, sløser Baiduspider mye ressurser på å crawle ugyldige nettsider. For eksempel har mange nettsteder en filtreringsfunksjon, og nettsidene som genereres av filtreringsfunksjonen blir ofte crawlet av søkemotorer, og en stor del av dem har lav søkeverdi, som for eksempel «leie et hus med en pris mellom 500–1000», for det første finnes det i praksis ingen relevante ressurser på nettsiden (inkludert i virkeligheten), og for det andre finnes det ingen slik søkevane for brukere på siden og søkemotorbrukere. Denne typen nettside gjennomsøkes av søkemotorer i stort antall, som bare kan fylle verdifull gjennomsøkingskvote på nettstedet. Så hvordan kan dette unngås? La oss ta et gruppekjøpsnettsted i Beijing som eksempel for å se hvordan nettstedet bruker roboter for å unngå dette edderkopp-sorte hullet på en smart måte: For vanlige filterresultatsider velger nettstedet å bruke statiske lenker, som for eksempel http://bj.XXXXX.com/category/zizhucan/weigongcun På samme resultatside for betinget filter, når brukere velger ulike sorteringsbetingelser, vil dynamiske lenker med ulike parametere bli generert, og selv om de samme sorteringskriteriene (f.eks. alle i synkende salgsrekkefølge), er de genererte parameterne forskjellige. For eksempel: http://bj.XXXXX.com/category/zizhucan/weigongcun/hot?mtt=1.index%2Fpoi.0.0.i1afqhek
http://bj.XXXXX.com/category/zizhucan/weigongcun/hot?mtt=1.index%2Fpoi.0.0.i1afqi5c For gruppekjøpsnettverket er det kun søkemotoren som kan crawle filterresultatsiden, mens resultatsorteringssiden med ulike parametere avvises av søkemotoren gjennom robotreglene. robots.txt har en regel for filbruk: Disallow: /*?*, som forbyr søkemotorer å få tilgang til alle dynamiske sider på nettstedet. På denne måten prioriterer nettstedet sider av høy kvalitet og blokkerer lavkvalitetssider for Baiduspider, noe som gir Baiduspider en mer brukervennlig nettsidestruktur og unngår dannelsen av sorte hull.
|