|
For Baidu-søgemaskinen refererer edderkoppens sorte hul til webstedet gennem de meget lave omkostninger for at skabe et stort antal parametre for meget, og indholdet af det samme, men de specifikke parametre for den forskellige dynamiske URL, som en uendelig løkke af det "sorte hul" vil edderkoppen fanget, Baiduspider spildte et stort antal ressourcer til at gennemgå er ugyldig webside. For eksempel har mange websteder en screeningsfunktion, gennem screeningsfunktionen på websiden vil ofte være et stort antal søgemaskiner gennemgå, og en stor del af søgeværdien er ikke høj, såsom "500-1000 priser mellem leje", først og fremmest er webstedet (inklusive virkeligheden) på de grundlæggende ingen relevante ressourcer, og for det andet er webstedet (inklusive den virkelige ) grundlæggende ingen relevante ressourcer, og for det andet har brugerne af webstedet og brugerne af søgemaskiner ikke denne søgevane. Denne form for webside er et stort antal søgemaskiner, der gennemsøger, kan kun optage webstedets værdifulde gennemsøgningskvote. Så hvordan undgår man denne situation? Vi tager et gruppekøbssite i Beijing som eksempel for at se, hvordan sitet bruger robotter til smart at undgå dette sorte edderkoppehul: Til den almindelige side med screeningsresultater valgte sitet at bruge statiske links, såsom: http://bj.XXXXX.com/category/zizhucan/weigongcun Når brugeren vælger en anden sorteringsbetingelse på siden med screeningsresultater, genererer den et dynamisk link med forskellige parametre. dynamiske links, og selv de samme sorteringsbetingelser (f.eks.: er i faldende rækkefølge efter salg), er de genererede parametre forskellige. For eksempel: http://bj.XXXXX.com/category/zizhucan/weigongcun/hot?mtt=1.index%2Fpoi.0.0.i1afqhek http://bj.XXXXX.com/category/zizhucan/ weigongcun/hot?mtt=1.index%2Fpoi.0.0.i1afqi5c
For dette gruppekøbsnetværk kan kun lade søgemaskinen gennemgå screeningsresultatsiden, og alle slags med parametre for resultaterne af sorteringssiden gennem robotreglerne nægter at give til søgemaskinen. Brugen af robots.txt-filen har en sådan regel: Disallow: /*? *, det vil sige at forbyde søgemaskiner at få adgang til alle dynamiske sider på webstedet. På denne måde er webstedet nøjagtigt Baiduspider-prioritet til at vise sider af høj kvalitet, blokeret siderne af lav kvalitet, for at Baiduspider kan give en mere venlig webstedsstruktur for at undgå dannelse af sorte huller.
|