Denne artikkelen er en speilartikkel om maskinoversettelse, vennligst klikk her for å hoppe til originalartikkelen.

Utsikt: 13134|Svare: 0

[Kunnskap om nettsidebygging] Smarte roboter for å unngå edderkopp-sorte hull

[Kopier lenke]
Publisert på 23.10.2014 22:44:58 | | |

For Baidu-søkemotoren refererer spider black hole til at nettsiden lager et stort antall parametere til svært lav kostnad, og dynamiske URL-er med lignende innhold, men forskjellige spesifikke parametere, akkurat som en uendelig løkke av «black hole» som fanger edderkopper, sløser Baiduspider mye ressurser på å crawle ugyldige nettsider.
       For eksempel har mange nettsteder en filtreringsfunksjon, og nettsidene som genereres av filtreringsfunksjonen blir ofte crawlet av søkemotorer, og en stor del av dem har lav søkeverdi, som for eksempel «leie et hus med en pris mellom 500–1000», for det første finnes det i praksis ingen relevante ressurser på nettsiden (inkludert i virkeligheten), og for det andre finnes det ingen slik søkevane for brukere på siden og søkemotorbrukere. Denne typen nettside gjennomsøkes av søkemotorer i stort antall, som bare kan fylle verdifull gjennomsøkingskvote på nettstedet. Så hvordan kan dette unngås?
       La oss ta et gruppekjøpsnettsted i Beijing som eksempel for å se hvordan nettstedet bruker roboter for å unngå dette edderkopp-sorte hullet på en smart måte:

For vanlige filterresultatsider velger nettstedet å bruke statiske lenker, som for eksempel http://bj.XXXXX.com/category/zizhucan/weigongcun
       På samme resultatside for betinget filter, når brukere velger ulike sorteringsbetingelser, vil dynamiske lenker med ulike parametere bli generert, og selv om de samme sorteringskriteriene (f.eks. alle i synkende salgsrekkefølge), er de genererte parameterne forskjellige. For eksempel: http://bj.XXXXX.com/category/zizhucan/weigongcun/hot?mtt=1.index%2Fpoi.0.0.i1afqhek
http://bj.XXXXX.com/category/zizhucan/weigongcun/hot?mtt=1.index%2Fpoi.0.0.i1afqi5c

For gruppekjøpsnettverket er det kun søkemotoren som kan crawle filterresultatsiden, mens resultatsorteringssiden med ulike parametere avvises av søkemotoren gjennom robotreglene.
       robots.txt har en regel for filbruk: Disallow: /*?*, som forbyr søkemotorer å få tilgang til alle dynamiske sider på nettstedet. På denne måten prioriterer nettstedet sider av høy kvalitet og blokkerer lavkvalitetssider for Baiduspider, noe som gir Baiduspider en mer brukervennlig nettsidestruktur og unngår dannelsen av sorte hull.






Foregående:VMware-virtuelle maskiner er installert på MAC OSX Mountain Lion
Neste:Installer Mac OS X10.9 under Windows System Black Apple-veiledning
Ansvarsfraskrivelse:
All programvare, programmeringsmateriell eller artikler publisert av Code Farmer Network er kun for lærings- og forskningsformål; Innholdet ovenfor skal ikke brukes til kommersielle eller ulovlige formål, ellers skal brukerne bære alle konsekvenser. Informasjonen på dette nettstedet kommer fra Internett, og opphavsrettstvister har ingenting med dette nettstedet å gjøre. Du må fullstendig slette innholdet ovenfor fra datamaskinen din innen 24 timer etter nedlasting. Hvis du liker programmet, vennligst støtt ekte programvare, kjøp registrering, og få bedre ekte tjenester. Hvis det foreligger noen krenkelse, vennligst kontakt oss på e-post.

Mail To:help@itsvse.com