See artikkel on masintõlke peegelartikkel, palun klõpsake siia, et hüpata algse artikli juurde.

Vaade: 13134|Vastuse: 0

[Veebilehe loomise teadmised] Nutikad robotid, et vältida ämblikmusti auke

[Kopeeri link]
Postitatud 23.10.2014 22:44:58 | | |

Baidu otsingumootori jaoks tähendab ämblikmust auk veebisaiti, mis loob suure hulga parameetreid väga madala kuluga, ning dünaamilisi URL-e sarnase sisuga, kuid erinevate spetsiifiliste parameetritega, nagu lõputu "musta auku" lõksu ämblike tsükkel, raiskab Baiduspider palju ressursse kehtetute veebilehtede indekseerimiseks.
       Näiteks paljudel veebilehtedel on filtreerimisfunktsioon ning filtreerimisfunktsiooni poolt genereeritud veebilehti indekseerivad otsingumootorid sageli ning suurel osal on madal otsinguväärtus, näiteks "maja rentimine hinnaga 500–1000", esiteks pole veebilehel sisuliselt asjakohaseid ressursse (ka päriselus) ning teiseks puudub selline otsinguharjumus nii saidil kui ka otsingumootori kasutajatel. Sellist veebilehte indekseerivad otsingumootorid suures koguses, mis mahutab vaid väärtuslikku indekseerimiskvooti veebisaidil. Kuidas seda siis vältida?
       Võtame näiteks Pekingi grupiostu veebisaidi, et näha, kuidas veebileht kasutab roboteid, et nutikalt vältida seda ämblikmusta auku:

Tavaliste filtrite tulemuste lehtede puhul valib sait staatilisi linke, näiteks http://bj.XXXXX.com/category/zizhucan/weigongcun
       Samas tingimusliku filtri tulemuste lehel, kui kasutajad valivad erinevad sorteerimistingimused, genereeritakse dünaamilised lingid erinevate parameetritega ning isegi kui sorteerimiskriteeriumid on samad (nt kõik müügijärjekorras), on genereeritud parameetrid erinevad. Näiteks: http://bj.XXXXX.com/category/zizhucan/weigongcun/hot?mtt=1.index%2Fpoi.0.0.i1afqhek
http://bj.XXXXX.com/category/zizhucan/weigongcun/hot?mtt=1.index%2Fpoi.0.0.i1afqi5c

Grupiostuvõrgus saab ainult otsingumootor indekseerida filtri tulemuste lehte, samas kui erinevate parameetritega tulemuste sorteerimisleht lükkab otsingumootor robotite reeglite kaudu tagasi.
       robots.txt on failikasutuse reegel: keela: /*?*, mis keelab otsingumootoritel ligipääsu kõigile dünaamilistele veebilehele. Nii eelistab veebisait kvaliteetseid lehti ja blokeerib madala kvaliteediga lehekülgi Baiduspiderile, pakkudes Baiduspiderile sõbralikumat veebistruktuuri ja vältides mustade aukude tekkimist.






Eelmine:VMware virtuaalmasinad on paigaldatud MAC OSX Mountain Lionile
Järgmine:Paigalda Mac OS X10.9 Win-süsteemi all Black Apple'i õpetus
Disclaimer:
Kõik Code Farmer Networki poolt avaldatud tarkvara, programmeerimismaterjalid või artiklid on mõeldud ainult õppimiseks ja uurimistööks; Ülaltoodud sisu ei tohi kasutada ärilistel ega ebaseaduslikel eesmärkidel, vastasel juhul kannavad kasutajad kõik tagajärjed. Selle saidi info pärineb internetist ning autoriõiguste vaidlused ei ole selle saidiga seotud. Ülaltoodud sisu tuleb oma arvutist täielikult kustutada 24 tunni jooksul pärast allalaadimist. Kui sulle programm meeldib, palun toeta originaaltarkvara, osta registreerimist ja saa paremaid ehtsaid teenuseid. Kui esineb rikkumist, palun võtke meiega ühendust e-posti teel.

Mail To:help@itsvse.com