Denne artikel er en spejling af maskinoversættelse, klik venligst her for at springe til den oprindelige artikel.

Udsigt: 13134|Svar: 0

[Viden om hjemmesideopbygning] Kloge robotter til at undgå edderkoppesorte huller

[Kopier link]
Opslået på 23/10/2014 22.44.58 | | |

For Baidu-søgemaskinen refererer spider black hole til, at hjemmesiden skaber et stort antal parametre til meget lave omkostninger, og dynamiske URL'er med lignende indhold, men forskellige specifikke parametre, ligesom en uendelig løkke af "sort hul"-fanger edderkopper; Baiduspider spilder mange ressourcer på at crawle ugyldige websider.
       For eksempel har mange hjemmesider en filtreringsfunktion, og de websider, der genereres af filtreringsfunktionen, bliver ofte crawlet af søgemaskiner, og en stor del af dem har lav søgeværdi, såsom "leje et hus til en pris mellem 500-1000", for det første er der stort set ingen relevante ressourcer på hjemmesiden (heller ikke i virkeligheden), og for det andet findes der ikke en sådan søgevane for brugere på siden og søgemaskiner. Denne type hjemmeside bliver crawlet af søgemaskiner i stort antal, som kun kan optage en værdifuld kravkvote på hjemmesiden. Så hvordan kan dette undgås?
       Lad os tage en gruppekøbshjemmeside i Beijing som eksempel for at se, hvordan hjemmesiden bruger robotter til snedigt at undgå dette edderkoppe-sorte hul:

For normale filterresultatsider vælger siden at bruge statiske links, såsom http://bj.XXXXX.com/category/zizhucan/weigongcun
       På samme resultatside for betingede filter, når brugere vælger forskellige sorteringsbetingelser, vil dynamiske links med forskellige parametre blive genereret, og selv hvis de samme sorteringskriterier (f.eks. alle i faldende salgsrækkefølge), er de genererede parametre forskellige. For eksempel: http://bj.XXXXX.com/category/zizhucan/weigongcun/hot?mtt=1.index%2Fpoi.0.0.i1afqhek
http://bj.XXXXX.com/category/zizhucan/weigongcun/hot?mtt=1.index%2Fpoi.0.0.i1afqi5c

For gruppekøbsnetværket kan kun søgemaskinen crawle filterresultatsiden, mens resultatsorteringssiden med forskellige parametre afvises af søgemaskinen via robotregler.
       robots.txt har en regel for filbrug: Disallow: /*?*, som forbyder søgemaskiner at få adgang til alle dynamiske sider på hjemmesiden. På denne måde prioriterer hjemmesiden sider af høj kvalitet og blokerer lavkvalitetssider for Baiduspider, hvilket giver Baiduspider en mere brugervenlig webstruktur og undgår dannelsen af sorte huller.






Tidligere:VMware-virtuelle maskiner er installeret på MAC OSX Mountain Lion
Næste:Installer Mac OS X10.9 under Windows System Black Apple-vejledning
Ansvarsfraskrivelse:
Al software, programmeringsmaterialer eller artikler udgivet af Code Farmer Network er kun til lærings- og forskningsformål; Ovenstående indhold må ikke bruges til kommercielle eller ulovlige formål, ellers skal brugerne bære alle konsekvenser. Oplysningerne på dette site kommer fra internettet, og ophavsretstvister har intet med dette site at gøre. Du skal slette ovenstående indhold fuldstændigt fra din computer inden for 24 timer efter download. Hvis du kan lide programmet, så understøt venligst ægte software, køb registrering og få bedre ægte tjenester. Hvis der er nogen overtrædelse, bedes du kontakte os via e-mail.

Mail To:help@itsvse.com