|
Pentru motorul de căutare Baidu, gaura neagră păianjen se referă la site-ul web prin costul foarte scăzut pentru a crea un număr mare de parametri prea mult, iar conținutul de aceeași, dar parametrii specifici de diferite URL dinamice, ca o buclă infinită a "gaura neagră" va păianjen prins, Baiduspider irosit un număr mare de resurse pentru a târâre este invalid pagina web. De exemplu, multe site-uri web au o funcție de screening, prin funcția de screening a paginii web va fi de multe ori un număr mare de motor de căutare crawl, și o mare parte din valoarea de căutare nu este mare, cum ar fi "500-1000 prețuri între închiriere", în primul rând, site-ul web (inclusiv realitatea) pe bază nu există resurse relevante, și în al doilea rând, site-ul web (inclusiv realitatea ) nu este, în principiu, nicio resursă relevantă și, în al doilea rând, utilizatorii site-ului și utilizatorii motoarelor de căutare nu au acest obicei de căutare. Acest tip de pagină web este un număr mare de motor de căutare crawling, poate lua doar cota de crawling valoroase ale site-ului. Deci, cum să evităm această situație? Luăm ca exemplu un site de cumpărare în grup din Beijing, pentru a vedea cum site-ul utilizează roboții pentru a evita inteligent această gaură neagră a păianjenului: Pentru pagina obișnuită cu rezultatele trierii, site-ul a ales să utilizeze linkuri statice, cum ar fi: http://bj.XXXXX.com/category/zizhucan/weigongcun Pagina cu rezultatele trierii în aceleași condiții, atunci când utilizatorul selectează condiții de sortare diferite, va genera un link dinamic cu parametri diferiți. linkuri dinamice, și chiar aceleași condiții de sortare (de exemplu: sunt în ordine descrescătoare în funcție de vânzări), parametrii generați sunt diferiți. De exemplu: http://bj.XXXXX.com/category/zizhucan/weigongcun/hot?mtt=1.index%2Fpoi.0.0.i1afqhek http://bj.XXXXX.com/category/zizhucan/ weigongcun/hot?mtt=1.index%2Fpoi.0.0.i1afqi5c
Pentru această rețea de cumpărare în grup, permiteți motorului de căutare să parcurgă doar pagina de rezultate a selecției, iar toate tipurile de parametri ai rezultatelor paginii de sortare prin regulile robots refuză să furnizeze motorului de căutare. utilizarea fișierului robots.txt are o astfel de regulă: Disallow: /*? *, adică să interzică accesul motoarelor de căutare la toate paginile dinamice din site. În acest fel, site-ul este exact prioritatea Baiduspider pentru a arăta pagini de înaltă calitate, a blocat paginile de calitate scăzută, pentru Baiduspider pentru a oferi o structură a site-ului mai prietenos, pentru a evita formarea de găuri negre.
|