|
Pentru motorul de căutare Baidu, gaura neagră păianjen se referă la faptul că site-ul web creează un număr mare de parametri la un cost foarte redus și URL-uri dinamice cu conținut similar, dar parametri specifici diferiți, la fel ca o buclă infinită de păianjeni "găuri negre" care capturează, Baiduspider irosește multe resurse pentru a scana pagini web invalide. De exemplu, multe site-uri web au o funcție de filtrare, iar paginile web generate de funcția de filtrare sunt adesea căutate de motoarele de căutare, iar o mare parte dintre ele au o valoare scăzută de căutare, cum ar fi "închirierea unei case cu un preț între 500-1000", în primul rând, practic nu există resurse relevante pe site (inclusiv în realitate), iar în al doilea rând, nu există un astfel de obicei de căutare pentru utilizatorii de pe site și pentru cei ai motoarelor de căutare. Acest tip de pagină web este crawlat de motoarele de căutare în număr mare, ceea ce poate ocupa doar o cotă valoroasă de crawl pe site. Deci, cum poate fi evitat acest lucru? Să luăm ca exemplu un site de cumpărături în grup din Beijing pentru a vedea cum site-ul folosește roboți pentru a evita inteligent această gaură neagră de păianjen: Pentru paginile normale de rezultate cu filtre, site-ul alege să folosească linkuri statice, cum ar fi http://bj.XXXXX.com/category/zizhucan/weigongcun În aceeași pagină de rezultate cu filtru condiționat, când utilizatorii selectează condiții diferite de sortare, vor fi generate legături dinamice cu parametri diferiți, iar chiar dacă aceleași criterii de sortare (de exemplu, toate în ordine descrescătoare a vânzărilor), parametrii generați sunt diferiți. De exemplu: http://bj.XXXXX.com/category/zizhucan/weigongcun/hot?mtt=1.index%2Fpoi.0.0.i1afqhek
http://bj.XXXXX.com/category/zizhucan/weigongcun/hot?mtt=1.index%2Fpoi.0.0.i1afqi5c Pentru rețeaua de cumpărături în grup, doar motorul de căutare poate căuta pagina de rezultate a filtrului, în timp ce pagina de sortare a rezultatelor cu diverși parametri este respinsă de motorul de căutare prin regulile roboților. robots.txt are o regulă privind utilizarea fișierelor: Disallow: /*?*, care interzice motoarele de căutare să acceseze toate paginile dinamice de pe site. În acest fel, site-ul prioritizează paginile de înaltă calitate și blochează paginile de calitate slabă pentru Baiduspider, oferindu-i lui Baiduspider o structură mai prietenoasă și evitând formarea găurilor negre.
|