|
W przypadku wyszukiwarki Baidu, czarna dziura pająka odnosi się do strony internetowej poprzez bardzo niski koszt tworzenia dużej liczby parametrów, a zawartość tego samego, ale specyficzne parametry różnych dynamicznych adresów URL, jak nieskończona pętla "czarnej dziury", zostanie uwięziona przez pająka, Baiduspider zmarnuje dużą liczbę zasobów do indeksowania nieprawidłowej strony internetowej. Na przykład, wiele stron internetowych ma funkcję przesiewania, poprzez funkcję przesiewania strony internetowej często będzie duża liczba indeksowania wyszukiwarek, a duża część wartości wyszukiwania nie jest wysoka, taka jak "500-1000 cen między wynajmem", po pierwsze, strona internetowa (w tym rzeczywistość) na podstawowych nieistotnych zasobach, a po drugie, strona internetowa (w tym rzeczywistość) jest w zasadzie nieistotna. ) w zasadzie nie ma odpowiednich zasobów, a po drugie, użytkownicy witryny i użytkownicy wyszukiwarek nie mają tego nawyku wyszukiwania. Ten rodzaj strony internetowej jest dużą liczbą indeksowania wyszukiwarek, może tylko zająć cenny limit indeksowania witryny. Jak więc uniknąć takiej sytuacji? Jako przykład weźmiemy witrynę zakupów grupowych w Pekinie, aby zobaczyć, w jaki sposób witryna wykorzystuje roboty, aby sprytnie uniknąć tej czarnej dziury pająka: W przypadku zwykłej strony z wynikami sortowania witryna zdecydowała się użyć linków statycznych, takich jak: http://bj.XXXXX.com/category/zizhucan/weigongcun Strona z wynikami sortowania według tego samego warunku, gdy użytkownik wybierze inne warunki sortowania, wygeneruje dynamiczny link z różnymi parametrami. Dynamiczne linki, a nawet te same warunki sortowania (np. są w porządku malejącym według sprzedaży), generowane parametry są różne. Na przykład: http://bj.XXXXX.com/category/zizhucan/weigongcun/hot?mtt=1.index%2Fpoi.0.0.i1afqhek http://bj.XXXXX.com/category/zizhucan/ weigongcun/hot?mtt=1.index%2Fpoi.0.0.i1afqi5c
W przypadku tej sieci zakupów grupowych wyszukiwarka może przeszukiwać tylko stronę wyników przesiewania, a wszystkie rodzaje parametrów wyników sortowania strony za pośrednictwem reguł robotów odmawiają udostępnienia wyszukiwarce. Użycie pliku robots.txt ma taką regułę: Disallow: /*? *, to znaczy, aby zabronić wyszukiwarkom dostępu do wszystkich dynamicznych stron w witrynie. W ten sposób witryna jest dokładnie priorytetem Baiduspider, aby wyświetlać strony o wysokiej jakości, blokować strony o niskiej jakości, aby Baiduspider zapewniał bardziej przyjazną strukturę witryny, aby uniknąć tworzenia czarnych dziur.
|