Sprytne roboty, by unikać czarnych pająków

Admin · Opublikowano 23.10.2014 22:44:58

Dla wyszukiwarki Baidu spider black hole oznacza tworzenie przez stronę dużą liczbę parametrów przy bardzo niskich kosztach oraz dynamiczne adresy URL o podobnej treści, ale innych specyficznych parametrach, podobnie jak nieskończona pętla "czarnej" łapiącej pająki, Baiduspider marnuje mnóstwo zasobów na przeszukiwanie nieprawidłowych stron internetowych.
Na przykład wiele stron internetowych posiada funkcję filtrowania, a strony generowane przez nią są często indeksowane przez wyszukiwarki, a duża część z nich ma niską wartość wyszukiwania, na przykład "wynajem domu w cenie od 500 do 1000". Po pierwsze, praktycznie nie ma na stronie istotnych zasobów (nawet w rzeczywistości), a po drugie, nie ma takiego nawyku wyszukiwania zarówno dla użytkowników na stronie, jak i wyszukiwarek. Tego typu strony są przeszukiwane przez wyszukiwarki w dużych ilościach, co może jedynie zająć cenny limit przeszukiwania na stronie. Jak więc tego uniknąć?
Weźmy na przykład stronę kupującą grupę w Pekinie, aby zobaczyć, jak wykorzystuje ona roboty, by sprytnie unikać tej czarnej w kształcie pająka:

Dla stron z wynikami z normalnego filtrowania strona wybiera statyczne linki, takie jak http://bj.XXXXX.com/category/zizhucan/weigongcun
Na tej samej stronie wyników filtrów warunkowych, gdy użytkownicy wybierają różne warunki sortowania, generowane są dynamiczne linki z różnymi parametrami, a nawet jeśli kryteria sortowania są te same (np. wszystkie w kolejności malejącej sprzedaży), wygenerowane parametry są różne. Na przykład: http://bj.XXXXX.com/category/zizhucan/weigongcun/hot?mtt=1.index%2Fpoi.0.0.i1afqhek
http://bj.XXXXX.com/category/zizhucan/weigongcun/hot?mtt=1.index%2Fpoi.0.0.i1afqi5c

W sieci zakupów grupowych tylko wyszukiwarka może indeksować stronę z wynikami filtrującej, natomiast strona sortowania wyników z różnymi parametrami jest odrzucana przez wyszukiwarkę za pomocą reguł robotów.
robots.txt posiada zasadę dotyczącą korzystania z plików: Wyłącz: /*?*, która zabrania wyszukiwarkom dostępu do wszystkich dynamicznych stron na stronie internetowej. W ten sposób strona priorytetowo traktuje strony wysokiej jakości i blokuje strony niskiej jakości dla Baiduspider, zapewniając Baiduspiderowi bardziej przyjazną strukturę i zapobiegając powstawaniu czarnych.

[Wiedza o budowaniu stron internetowych] Sprytne roboty, by unikać czarnych pająków

Powiązane wpisy

Oglądane sekcje