Ten artykuł jest lustrzanym artykułem tłumaczenia maszynowego, kliknij tutaj, aby przejść do oryginalnego artykułu.

Widok: 13134|Odpowiedź: 0

[Wiedza o budowaniu stron internetowych] Sprytne roboty, by unikać czarnych pająków

[Skopiuj link]
Opublikowano 23.10.2014 22:44:58 | | |

Dla wyszukiwarki Baidu spider black hole oznacza tworzenie przez stronę dużą liczbę parametrów przy bardzo niskich kosztach oraz dynamiczne adresy URL o podobnej treści, ale innych specyficznych parametrach, podobnie jak nieskończona pętla "czarnej" łapiącej pająki, Baiduspider marnuje mnóstwo zasobów na przeszukiwanie nieprawidłowych stron internetowych.
       Na przykład wiele stron internetowych posiada funkcję filtrowania, a strony generowane przez nią są często indeksowane przez wyszukiwarki, a duża część z nich ma niską wartość wyszukiwania, na przykład "wynajem domu w cenie od 500 do 1000". Po pierwsze, praktycznie nie ma na stronie istotnych zasobów (nawet w rzeczywistości), a po drugie, nie ma takiego nawyku wyszukiwania zarówno dla użytkowników na stronie, jak i wyszukiwarek. Tego typu strony są przeszukiwane przez wyszukiwarki w dużych ilościach, co może jedynie zająć cenny limit przeszukiwania na stronie. Jak więc tego uniknąć?
       Weźmy na przykład stronę kupującą grupę w Pekinie, aby zobaczyć, jak wykorzystuje ona roboty, by sprytnie unikać tej czarnej w kształcie pająka:

Dla stron z wynikami z normalnego filtrowania strona wybiera statyczne linki, takie jak http://bj.XXXXX.com/category/zizhucan/weigongcun
       Na tej samej stronie wyników filtrów warunkowych, gdy użytkownicy wybierają różne warunki sortowania, generowane są dynamiczne linki z różnymi parametrami, a nawet jeśli kryteria sortowania są te same (np. wszystkie w kolejności malejącej sprzedaży), wygenerowane parametry są różne. Na przykład: http://bj.XXXXX.com/category/zizhucan/weigongcun/hot?mtt=1.index%2Fpoi.0.0.i1afqhek
http://bj.XXXXX.com/category/zizhucan/weigongcun/hot?mtt=1.index%2Fpoi.0.0.i1afqi5c

W sieci zakupów grupowych tylko wyszukiwarka może indeksować stronę z wynikami filtrującej, natomiast strona sortowania wyników z różnymi parametrami jest odrzucana przez wyszukiwarkę za pomocą reguł robotów.
       robots.txt posiada zasadę dotyczącą korzystania z plików: Wyłącz: /*?*, która zabrania wyszukiwarkom dostępu do wszystkich dynamicznych stron na stronie internetowej. W ten sposób strona priorytetowo traktuje strony wysokiej jakości i blokuje strony niskiej jakości dla Baiduspider, zapewniając Baiduspiderowi bardziej przyjazną strukturę i zapobiegając powstawaniu czarnych.






Poprzedni:Maszyny wirtualne VMware są instalowane na MAC OSX Mountain Lion
Następny:Zainstaluj Mac OS X10.9 w systemie Windows Black Apple
Zrzeczenie się:
Całe oprogramowanie, materiały programistyczne lub artykuły publikowane przez Code Farmer Network służą wyłącznie celom edukacyjnym i badawczym; Powyższe treści nie mogą być wykorzystywane do celów komercyjnych ani nielegalnych, w przeciwnym razie użytkownicy ponoszą wszelkie konsekwencje. Informacje na tej stronie pochodzą z Internetu, a spory dotyczące praw autorskich nie mają z nią nic wspólnego. Musisz całkowicie usunąć powyższą zawartość z komputera w ciągu 24 godzin od pobrania. Jeśli spodoba Ci się program, wspieraj oryginalne oprogramowanie, kup rejestrację i korzystaj z lepszych, autentycznych usług. W przypadku naruszenia praw prosimy o kontakt mailowy.

Mail To:help@itsvse.com