|
Für die Baidu-Suchmaschine bezeichnet Spider Black Hole, dass die Website eine große Anzahl von Parametern zu sehr niedrigen Kosten erstellt und dynamische URLs mit ähnlichem Inhalt, aber unterschiedlichen spezifischen Parametern erstellt – genau wie eine Endlosschleife von "Schwarzen Loch"-Spinnen, verschwendet Baiduspider viele Ressourcen, um ungültige Webseiten zu crawlen. Zum Beispiel verfügen viele Websites über eine Filterfunktion, und die von dieser Filterfunktion generierten Webseiten werden oft von Suchmaschinen gecrawlt, wobei ein großer Teil davon einen geringen Suchwert aufweist, wie zum Beispiel "ein Haus mit einem Preis zwischen 500 und 1000 Miete zu vermieten"; erstens gibt es praktisch keine relevanten Ressourcen auf der Website (auch nicht in der Realität), und zweitens gibt es keine solche Suchgewohnheiten für Nutzer vor Ort und Suchmaschinennutzer. Diese Art von Webseite wird von Suchmaschinen in großer Zahl gecrawlt, die nur eine wertvolle Crawl-Quote auf der Website einnehmen können. Wie lässt sich das also vermeiden? Nehmen wir eine Gruppen-Kauf-Website in Peking als Beispiel, um zu sehen, wie die Website Roboter einsetzt, um diesem Spinnen-Schwarzen Loch geschickt zu entgehen: Für normale Filterergebnisseiten verwendet die Seite statische Links, wie zum Beispiel http://bj.XXXXX.com/category/zizhucan/weigongcun Auf derselben Ergebnisseite mit bedingtem Filter werden bei der Auswahl verschiedener Sortierbedingungen dynamische Links mit unterschiedlichen Parametern generiert, und selbst wenn dieselben Sortierkriterien gelten (z. B. alle in absteigender Reihenfolge der Verkäufe), sind die generierten Parameter unterschiedlich. Zum Beispiel: http://bj.XXXXX.com/category/zizhucan/weigongcun/hot?mtt=1.index%2Fpoi.0.0.i1afqhek
http://bj.XXXXX.com/category/zizhucan/weigongcun/hot?mtt=1.index%2Fpoi.0.0.i1afqi5c Für das Gruppen-Kaufnetzwerk kann nur die Suchmaschine die Filterergebnisseite crawlen, während die Ergebnissortierseite mit verschiedenen Parametern von den Regeln der Suchmaschine durch Roboter abgelehnt wird. robots.txt hat eine Regel zur Dateinutzung: Disallow: /*?*, die Suchmaschinen den Zugriff auf alle dynamischen Seiten auf der Website verbietet. Auf diese Weise priorisiert die Website hochwertige Seiten und blockiert minderwertige Seiten für Baiduspider, wodurch Baiduspider eine freundlichere Website-Struktur erhält und die Bildung von Schwarzen Löchern vermieden wird.
|