クモのブラックホールを避けるための賢いロボット

管理者 · 掲載地 2014/10/23 22:44:58

百度検索エンジンにとって、スパイダーブラックホールとは、ウェブサイトが非常に低コストで大量のパラメータを作成し、似た内容で異なる特定のパラメータを持つ動的なURLを指し、無限ループの「ブラックホール」がクモを捕まえるように、無効なウェブページをクロールするために多くのリソースを浪費します。
例えば、多くのウェブサイトにはフィルタリング機能があり、そのフィルタリング機能によって生成されるウェブページは検索エンジンにクロールされることが多いです。また、その多くは検索価値が低いです。例えば「500〜1000ドルの価格の家を借りる」などです。まず第一に、ウェブサイト上には(現実を含めて)関連するリソースがほとんどありません。第二に、サイト内ユーザーや検索エンジンユーザーにはそのような検索習慣が存在しません。この種のウェブページは大量に検索エンジンにクロールされており、ウェブサイト上の貴重なクロールクロール数しか占有できません。では、どうすればこれを避けられるのでしょうか?
北京のグループ購入サイトを例に取り、そのウェブサイトがロボットを使ってこのクモのブラックホールを巧みに回避している様子を見てみましょう。

通常のフィルター結果ページでは、サイトは静的リンク(例えば http://bj.XXXXX.com/category/zizhucan/weigongcun)を使用します
同じ条件付きフィルターの結果ページで、ユーザーが異なるソート条件を選択すると、異なるパラメータを持つ動的リンクが生成され、同じソート基準(例:売上の降順)であっても、生成されるパラメータは異なります。例えば:http://bj.XXXXX.com/category/zizhucan/weigongcun/hot?mtt=1.index%2Fpoi.0.0.i1afqhek
http://bj.XXXXX.com/category/zizhucan/weigongcun/hot?mtt=1.index%2Fpoi.0.0.i1afqi5c

グループバイシングネットワークでは、検索エンジンのみがフィルター結果ページをクロールでき、さまざまなパラメータを持つ結果ソートページはロボットのルールで検索エンジンに拒否されます。
robots.txtファイル利用に関して「Disallow: /*?*」というルールがあり、これは検索エンジンがウェブサイト内のすべての動的ページにアクセスすることを禁止しています。このようにして、サイトは高品質なページを優先し、低品質なページをブロックすることで、Baiduspiderにより親しみやすいウェブサイト構造を提供し、ブラックホールの形成を回避しています。

[ウェブサイト構築知識] クモのブラックホールを避けるための賢いロボット

関連記事

閲覧したセクション