|
百度検索エンジンにとって、スパイダーブラックホールとは、ウェブサイトが非常に低コストで大量のパラメータを作成し、似た内容で異なる特定のパラメータを持つ動的なURLを指し、無限ループの「ブラックホール」がクモを捕まえるように、無効なウェブページをクロールするために多くのリソースを浪費します。 例えば、多くのウェブサイトにはフィルタリング機能があり、そのフィルタリング機能によって生成されるウェブページは検索エンジンにクロールされることが多いです。また、その多くは検索価値が低いです。例えば「500〜1000ドルの価格の家を借りる」などです。まず第一に、ウェブサイト上には(現実を含めて)関連するリソースがほとんどありません。第二に、サイト内ユーザーや検索エンジンユーザーにはそのような検索習慣が存在しません。 この種のウェブページは大量に検索エンジンにクロールされており、ウェブサイト上の貴重なクロールクロール数しか占有できません。 では、どうすればこれを避けられるのでしょうか? 北京のグループ購入サイトを例に取り、そのウェブサイトがロボットを使ってこのクモのブラックホールを巧みに回避している様子を見てみましょう。 通常のフィルター結果ページでは、サイトは静的リンク(例えば http://bj.XXXXX.com/category/zizhucan/weigongcun)を使用します 同じ条件付きフィルターの結果ページで、ユーザーが異なるソート条件を選択すると、異なるパラメータを持つ動的リンクが生成され、同じソート基準(例:売上の降順)であっても、生成されるパラメータは異なります。 例えば:http://bj.XXXXX.com/category/zizhucan/weigongcun/hot?mtt=1.index%2Fpoi.0.0.i1afqhek
http://bj.XXXXX.com/category/zizhucan/weigongcun/hot?mtt=1.index%2Fpoi.0.0.i1afqi5c グループバイシングネットワークでは、検索エンジンのみがフィルター結果ページをクロールでき、さまざまなパラメータを持つ結果ソートページはロボットのルールで検索エンジンに拒否されます。 robots.txtファイル利用に関して「Disallow: /*?*」というルールがあり、これは検索エンジンがウェブサイト内のすべての動的ページにアクセスすることを禁止しています。 このようにして、サイトは高品質なページを優先し、低品質なページをブロックすることで、Baiduspiderにより親しみやすいウェブサイト構造を提供し、ブラックホールの形成を回避しています。
|