|
Baiduの検索エンジンのために、クモのブラックホールは、あまりにも多くのパラメータを大量に作成するために非常に低コストでウェブサイトを指し、同じのコンテンツが、別の動的URLの特定のパラメータは、 "ブラックホール "の無限ループのように、クモがトラップされ、Baiduspiderは、クロールするリソースの数を無駄に無効なWebページです。 たとえば、多くのWebサイトでは、スクリーニング機能を持って、Webページのスクリーニング機能を通じて、多くの場合、検索エンジンのクロールの数が多くなり、検索値の大部分は、このような "レンタルの間に500から1000の価格 "のように、高くはありません、まず第一に、ウェブサイト(現実を含む)基本的に関連するリソースがありません。)は基本的に関連資源がなく、第二に、サイトの利用者と検索エンジンの利用者はこのような検索習慣がない。このようなウェブページは、検索エンジンのクロールの数が多い、唯一のサイトの貴重なクロール枠を取ることができます。では、どうすればこのような状況を避けることができるのでしょうか? 北京のある団体購入サイトを例に、このサイトがどのようにロボットを使ってこのスパイダーのブラックホールを巧みに回避しているかを見てみましょう: http://bj.XXXXX.com/category/zizhucan/weigongcun、ユーザーが異なるソート条件を選択すると、それは異なるパラメータを持つ動的なリンクを生成します。動的リンクは、同じ並べ替え条件(例:売上順)でも、生成されるパラメータが異なります。 例: http://bj.XXXXX.com/category/zizhucan/weigongcun/hot?mtt=1.index%2Fpoi.0.0.i1afqhek http://bj.XXXXX.com/category/zizhucan/weigongcun/hot?mtt=1.index%2Fpoi.0.0.i1afqi5c
このグループ購買ネットワークは、唯一の検索エンジンに審査結果ページをクロールさせることができ、ロボットのルールを介して選別ページの結果のパラメータを持つすべての種類の検索エンジンに提供することを拒否する。 robots.txtファイルの使用は、このような規則を持っている:許可しない:/*?*、つまり、検索エンジンがサイト内のすべての動的ページにアクセスすることを禁止する。このように、サイトはまさにBaiduspiderの優先順位は、よりフレンドリーなサイト構造を提供するために、ブラックホールの形成を避けるために、低品質のページをブロックし、高品質のページを表示することです。
|