架构师_程序员_码农网

ユーザー名 パスワード取得
会員登録

QQ登录

ワンステップ

検索
閲覧:8779|返信: 0
打印 上一主题 下一主题

[サイト知識】ロボットでクモのブラックホールを回避する

[コピーリンク]
リフト跳转到指定楼层
オーナー

Baiduの検索エンジンのために、クモのブラックホールは、あまりにも多くのパラメータを大量に作成するために非常に低コストでウェブサイトを指し、同じのコンテンツが、別の動的URLの特定のパラメータは、 "ブラックホール "の無限ループのように、クモがトラップされ、Baiduspiderは、クロールするリソースの数を無駄に無効なWebページです。
たとえば、多くのWebサイトでは、スクリーニング機能を持って、Webページのスクリーニング機能を通じて、多くの場合、検索エンジンのクロールの数が多くなり、検索値の大部分は、このような "レンタルの間に500から1000の価格 "のように、高くはありません、まず第一に、ウェブサイト(現実を含む)基本的に関連するリソースがありません。)は基本的に関連資源がなく、第二に、サイトの利用者と検索エンジンの利用者はこのような検索習慣がない。このようなウェブページは、検索エンジンのクロールの数が多い、唯一のサイトの貴重なクロール枠を取ることができます。では、どうすればこのような状況を避けることができるのでしょうか?
北京のある団体購入サイトを例に、このサイトがどのようにロボットを使ってこのスパイダーのブラックホールを巧みに回避しているかを見てみましょう:


http://bj.XXXXX.com/category/zizhucan/weigongcun、ユーザーが異なるソート条件を選択すると、それは異なるパラメータを持つ動的なリンクを生成します。動的リンクは、同じ並べ替え条件(例:売上順)でも、生成されるパラメータが異なります。
例: http://bj.XXXXX.com/category/zizhucan/weigongcun/hot?mtt=1.index%2Fpoi.0.0.i1afqhek http://bj.XXXXX.com/category/zizhucan/weigongcun/hot?mtt=1.index%2Fpoi.0.0.i1afqi5c

このグループ購買ネットワークは、唯一の検索エンジンに審査結果ページをクロールさせることができ、ロボットのルールを介して選別ページの結果のパラメータを持つすべての種類の検索エンジンに提供することを拒否する。
robots.txtファイルの使用は、このような規則を持っている:許可しない:/*?*、つまり、検索エンジンがサイト内のすべての動的ページにアクセスすることを禁止する。このように、サイトはまさにBaiduspiderの優先順位は、よりフレンドリーなサイト構造を提供するために、ブラックホールの形成を避けるために、低品質のページをブロックし、高品質のページを表示することです。






前の記事:MAC OSX Mountain LionをインストールするVMware仮想マシン
次の記事:WinシステムにMac OS X10.9 Black Appleチュートリアルをインストールする
|にできるようにあなたがそれをすることができます本当に出くわすことあなたは、実際には私たち約束、誰でも素早くはちょうど無視これらの一見正確にどのように{}人のことを忘れることができます。
投稿するにはログインが必要です ログイン会員登録

このバージョンのインテグラルルール


免責事項:Code Farmerによって公開されたすべてのソフトウェア、プログラミング教材や記事は、学習と研究の目的のみに使用するために制限されています。上記のコンテンツは、商業的または違法な目的のために使用してはならない、そうでなければ、すべての結果は、ユーザー自身が負担するものとします。本サイトはネットワークからの情報であり、著作権紛争は本サイトとは関係ありません。上記のコンテンツはダウンロード後24時間以内にコンピュータから完全に削除する必要があります。もしあなたがこのプログラムを気に入ったなら、正規のソフトウェアをサポートし、登録を購入し、より良い正規のサービスを受けてください。もし著作権侵害があれば、メールでご連絡ください。

メール To:help@itsvse.com

QQ|( 鲁ICP备14021824 号-2)|サイトマップ

GMT+8, 2024-9-17 14:06

クイック返信トップに戻る一覧に戻る