この記事は機械翻訳のミラー記事です。元の記事にジャンプするにはこちらをクリックしてください。

眺める: 13134|答える: 0

[ウェブサイト構築知識] クモのブラックホールを避けるための賢いロボット

[リンクをコピー]
掲載地 2014/10/23 22:44:58 | | |

百度検索エンジンにとって、スパイダーブラックホールとは、ウェブサイトが非常に低コストで大量のパラメータを作成し、似た内容で異なる特定のパラメータを持つ動的なURLを指し、無限ループの「ブラックホール」がクモを捕まえるように、無効なウェブページをクロールするために多くのリソースを浪費します。
       例えば、多くのウェブサイトにはフィルタリング機能があり、そのフィルタリング機能によって生成されるウェブページは検索エンジンにクロールされることが多いです。また、その多くは検索価値が低いです。例えば「500〜1000ドルの価格の家を借りる」などです。まず第一に、ウェブサイト上には(現実を含めて)関連するリソースがほとんどありません。第二に、サイト内ユーザーや検索エンジンユーザーにはそのような検索習慣が存在しません。 この種のウェブページは大量に検索エンジンにクロールされており、ウェブサイト上の貴重なクロールクロール数しか占有できません。 では、どうすればこれを避けられるのでしょうか?
       北京のグループ購入サイトを例に取り、そのウェブサイトがロボットを使ってこのクモのブラックホールを巧みに回避している様子を見てみましょう。

通常のフィルター結果ページでは、サイトは静的リンク(例えば http://bj.XXXXX.com/category/zizhucan/weigongcun)を使用します
       同じ条件付きフィルターの結果ページで、ユーザーが異なるソート条件を選択すると、異なるパラメータを持つ動的リンクが生成され、同じソート基準(例:売上の降順)であっても、生成されるパラメータは異なります。 例えば:http://bj.XXXXX.com/category/zizhucan/weigongcun/hot?mtt=1.index%2Fpoi.0.0.i1afqhek
http://bj.XXXXX.com/category/zizhucan/weigongcun/hot?mtt=1.index%2Fpoi.0.0.i1afqi5c

グループバイシングネットワークでは、検索エンジンのみがフィルター結果ページをクロールでき、さまざまなパラメータを持つ結果ソートページはロボットのルールで検索エンジンに拒否されます。
       robots.txtファイル利用に関して「Disallow: /*?*」というルールがあり、これは検索エンジンがウェブサイト内のすべての動的ページにアクセスすることを禁止しています。 このようにして、サイトは高品質なページを優先し、低品質なページをブロックすることで、Baiduspiderにより親しみやすいウェブサイト構造を提供し、ブラックホールの形成を回避しています。






先の:VMware仮想マシンはMAC OSX Mountain Lionにインストールされています
次に:Windows システムでMac OS X10.9をインストールする Black Appleチュートリアル
免責事項:
Code Farmer Networkが発行するすべてのソフトウェア、プログラミング資料、記事は学習および研究目的のみを目的としています。 上記の内容は商業的または違法な目的で使用されてはならず、そうでなければ利用者はすべての結果を負うことになります。 このサイトの情報はインターネットからのものであり、著作権紛争はこのサイトとは関係ありません。 ダウンロード後24時間以内に上記の内容を完全にパソコンから削除してください。 もしこのプログラムを気に入ったら、正規のソフトウェアを支持し、登録を購入し、より良い本物のサービスを受けてください。 もし侵害があれば、メールでご連絡ください。

Mail To:help@itsvse.com