この記事は機械翻訳のミラー記事です。元の記事にジャンプするにはこちらをクリックしてください。

眺める: 10314|答える: 1

[通信] ウェブサイトのアンチスリ

[リンクをコピー]
掲載地 2019/07/12 17:22:08 | | |
1. HTTPリクエストヘッダー

HTTPリクエストがサーバーに送信されるたびに、属性と設定情報のセットが渡され、これがHTTPリクエストヘッダーとなります。 ブラウザから送信されるリクエストヘッダーがクローラーコードから送信されるリクエストヘッダーが異なるため、アンチクローラーに発見され、IPブロックされる可能性が高いです。

2. クッキー設定

ウェブサイトはクッキーを通じてあなたの訪問を追跡し、クローラーの動作が検出された場合、例えばフォームに特に早く記入したり、短時間で大量のページを閲覧したりすると、即座に訪問を中断します。 収集の過程でこれらのウェブサイトが生成するクッキーを確認し、クローラーがどのクッキーを処理するべきかを考えることが推奨されます。

3. アクセス経路

一般的なクローラーアクセス経路は常に同じで、アンチクローラーに認識されやすく、ユーザーアクセスをシミュレートしようとし、ランダムにページにアクセスすることがあります。

4. 訪問頻度

IPをブロックする理由の多くはアクセス頻度が速すぎるためです。結局のところ、クローラーのタスクを早く完了したいのに速度が達せず、IPがブロックされると効率が低下します。

基本的なアンチクローラー戦略は、もちろんこれらだけでなく、より厳格なアンチクローラーも含まれます。これには、アンチクローラーエンジニアがターゲットサイトのアンチクローラー戦略を徐々に研究する必要があります。アンチクローラー戦略の継続的なアップグレードと、効率的かつ高品質なプロキシIPを組み合わせることで、クローラー作業を効率的に進めることができます。




先の:SpringBootMainApplication、またはアプリケーション用も
次に:Python入門チュートリアルフルバージョン(中国語がわかれば学べます)
掲載地 2019/07/12 19:01:50 |
クローラーはHTTPリクエストデータをシミュレートし、すべてのアンチクローラーは同じです。ただ、どちらのアルゴリズムがより賢く効率的なかを試すためです。 また、ご自身のビジネス状況に基づいた合理的な戦略を策定することも必要です。

例えば、通常のコンサルティングサイトでは、ユーザーが1分間に1,000件、1時間で数万件のリクエストを受け取ることはできません。もし1つのIPが設定の閾値を超えた場合、直接拒否するか、認証コードのページにジャンプしてスライドするか、認証コードを入力すれば通常通りアクセスできます。そうでなければIPはブロックされます。
免責事項:
Code Farmer Networkが発行するすべてのソフトウェア、プログラミング資料、記事は学習および研究目的のみを目的としています。 上記の内容は商業的または違法な目的で使用されてはならず、そうでなければ利用者はすべての結果を負うことになります。 このサイトの情報はインターネットからのものであり、著作権紛争はこのサイトとは関係ありません。 ダウンロード後24時間以内に上記の内容を完全にパソコンから削除してください。 もしこのプログラムを気に入ったら、正規のソフトウェアを支持し、登録を購入し、より良い本物のサービスを受けてください。 もし侵害があれば、メールでご連絡ください。

Mail To:help@itsvse.com