インターネット上の多くのクローラーはPythonで書かれており、以前にはクロールしたいデータをクロールできる aps.net シンプルなクローラーも作成されました。 現在、多くのウェブサイトがバッククロール機能を開発しており、クローラーによるデータのスクレイピングが非常に困難になっています。 ほとんどのウェブサイトにはいくつかのリバースクロール方法があると思います。認証コード、IPアドレス、ブラックリストなど、そしてより高度なリバースクロール方法もあります。 このクローラーはアンチクロール、検証コードの回避、プロキシの使用などにも対応しています。以下にコードを貼り付けて、皆さんと一緒に議論し学びましょう。どうか問題点を訂正してください! このクローラーは主に特定のウェブサイトを対象としています。
URLを入力した後、URLに従ってデータをクロールバックし、XPathでフィルタリング・クリーンアップして必要なデータを取得できます
バッククロールを回避するには、プロキシIPを使ってアクセスし、インターネット上で隠れやすいIPをダウンロードまたは取得し、プロキシIPをランダムに切り替えて取得することもできます
上記のコードは、まずスイッチングされたIPがアクセス可能かどうかを判断するためのものです 特定のコードのソースコードを見て、そのソースコードを提供してください!
ソースコードダウンロード
観光客の皆さん、この投稿の隠された内容を見たい方は、どうぞ 答える
|