この記事は機械翻訳のミラー記事です。元の記事にジャンプするにはこちらをクリックしてください。

眺める: 6887|答える: 2

ビッグデータ共有のための一般的なアルゴリズム(アプリケーション)

[リンクをコピー]
掲載地 2019/04/27 9:53:15 | | |
ビッグデータマイニングとは、巨大で不完全でノイズが多く、ぼんやりしたランダムな大規模データベースに隠された価値があり、かつ潜在的に有用な情報や知識を発見するプロセスであり、意思決定支援プロセスでもあります。 主に人工知能、機械学習、パターン学習、統計学などに基づいています。 ビッグデータマイニングとは、巨大で不完全でノイズが多く、ぼんやりしたランダムな大規模データベースに隠された価値があり、かつ潜在的に有用な情報や知識を発見するプロセスであり、意思決定支援プロセスでもあります。 主に人工知能、機械学習、パターン学習、統計学などに基づいています。

(1) 分類。 分類とは、データベース内のデータセットの共通特性を特定し、分類パターンに従って異なるクラスに分けることであり、その目的は分類モデルを通じてデータベース内のデータ項目を特定のカテゴリにマッピングすることです。 これはアプリケーションの分類やトレンド予測にも応用でき、例えば淘宝店舗は一定期間にわたってユーザーの購入を異なるカテゴリーに分け、状況に応じて関連商品をユーザーに推薦することで、店舗の売上を増加させます。 分類には決定木、knn、ベイズ分布など多くのアルゴリズムが利用できます

(2) 回帰分析。 回帰分析はデータベース内のデータの属性値の特徴を反映し、関数を通じてデータマッピングの関係を表現することで属性値間の依存関係を発見します。 これはデータ系列の予測と相関にも応用できます。 マーケティングにおいて、回帰分析はさまざまな側面に適用されます。 例えば、当四半期の売上回帰分析を通じて、次の四半期の売上動向を予測し、ターゲットを絞ったマーケティングの変更を行います。 一般的な回帰アルゴリズムには、通常の最小二乗回帰、ロジスティック回帰、ステップワイズ回帰、多変量適応回帰スプライン、局所推定回帰などがあります 散布図平滑化)

(3) クラスタリング。 クラスタリングは分類に似ていますが、分類とは異なり、データの類似点と相違点に基づいてデータセットをカテゴリーに分けます。 同じカテゴリに属するデータ間の類似度は非常に大きいのに対し、異なるカテゴリ間のデータ間の類似度は非常に小さく、カテゴリ間の相関も非常に低いです。 一般的なクラスタリングアルゴリズムには、k-平均法や期待最大化(EM)があります。

(4) 協会規則。 アソシエーションルールとは、隠されたデータ項目間の関連付けや関係性であり、つまり、あるデータ項目の出現から他のデータ項目の出現を推測できます。 アソシエーションルールのマイニングプロセスは主に2段階で構成されます。第一段階は大量の生データからすべての高頻度プロジェクトグループを見つけることです。 第二の極端は、これらの高頻度プロジェクトグループからアソシエーションルールを生成することです。 アソシエーションルールマイニング技術は、金融業界で顧客のニーズを予測するために広く利用されており、銀行は顧客が興味を持ちそうな情報をバンドルしてユーザーが理解し、ATM上で対応する情報を取得できるようにすることでマーケティングを強化しています。 一般的なアルゴリズムには、AprioriアルゴリズムやEclatアルゴリズムがあります。

(5) ニューラルネットワーク法。 高度な人工知能技術として、ニューラルネットワークは非線形および曖昧で不完全かつ不正確な知識やデータを特徴とする処理問題に非常に適しています。また、その特性はデータマイニングの問題解決にも非常に適しています。 典型的なニューラルネットワークモデルは主に3つのカテゴリーに分けられます。1つ目は分類予測とパターン認識のためのフィードフォーワードニューラルネットワークモデルで、主に機能ネットワークとパーセプトロンで表されます。 第二のカテゴリーは、ホップフィールドの離散モデルと連続モデルで表される、連想的記憶および最適化アルゴリズムのためのフィードバックニューラルネットワークモデルです。 三つ目のカテゴリーは、クラスタリングのための自己組織化マッピング法で、ARTモデルで表されます。 ニューラルネットワークには多くのモデルやアルゴリズムがありますが、特定のデータマイニング分野でどのモデルやアルゴリズムを使うかの統一されたルールはなく、ネットワークの学習や意思決定の過程を理解するのは人々にとって難しいです。

(6)ウェブデータマイニング。 ウェブデータマイニングは包括的な技術であり、文書構造と暗黙のパターンPを発見するために用いられる集合CからWebを指します。もしCを入力とみなし、Pを出力とみなすならば、ウェブマイニングプロセスは入力から出力へのマッピングプロセスとみなすことができます。 現在、ますます多くのウェブデータがデータストリームの形で現れており、ウェブデータフローマイニングにとって非常に重要な役割を果たしています。 現在、一般的に使われているウェブデータマイニングアルゴリズムは、PageRankアルゴリズム、HITSアルゴリズム、LOGSOMアルゴリズムです。 これら3つのアルゴリズムで言及されているユーザーは一般ユーザーであり、個々のユーザーを区別しません。 現在、ウェブデータマイニングはユーザー分類、ウェブサイトコンテンツのタイムリーさ、ページ滞在時間、ページリンクの出入り数など、いくつかの問題に直面しています。 今日のウェブ技術の急速な発展の中でも、これらの問題は研究し解決する価値があります。

(7) ディープラーニング
ディープラーニングアルゴリズムは人工ニューラルネットワークの開発です。 特に百度がディープラーニングの開発を開始し、中国で大きな注目を集めたことで、最近大きな注目を集めています。 現代の計算能力が安価になっている現代において、ディープラーニングははるかに大規模で複雑なニューラルネットワークを構築しようと試みています。 多くのディープラーニングアルゴリズムは、少量の未識別データを含む大規模なデータセットを処理するために用いられる半教師あり学習アルゴリズムです。 一般的なディープラーニングアルゴリズムには、制限ボルツマンマシン(RBN)、ディープビリーフネットワーク(DBN)、畳み込みネットワーク、積み重自動エンコーダなどがあります。

(8) 積分アルゴリズム
アンサンブルアルゴリズムは、比較的弱い学習モデルを用いて同じサンプルを独立して学習し、その結果を統合して全体的な予測を行います。 アンサンブルアルゴリズムの主な難しさは、どの独立した弱い学習モデルを統合するか、そして学習結果をどのように統合するかにあります。 これは非常に強力なアルゴリズムのクラスであり、同時に非常に人気があります。 一般的なアルゴリズムには、ブースティング、ブートストラップ集約(タグ付け)、AdaBoost、積み重ね一般化(ブレンディング)、グラデーションブースティングマシン(GBM)、ランダムフォレストなどがあります。

さらに、次元削減はデータ解析工学においても非常に重要です。クラスタリングアルゴリズムと同様に、次元削減アルゴリズムはデータの内部構造を解析しようとしますが、次元削減アルゴリズムは教師なし学習でデータを要約・解釈するためにより少ない情報量を用いようとします。 これらのアルゴリズムは、高次元データの可視化や教師あり学習のためのデータの簡略化に利用できます。 一般的なアルゴリズムには、主成分分析(PCA)、部分最小二乗回帰(PLS)、サムモンマッピング、多次元スケーリング(MDS)、射影追跡法などがあります。

いくつかのアルゴリズムの利点と欠点、そしてアルゴリズム選択の参考文献について詳しく知りたい方は、以下のブログでよく使われるアルゴリズムの適応シナリオとその利点・欠点をご覧いただけます(とても良いです)。

以下は上記のブログの一段落からの引用です。
アルゴリズム選択の参考文献:

私は以前にいくつかの外国記事を翻訳したことがありますが、ある記事では簡単なアルゴリズム選択手法が紹介されています。

効果が良くない場合は、その結果を基準に使い、他のアルゴリズムと比較することができます。

次に決定木(ランダムフォレスト)を試してみて、モデルのパフォーマンスが劇的に向上するか試してみてください。 最終的に最終モデルとして使わなくても、ランダムフォレストを使ってノイズ変数を除去し特徴量を選択できます。

特徴や観測サンプルの数が特に多い場合、資源と時間が十分な場合にSVMを利用する選択肢があります(この前提は重要です)。

通常は [XGBOOST>=GBDT>=SVM>=RF>=Adaboost>=その他...]ですが、現在はディープラーニングが非常に人気があり、多くの分野で使われています。ニューラルネットワークに基づいています。私自身も現在学んでいますが、理論的な知識はあまり深くなく、理解も十分ではないのでここでは紹介しません。

アルゴリズムは重要ですが、良いデータよりも良いアルゴリズムの方が優れており、良い特徴を設計することは大きなメリットがあります。 非常に大きなデータセットを持っている場合、どのアルゴリズムを使っても分類性能に大きな影響はないかもしれません(速度や使いやすさで選べます)。




先の:クエリ結果をJson形式のスクリプト共有に変換する
次に:C#は定期的にタスクを実行するWindowsサービスです
 地主| 掲載地 2019/05/27 8:27:15 |
みなさんおはようございます
 地主| 掲載地 2019/09/16 12:10:06 |
アルゴリズムは非常に高額で、電話も歓迎します
免責事項:
Code Farmer Networkが発行するすべてのソフトウェア、プログラミング資料、記事は学習および研究目的のみを目的としています。 上記の内容は商業的または違法な目的で使用されてはならず、そうでなければ利用者はすべての結果を負うことになります。 このサイトの情報はインターネットからのものであり、著作権紛争はこのサイトとは関係ありません。 ダウンロード後24時間以内に上記の内容を完全にパソコンから削除してください。 もしこのプログラムを気に入ったら、正規のソフトウェアを支持し、登録を購入し、より良い本物のサービスを受けてください。 もし侵害があれば、メールでご連絡ください。

Mail To:help@itsvse.com