この記事は機械翻訳のミラー記事です。元の記事にジャンプするにはこちらをクリックしてください。

眺める: 1262|答える: 3

AI(11) 埋め込みモデルの選択

[リンクをコピー]
2025年3月14日 23:01:35に投稿 | | | |
要件:企業がRAGの知識ベースを構築する際には、適切な埋め込み埋め込みモデルを選ぶことが重要です。なぜなら、埋め込みの性能は検索の精度を決定し、間接的に大規模モデルの出力の信頼性を決定するためです。 よく使われているモデル:bge、m3e、nomic-embed-text、BCEmbedding(NetEase Youdao)。

なぜモデルを埋め込む必要があるのですか?

コンピュータは数値操作のみを扱え、自然言語、テキスト、画像、音声などの数値的でないデータを直接理解することはできません。 したがって、このデータをコンピュータが理解・処理できる数値化形式に変換するために「ベクトル化」する必要があります。つまり、数学的なベクトル表現にマッピングできるのです。 このプロセスは通常、意味情報や内部構造を効果的にデータに捉えることができる埋め込みモデルの助けを借りて実現されます。

埋め込みモデルの役割は、離散データ(単語、画像断片、音声断片など)を連続した低次元ベクトルに変換するだけでなく、ベクトル空間内のデータ間の意味的関係も保持することです。 例えば、自然言語処理において、埋め込みモデルはワードベクトルを生成し、意味的に似た単語をベクトル空間内でより近づけることができます。 この効率的な表現により、コンピュータはこれらのベクトルに基づいて複雑な計算や解析を行い、テキスト、画像、音声などの複雑なデータをよりよく理解し処理できます。

モデルのベクトル化を埋め込むことで、コンピュータは大規模データを効率的に処理できるだけでなく、分類、検索、生成などの様々なタスクにおいてより優れた性能と一般化能力を発揮できます。

埋め込みモデル評価

埋め込みモデルの品質を判断するには、明確な基準が必要です。 MTEBおよびC-MTEBはベンチマークに一般的に使われます。

MTEB

HuggingfaceはMTEB(大規模多言語テキスト埋め込みベンチマーク)評価基準を持っており、これは業界で比較的認知されている基準であり、参考資料として利用できます。 8つの埋め込みタスク、合計58のデータセット、112言語をカバーしており、これまでで最も包括的なテキスト埋め込みベンチマークとなっています。



リスト:ハイパーリンクのログインが見えます。
GitHubアドレス:ハイパーリンクのログインが見えます。



C-MTEB

C-MTEBは最も包括的な中国語意味ベクトル評価ベンチマークであり、6つの評価タスクカテゴリ(検索、ソート、文の類似性、推論、分類、クラスタリング)と35のデータセットをカバーしています。

C-MTEB 論文:ハイパーリンクのログインが見えます。
コードとリーダーボード:ハイパーリンクのログインが見えます。(インターネット上の多くのアドレスは古いです)





先の:Linuxはsudoコマンドとapt英語の単語略語を使います
次に:.NET/C#はSM3アルゴリズムを使って署名を生成する
 地主| 2025年3月17日 08:55:55 投稿 |
アークティック・エンベッド 2.0

Snowflakeは、最先端の埋め込みモデルの次世代であるArctic Embed L 2.0およびArctic Embed M 2.0のリリースを発表できることを嬉しく思います。これらは多言語検索にも対応しています。ハイパーリンクのログインが見えます。

モデルダウンロード

Arctic Embed L 2.0:ハイパーリンクのログインが見えます。
Arctic Embed M 2.0:ハイパーリンクのログインが見えます。

 地主| 2025年3月17日 16:30:21に投稿 |
BCEmbeddingは、NetEase Youdaoによって開発されたバイリンガルおよびクロスリンガルの意味表現アルゴリズムのモデルライブラリであり、EmbeddingModelとRerankerModelという2種類の基本モデルを含んでいます。 EmbeddingModelはセマンティックベクトルを生成するために特別に設計されており、セマンティックサーチやQ&Aにおいて重要な役割を果たします。一方、RerankerModelはセマンティック検索結果やセマンティック関連シーケンスの最適化に優れています。

GitHub:ハイパーリンクのログインが見えます。

埋め込みモデル:ハイパーリンクのログインが見えます。
RerankerModel:ハイパーリンクのログインが見えます。

 地主| 2025年3月18日 10:07:55 に投稿 |
モデル名バージョン組織/個人住所埋め込み長最大入力長
GTEGTE-ラージ-ZHアリババ・ダルマ・アカデミーハイパーリンクのログインが見えます。1024512
BGEBGE-large-zh-v1.5北京志遠人工知能研究所ハイパーリンクのログインが見えます。1024512
M3Em3e-baseモカハイパーリンクのログインが見えます。768512
タオ8Kタオ8KHuggingfaceはamuによって開発・オープンソース化されていますハイパーリンクのログインが見えます。1024512

免責事項:
Code Farmer Networkが発行するすべてのソフトウェア、プログラミング資料、記事は学習および研究目的のみを目的としています。 上記の内容は商業的または違法な目的で使用されてはならず、そうでなければ利用者はすべての結果を負うことになります。 このサイトの情報はインターネットからのものであり、著作権紛争はこのサイトとは関係ありません。 ダウンロード後24時間以内に上記の内容を完全にパソコンから削除してください。 もしこのプログラムを気に入ったら、正規のソフトウェアを支持し、登録を購入し、より良い本物のサービスを受けてください。 もし侵害があれば、メールでご連絡ください。

Mail To:help@itsvse.com