Artikel ini adalah artikel cermin dari terjemahan mesin, silakan klik di sini untuk melompat ke artikel aslinya.

Melihat: 1262|Jawab: 3

AI (11) Pemilihan model penyematan

[Salin tautan]
Dipaparkan pada 2025-3-14 23:01:35 | | | |
Persyaratan: Ketika perusahaan membangun basis pengetahuan RAG, penting untuk memilih model penyematan penyematan yang sesuai, karena kinerja penyematan menentukan keakuratan pengambilan dan secara tidak langsung menentukan keandalan output model besar. Model yang umum digunakan: bge, m3e, nomic-embed-text, BCEmbedding (NetEase Youdao).

Mengapa Anda perlu menyematkan model?

Komputer hanya dapat menangani operasi numerik dan tidak dapat secara langsung memahami bentuk data non-numerik seperti bahasa alami, teks, gambar, dan audio. Oleh karena itu, kita perlu "vektorisasi" untuk mengubah data ini menjadi bentuk numerik yang dapat dipahami dan diproses oleh komputer, yaitu memetakannya menjadi representasi vektor matematika. Proses ini biasanya dicapai dengan bantuan model penyematan, yang secara efektif dapat menangkap informasi semantik dan struktur internal dalam data.

Peran model penyematan adalah bahwa mereka tidak hanya mengubah data diskrit (seperti kata, fragmen gambar, atau fragmen audio) menjadi vektor dimensi rendah yang berkelanjutan, tetapi juga mempertahankan hubungan semantik antara data dalam ruang vektor. Misalnya, dalam pemrosesan bahasa alami, model penyematan dapat menghasilkan vektor kata, membuat kata-kata yang serupa secara semantik lebih dekat dalam ruang vektor. Representasi yang efisien ini memungkinkan komputer untuk melakukan perhitungan dan analisis yang kompleks berdasarkan vektor ini, sehingga lebih memahami dan memproses data kompleks seperti teks, gambar, atau suara.

Dengan menyematkan vektorisasi model, komputer tidak hanya dapat memproses data skala besar secara efisien, tetapi juga menunjukkan kinerja yang lebih kuat dan kemampuan generalisasi dalam berbagai tugas (seperti klasifikasi, pengambilan, pembuatan, dll.).

Sematkan evaluasi model

Untuk menilai kualitas model tertanam, harus ada serangkaian kriteria yang jelas. MTEB dan C-MTEB biasanya digunakan untuk benchmarking.

MTEB

Huggingface memiliki standar evaluasi MTEB (Massive Multilingual Text Embedding Benchmark), yang merupakan standar yang relatif diakui di industri dan dapat digunakan sebagai referensi. Ini mencakup 8 tugas penyematan, total 58 kumpulan data dan 112 bahasa, menjadikannya tolok ukur penyematan teks paling komprehensif hingga saat ini.



Daftar:Login hyperlink terlihat.
Alamat GitHub:Login hyperlink terlihat.



C-MTEB

C-MTEB adalah tolok ukur evaluasi vektor semantik Tiongkok yang paling komprehensif, mencakup 6 kategori tugas evaluasi (pengambilan, penyortiran, kesamaan kalimat, penalaran, klasifikasi, pengelompokan) dan 35 kumpulan data.

Makalah C-MTEB:Login hyperlink terlihat.
Kode dan papan peringkat:Login hyperlink terlihat.(Banyak alamat di Internet sudah tua)





Mantan:Perintah Linux sudo dan singkatan kata bahasa Inggris yang tepat
Depan:.NET/C# menggunakan algoritma SM3 untuk menghasilkan tanda tangan
 Tuan tanah| Dipaparkan pada 2025-3-17 08:55:55 |
Arktik Embed 2.0

Snowflake dengan senang hati mengumumkan rilis Arctic Embed L 2.0 dan Arctic Embed M 2.0, iterasi berikutnya dari model penyematan mutakhir kami, sekarang dengan dukungan untuk pencarian multibahasa.Login hyperlink terlihat.

Unduh model

Arktik Embed L 2.0:Login hyperlink terlihat.
Arktik Embed M 2.0:Login hyperlink terlihat.

 Tuan tanah| Dipaparkan pada 2025-3-17 16:30:21 |
BCEmbedding adalah perpustakaan model algoritma representasi semantik dwibahasa dan lintas bahasa yang dikembangkan oleh NetEase Youdao, termasuk dua jenis model dasar: EmbeddingModel dan RerankerModel. EmbeddingModel dirancang khusus untuk menghasilkan vektor semantik dan memainkan peran penting dalam pencarian semantik dan Tanya Jawab, sementara RerankerModel unggul dalam mengoptimalkan hasil pencarian semantik dan pengurutan terkait semantik.

GitHub:Login hyperlink terlihat.

Menyematkan Model:Login hyperlink terlihat.
Model Reranker:Login hyperlink terlihat.

 Tuan tanah| Dipaparkan pada 2025-3-18 10:07:55 |
Nama modelversiOrganisasi/IndividualamatPanjang sematkanPanjang input maksimum
Gtegte-besar-zhAkademi Dharma AlibabaLogin hyperlink terlihat.1024512
BGEbge-besar-zh-v1.5Institut Penelitian Kecerdasan Buatan Beijing ZhiyuanLogin hyperlink terlihat.1024512
m3eBasis M3EmokaLogin hyperlink terlihat.768512
tao8ktao8kHuggingface dikembangkan dan open source oleh amuLogin hyperlink terlihat.1024512

Sanggahan:
Semua perangkat lunak, materi pemrograman, atau artikel yang diterbitkan oleh Code Farmer Network hanya untuk tujuan pembelajaran dan penelitian; Konten di atas tidak boleh digunakan untuk tujuan komersial atau ilegal, jika tidak, pengguna akan menanggung semua konsekuensi. Informasi di situs ini berasal dari Internet, dan sengketa hak cipta tidak ada hubungannya dengan situs ini. Anda harus sepenuhnya menghapus konten di atas dari komputer Anda dalam waktu 24 jam setelah pengunduhan. Jika Anda menyukai program ini, harap dukung perangkat lunak asli, pembelian pendaftaran, dan dapatkan layanan asli yang lebih baik. Jika ada pelanggaran, silakan hubungi kami melalui email.

Mail To:help@itsvse.com