Persyaratan: Ketika perusahaan membangun basis pengetahuan RAG, penting untuk memilih model penyematan penyematan yang sesuai, karena kinerja penyematan menentukan keakuratan pengambilan dan secara tidak langsung menentukan keandalan output model besar. Model yang umum digunakan: bge, m3e, nomic-embed-text, BCEmbedding (NetEase Youdao).
Mengapa Anda perlu menyematkan model?
Komputer hanya dapat menangani operasi numerik dan tidak dapat secara langsung memahami bentuk data non-numerik seperti bahasa alami, teks, gambar, dan audio. Oleh karena itu, kita perlu "vektorisasi" untuk mengubah data ini menjadi bentuk numerik yang dapat dipahami dan diproses oleh komputer, yaitu memetakannya menjadi representasi vektor matematika. Proses ini biasanya dicapai dengan bantuan model penyematan, yang secara efektif dapat menangkap informasi semantik dan struktur internal dalam data.
Peran model penyematan adalah bahwa mereka tidak hanya mengubah data diskrit (seperti kata, fragmen gambar, atau fragmen audio) menjadi vektor dimensi rendah yang berkelanjutan, tetapi juga mempertahankan hubungan semantik antara data dalam ruang vektor. Misalnya, dalam pemrosesan bahasa alami, model penyematan dapat menghasilkan vektor kata, membuat kata-kata yang serupa secara semantik lebih dekat dalam ruang vektor. Representasi yang efisien ini memungkinkan komputer untuk melakukan perhitungan dan analisis yang kompleks berdasarkan vektor ini, sehingga lebih memahami dan memproses data kompleks seperti teks, gambar, atau suara.
Dengan menyematkan vektorisasi model, komputer tidak hanya dapat memproses data skala besar secara efisien, tetapi juga menunjukkan kinerja yang lebih kuat dan kemampuan generalisasi dalam berbagai tugas (seperti klasifikasi, pengambilan, pembuatan, dll.).
Sematkan evaluasi model
Untuk menilai kualitas model tertanam, harus ada serangkaian kriteria yang jelas. MTEB dan C-MTEB biasanya digunakan untuk benchmarking.
MTEB
Huggingface memiliki standar evaluasi MTEB (Massive Multilingual Text Embedding Benchmark), yang merupakan standar yang relatif diakui di industri dan dapat digunakan sebagai referensi. Ini mencakup 8 tugas penyematan, total 58 kumpulan data dan 112 bahasa, menjadikannya tolok ukur penyematan teks paling komprehensif hingga saat ini.
Daftar:Login hyperlink terlihat. Alamat GitHub:Login hyperlink terlihat.
C-MTEB
C-MTEB adalah tolok ukur evaluasi vektor semantik Tiongkok yang paling komprehensif, mencakup 6 kategori tugas evaluasi (pengambilan, penyortiran, kesamaan kalimat, penalaran, klasifikasi, pengelompokan) dan 35 kumpulan data.
Makalah C-MTEB:Login hyperlink terlihat. Kode dan papan peringkat:Login hyperlink terlihat.(Banyak alamat di Internet sudah tua)
|