Gereksinimler: Şirketler bir RAG bilgi tabanı kurarkən, uygun gömme gömme modelini seçmek önemlidir; çünkü gömme performansı, geri alınma doğruluğunu belirler ve dolaylı olarak büyük modellerin çıktısının güvenilirliğini belirler. Yaygın kullanılan modeller: bge, m3e, nomic-embed-text, BCEmbedding (NetEase Youdao).
Neden bir model gömmeniz gerekiyor?
Bilgisayarlar yalnızca sayısal işlemleri yapabilir ve doğal dil, metin, görüntü ve ses gibi sayısal olmayan veri biçimlerini doğrudan anlayamaz. Bu nedenle, bu verileri bilgisayarların anlayıp işleyebileceği sayısal formlara dönüştürmek için "vektörleştirme" yapmamız gerekiyor; yani bunları matematiksel vektör temsillerine eşlemlememiz gerekiyor. Bu süreç genellikle verideki anlamsal bilgileri ve iç yapıları etkili şekilde yakalayabilen gömülü modellerin yardımıyla gerçekleştirilir.
Gömülü modellerinin rolü, yalnızca kelimeler, görüntü parçaları veya ses parçaları gibi ayrık verileri sürekli düşük boyutlu vektörlere dönüştürmekle kalmayıp, aynı zamanda vektör uzayındaki veriler arasındaki anlamsal ilişkileri de korumalarıdır. Örneğin, doğal dil işlemede, gömülü modeller kelime vektörleri üretebilir ve vektör uzayında anlamsal olarak benzer kelimeleri birbirine daha yakın hale getirir. Bu verimli temsil, bilgisayarların bu vektörler üzerine karmaşık hesaplamalar ve analizler yapmasına olanak tanır ve böylece metin, görüntü veya ses gibi karmaşık verileri daha iyi anlayıp işleyebilir.
Modelin vektörizasyonunu gömmek sayesinde, bilgisayarlar yalnızca büyük ölçekli verileri verimli işlemekle kalmaz, aynı zamanda çeşitli görevlerde (sınıflandırma, bulma, üretim vb.) daha güçlü performans ve genelleştirme yetenekleri gösterebilir.
Gömülü model değerlendirmesi
Gömülü bir modelin kalitesini değerlendirmek için net bir kriter seti olmalıdır. MTEB ve C-MTEB kıyaslama için yaygın olarak kullanılır.
MTEB
Huggingface, sektörde nispeten tanınan bir MTEB (Massive Multilingual Text Embedding Benchmark) değerlendirme standardına sahiptir; bu standart, sektörde nispeten tanınmış bir standarttır ve referans olarak kullanılabilir. 8 gömme görevini, toplamda 58 veri setini ve 112 dili kapsayarak bugüne kadarki en kapsamlı metin gömme kıyaslası olmuştur.
Liste:Bağlantı girişi görünür. GitHub adresi:Bağlantı girişi görünür.
C-MTEB
C-MTEB, 6 değerlendirme görevi kategorisini (bulma, sıralama, cümle benzerliği, akıl yürütme, sınıflandırma, kümeleme) ve 35 veri setini kapsayan en kapsamlı Çin anlamsal vektör değerlendirme kısçısıdır.
C-MTEB Belgeleri:Bağlantı girişi görünür. Kodlar ve liderlik tabloları:Bağlantı girişi görünür.(İnternetteki birçok adres eski)
|