Bu makale makine çevirisi ayna makalesidir, orijinal makaleye geçmek için lütfen buraya tıklayın.

Görünüm: 1262|Yanıt: 3

AI (11) Göme modelinin seçimi

[Bağlantıyı kopyala]
2025-3-14 tarihinde 23:01:35 tarihinde yayınlandı | | | |
Gereksinimler: Şirketler bir RAG bilgi tabanı kurarkən, uygun gömme gömme modelini seçmek önemlidir; çünkü gömme performansı, geri alınma doğruluğunu belirler ve dolaylı olarak büyük modellerin çıktısının güvenilirliğini belirler. Yaygın kullanılan modeller: bge, m3e, nomic-embed-text, BCEmbedding (NetEase Youdao).

Neden bir model gömmeniz gerekiyor?

Bilgisayarlar yalnızca sayısal işlemleri yapabilir ve doğal dil, metin, görüntü ve ses gibi sayısal olmayan veri biçimlerini doğrudan anlayamaz. Bu nedenle, bu verileri bilgisayarların anlayıp işleyebileceği sayısal formlara dönüştürmek için "vektörleştirme" yapmamız gerekiyor; yani bunları matematiksel vektör temsillerine eşlemlememiz gerekiyor. Bu süreç genellikle verideki anlamsal bilgileri ve iç yapıları etkili şekilde yakalayabilen gömülü modellerin yardımıyla gerçekleştirilir.

Gömülü modellerinin rolü, yalnızca kelimeler, görüntü parçaları veya ses parçaları gibi ayrık verileri sürekli düşük boyutlu vektörlere dönüştürmekle kalmayıp, aynı zamanda vektör uzayındaki veriler arasındaki anlamsal ilişkileri de korumalarıdır. Örneğin, doğal dil işlemede, gömülü modeller kelime vektörleri üretebilir ve vektör uzayında anlamsal olarak benzer kelimeleri birbirine daha yakın hale getirir. Bu verimli temsil, bilgisayarların bu vektörler üzerine karmaşık hesaplamalar ve analizler yapmasına olanak tanır ve böylece metin, görüntü veya ses gibi karmaşık verileri daha iyi anlayıp işleyebilir.

Modelin vektörizasyonunu gömmek sayesinde, bilgisayarlar yalnızca büyük ölçekli verileri verimli işlemekle kalmaz, aynı zamanda çeşitli görevlerde (sınıflandırma, bulma, üretim vb.) daha güçlü performans ve genelleştirme yetenekleri gösterebilir.

Gömülü model değerlendirmesi

Gömülü bir modelin kalitesini değerlendirmek için net bir kriter seti olmalıdır. MTEB ve C-MTEB kıyaslama için yaygın olarak kullanılır.

MTEB

Huggingface, sektörde nispeten tanınan bir MTEB (Massive Multilingual Text Embedding Benchmark) değerlendirme standardına sahiptir; bu standart, sektörde nispeten tanınmış bir standarttır ve referans olarak kullanılabilir. 8 gömme görevini, toplamda 58 veri setini ve 112 dili kapsayarak bugüne kadarki en kapsamlı metin gömme kıyaslası olmuştur.



Liste:Bağlantı girişi görünür.
GitHub adresi:Bağlantı girişi görünür.



C-MTEB

C-MTEB, 6 değerlendirme görevi kategorisini (bulma, sıralama, cümle benzerliği, akıl yürütme, sınıflandırma, kümeleme) ve 35 veri setini kapsayan en kapsamlı Çin anlamsal vektör değerlendirme kısçısıdır.

C-MTEB Belgeleri:Bağlantı girişi görünür.
Kodlar ve liderlik tabloları:Bağlantı girişi görünür.(İnternetteki birçok adres eski)





Önceki:Linux komutları sudo ve uygun İngilizce kelime kısaltmaları
Önümüzdeki:.NET/C#, imzalar oluşturmak için SM3 algoritmasını kullanır
 Ev sahibi| 2025-3-17 08:55:55 tarihinde yayınlandı |
Arctic Embed 2.0

Snowflake, çok dilli arama desteğiyle birlikte geliştirilen son teknoloji gömüleme modelimizin bir sonraki versiyonu olan Arctic Embed L 2.0 ve Arctic Embed M 2.0'ın çıkışını duyurmaktan heyecan duyuyor.Bağlantı girişi görünür.

Model indirme

Arktik Gömülü L 2.0:Bağlantı girişi görünür.
Arktik Gömülü M 2.0:Bağlantı girişi görünür.

 Ev sahibi| 2025-3-17 16:30:21 tarihinde yayınlandı |
BCEmbedding, NetEase Youdao tarafından geliştirilen, iki tür temel model içeren iki dilli ve çapraz dilli anlamsal temsil algoritmalarından oluşan bir model kütüphanesidir: EmbeddingModel ve RerankerModel. EmbeddingModel özellikle anlamsal vektörler üretmek için tasarlanmıştır ve anlamsal arama ile Soru-Cevap alanında kritik bir rol oynarken, RerankerModel anlamsal arama sonuçlarını ve anlamsal olarak ilgili dizileme süreçlerini optimize etmekte üstün başarı gösterir.

GitHub:Bağlantı girişi görünür.

EmbeddingModel:Bağlantı girişi görünür.
RerankerModel:Bağlantı girişi görünür.

 Ev sahibi| 2025-3-18 10:07:55 tarihinde yayınlandı |
Model adıSürümOrganizasyon/BireyadresGömülü uzunluğuMaksimum giriş uzunluğu
Gtegte-large-zhAlibaba Dharma AkademisiBağlantı girişi görünür.1024512
BgeBGE-Large-ZH-v1.5Pekin Zhiyuan Yapay Zeka Araştırma EnstitüsüBağlantı girişi görünür.1024512
M3EM3E-baseMokaBağlantı girişi görünür.768512
tao8ktao8kHuggingface, AMU tarafından geliştirilir ve açık kaynak olarak kullanılırBağlantı girişi görünür.1024512

Feragatname:
Code Farmer Network tarafından yayımlanan tüm yazılım, programlama materyalleri veya makaleler yalnızca öğrenme ve araştırma amaçları içindir; Yukarıdaki içerik ticari veya yasa dışı amaçlarla kullanılamaz, aksi takdirde kullanıcılar tüm sonuçları ödemelidir. Bu sitedeki bilgiler internetten alınmakta olup, telif hakkı anlaşmazlıklarının bu siteyle hiçbir ilgisi yoktur. Yukarıdaki içeriği indirmeden sonraki 24 saat içinde bilgisayarınızdan tamamen silmelisiniz. Programı beğendiyseniz, lütfen orijinal yazılımı destekleyin, kayıt satın alın ve daha iyi orijinal hizmetler alın. Herhangi bir ihlal olursa, lütfen bizimle e-posta yoluyla iletişime geçin.

Mail To:help@itsvse.com