Krav: När företag bygger en RAG-kunskapsbas är det viktigt att välja lämplig inbäddningsmodell, eftersom prestandan för inbäddningen avgör noggrannheten i återhämtningen och indirekt tillförlitligheten hos utdata från stora modeller. Vanligt använda modeller: bge, m3e, nomic-embed-text, BCEmbedding (NetEase Youdao).
Varför behöver du bädda in en modell?
Datorer kan endast hantera numeriska operationer och kan inte direkt förstå icke-numeriska former av data såsom naturligt språk, text, bilder och ljud. Därför behöver vi "vektorisera" för att omvandla dessa data till numeriska former som datorer kan förstå och bearbeta, det vill säga avbilda dem till matematiska vektorrepresentationer. Denna process uppnås vanligtvis med hjälp av inbäddningsmodeller, som effektivt kan fånga semantisk information och interna strukturer i datan.
Inbäddningsmodellers roll är att de inte bara omvandlar diskret data (såsom ord, bildfragment eller ljudfragment) till kontinuerliga lågdimensionella vektorer, utan också bevarar de semantiska relationerna mellan data i vektorrummet. Till exempel kan inbäddningsmodeller i naturlig språkbehandling generera ordvektorer, vilket gör semantiskt lika ord närmare varandra i vektorrummet. Denna effektiva representation gör det möjligt för datorer att utföra komplexa beräkningar och analyser baserade på dessa vektorer, vilket ger en bättre förståelse och bearbetning av komplex data såsom text, bilder eller ljud.
Genom att integrera modellens vektorisering kan datorer inte bara effektivt bearbeta storskalig data, utan också demonstrera starkare prestanda- och generaliseringsförmåga i olika uppgifter (såsom klassificering, hämtning, generering, etc.).
Utvärdering av inbäddningsmodellen
För att bedöma kvaliteten på en inbäddad modell måste det finnas en tydlig uppsättning kriterier. MTEB och C-MTEB används ofta för benchmarking.
MTEB
Huggingface har en MTEB (Massive Multilingual Text Embedding Benchmark) utvärderingsstandard, som är en relativt erkänd standard i branschen och kan användas som referens. Den täcker 8 inbäddningsuppgifter, totalt 58 dataset och 112 språk, vilket gör den till den mest omfattande benchmarken för textinbäddning hittills.
Lista:Inloggningen med hyperlänken är synlig. GitHub-adress:Inloggningen med hyperlänken är synlig.
C-MTEB
C-MTEB är det mest omfattande kinesiska benchmarken för semantisk vektorutvärdering och täcker 6 kategorier av utvärderingsuppgifter (återvinning, sortering, meningslikhet, resonemang, klassificering, klustring) och 35 dataset.
C-MTEB-papper:Inloggningen med hyperlänken är synlig. Koder och topplistor:Inloggningen med hyperlänken är synlig.(Många adresser på internet är gamla)
|