Zahteve: Ko podjetja gradijo bazo znanja o RAG, je pomembno izbrati ustrezen model vdelave vdelav, saj uspešnost vdelave določa natančnost iskanja in posredno zanesljivost izhodov velikih modelov. Pogosto uporabljeni modeli: bge, m3e, nomic-embed-text, BCEmbedding (NetEase Youdao).
Zakaj morate vgraditi model?
Računalniki lahko obravnavajo le numerične operacije in ne morejo neposredno razumeti nenumeričnih oblik podatkov, kot so naravni jezik, besedilo, slike in zvok. Zato moramo "vektorizirati", da te podatke pretvorimo v numerične oblike, ki jih računalniki razumejo in obdelajo, torej jih preslikajo v matematične vektorske predstave. Ta proces se običajno doseže s pomočjo vgrajenih modelov, ki lahko učinkovito zajamejo semantične informacije in notranje strukture v podatkih.
Vloga vgradnih modelov je, da ne le pretvarjajo diskretne podatke (kot so besede, fragmenti slik ali zvočni fragmenti) v kontinuirane nizkodimenzionalne vektorje, temveč tudi ohranjajo semantične odnose med podatki v vektorskem prostoru. Na primer, v obdelavi naravnega jezika lahko modeli vdelave generirajo vektorje besed, zaradi česar so semantično podobne besede v vektorskem prostoru bližje skupaj. Ta učinkovita predstavitev omogoča računalnikom izvajanje zapletenih izračunov in analiz na podlagi teh vektorjev, s čimer bolje razumejo in obdelujejo kompleksne podatke, kot so besedilo, slike ali zvoki.
Z vgradnjo vektorizacije modela lahko računalniki ne le učinkovito obdelujejo podatke v velikem obsegu, temveč tudi pokažejo močnejše zmogljivosti in sposobnosti posploševanja pri različnih nalogah (kot so klasifikacija, pridobivanje podatkov, generiranje itd.).
Evalvacija modela vgradnje
Za oceno kakovosti vgrajenega modela mora obstajati jasen nabor kriterijev. MTEB in C-MTEB se pogosto uporabljata za primerjalno analizo.
MTEB
Huggingface ima standard MTEB (Massive Multilingual Text Embedding Benchmark), ki je razmeroma priznan standard v industriji in se lahko uporablja kot referenca. Pokriva 8 nalog vdelave, skupno 58 podatkovnih nizov in 112 jezikov, zaradi česar je do danes najbolj celovit referenčni sistem za vdelavo besedila.
Seznam:Prijava do hiperpovezave je vidna. GitHub naslov:Prijava do hiperpovezave je vidna.
C-MTEB
C-MTEB je najobsežnejši kitajski referenčni standard za ocenjevanje semantičnih vektorjev, ki zajema 6 kategorij evalvacijskih nalog (iskanje, razvrščanje, podobnost stavkov, sklepanje, klasifikacija, združevanje) in 35 podatkovnih nizov.
Dokumenti C-MTEB:Prijava do hiperpovezave je vidna. Kodeksi in lestvice:Prijava do hiperpovezave je vidna.(Veliko naslovov na internetu je starih)
|