Požiadavky: Keď podniky budujú znalostnú bázu RAG, je dôležité zvoliť vhodný model embeddingu, pretože výkon embeddingu určuje presnosť vyhľadávania a nepriamo spoľahlivosť výstupu veľkých modelov. Bežne používané modely: bge, m3e, nomic-embed-text, BCEmbedding (NetEase Youdao).
Prečo potrebujete vložiť model?
Počítače dokážu spracovať iba numerické operácie a nemôžu priamo rozumieť nenumerickým formám dát, ako sú prirodzený jazyk, text, obrázky a zvuk. Preto musíme "vektorizovať", aby sme tieto dáta premenili na numerické formy, ktorým počítače rozumejú a spracujú, teda mapujú ich do matematických vektorových reprezentácií. Tento proces sa zvyčajne dosahuje pomocou vkladacích modelov, ktoré dokážu efektívne zachytiť sémantické informácie a vnútorné štruktúry v dátach.
Úlohou embedding modelov je nielen prevádzať diskrétne dáta (ako sú slová, obrazové fragmenty alebo audio fragmenty) na kontinuálne nízkorozmerné vektory, ale aj zachovávať sémantické vzťahy medzi dátami vo vektorovom priestore. Napríklad v spracovaní prirodzeného jazyka môžu embedding modely generovať vektory slov, čím sa sémanticky podobné slová približujú vo vektorovom priestore. Táto efektívna reprezentácia umožňuje počítačom vykonávať zložité výpočty a analýzy na základe týchto vektorov, čím lepšie rozumie a spracováva zložité dáta, ako sú texty, obrázky alebo zvuky.
Vložením vektorizácie modelu môžu počítače nielen efektívne spracovávať veľké dáta, ale tiež preukazovať silnejší výkon a schopnosti generalizácie v rôznych úlohách (ako je klasifikácia, vyhľadávanie, generovanie a pod.).
Hodnotenie modelu vloženia
Na posúdenie kvality zabudovaného modelu musí existovať jasný súbor kritérií. MTEB a C-MTEB sa bežne používajú na benchmarking.
MTEB
Huggingface má hodnotiaci štandard MTEB (Massive Multilingual Text Embedding Benchmark), ktorý je relatívne uznávaným štandardom v odvetví a môže slúžiť ako referencia. Pokrýva 8 úloh vkladania, celkovo 58 dátových súborov a 112 jazykov, čo z neho robí najkomplexnejší benchmark textového vkladania doteraz.
Zoznam:Prihlásenie na hypertextový odkaz je viditeľné. GitHub adresa:Prihlásenie na hypertextový odkaz je viditeľné.
C-MTEB
C-MTEB je najkomplexnejší čínsky benchmark hodnotenia sémantických vektorov, pokrývajúci 6 kategórií hodnotiacich úloh (vyhľadávanie, triedenie, podobnosť viet, uvažovanie, klasifikácia, zhlukovanie) a 35 dátových súborov.
Dokumenty C-MTEB:Prihlásenie na hypertextový odkaz je viditeľné. Kódy a rebríčky:Prihlásenie na hypertextový odkaz je viditeľné.(Mnohé adresy na internete sú staré)
|