AI (11) Výber modelu vkladania

Malý · Zverejnené 14. 3. 2025 23:01:35

Požiadavky: Keď podniky budujú znalostnú bázu RAG, je dôležité zvoliť vhodný model embeddingu, pretože výkon embeddingu určuje presnosť vyhľadávania a nepriamo spoľahlivosť výstupu veľkých modelov. Bežne používané modely: bge, m3e, nomic-embed-text, BCEmbedding (NetEase Youdao).

Prečo potrebujete vložiť model?

Počítače dokážu spracovať iba numerické operácie a nemôžu priamo rozumieť nenumerickým formám dát, ako sú prirodzený jazyk, text, obrázky a zvuk. Preto musíme "vektorizovať", aby sme tieto dáta premenili na numerické formy, ktorým počítače rozumejú a spracujú, teda mapujú ich do matematických vektorových reprezentácií. Tento proces sa zvyčajne dosahuje pomocou vkladacích modelov, ktoré dokážu efektívne zachytiť sémantické informácie a vnútorné štruktúry v dátach.

Úlohou embedding modelov je nielen prevádzať diskrétne dáta (ako sú slová, obrazové fragmenty alebo audio fragmenty) na kontinuálne nízkorozmerné vektory, ale aj zachovávať sémantické vzťahy medzi dátami vo vektorovom priestore. Napríklad v spracovaní prirodzeného jazyka môžu embedding modely generovať vektory slov, čím sa sémanticky podobné slová približujú vo vektorovom priestore. Táto efektívna reprezentácia umožňuje počítačom vykonávať zložité výpočty a analýzy na základe týchto vektorov, čím lepšie rozumie a spracováva zložité dáta, ako sú texty, obrázky alebo zvuky.

Vložením vektorizácie modelu môžu počítače nielen efektívne spracovávať veľké dáta, ale tiež preukazovať silnejší výkon a schopnosti generalizácie v rôznych úlohách (ako je klasifikácia, vyhľadávanie, generovanie a pod.).

Hodnotenie modelu vloženia

Na posúdenie kvality zabudovaného modelu musí existovať jasný súbor kritérií. MTEB a C-MTEB sa bežne používajú na benchmarking.

MTEB

Huggingface má hodnotiaci štandard MTEB (Massive Multilingual Text Embedding Benchmark), ktorý je relatívne uznávaným štandardom v odvetví a môže slúžiť ako referencia. Pokrýva 8 úloh vkladania, celkovo 58 dátových súborov a 112 jazykov, čo z neho robí najkomplexnejší benchmark textového vkladania doteraz.

Zoznam:Prihlásenie na hypertextový odkaz je viditeľné.
GitHub adresa:Prihlásenie na hypertextový odkaz je viditeľné.

C-MTEB

C-MTEB je najkomplexnejší čínsky benchmark hodnotenia sémantických vektorov, pokrývajúci 6 kategórií hodnotiacich úloh (vyhľadávanie, triedenie, podobnosť viet, uvažovanie, klasifikácia, zhlukovanie) a 35 dátových súborov.

Dokumenty C-MTEB:Prihlásenie na hypertextový odkaz je viditeľné.
Kódy a rebríčky:Prihlásenie na hypertextový odkaz je viditeľné.(Mnohé adresy na internete sú staré)

Malý · Zverejnené 17. 3. 2025 8:55:55

Arctic Embed 2.0

Snowflake s radosťou oznamuje vydanie Arctic Embed L 2.0 a Arctic Embed M 2.0, ďalšej verzie nášho špičkového modelu vkladania, teraz s podporou viacjazyčného vyhľadávania.Prihlásenie na hypertextový odkaz je viditeľné.

Sťahovanie modelov

Arctic Embed L 2.0:Prihlásenie na hypertextový odkaz je viditeľné.
Arctic Embed M 2.0:Prihlásenie na hypertextový odkaz je viditeľné.

Malý · Zverejnené 17. 3. 2025 16:30:21

BCEmbedding je knižnica modelov bilingválnych a medzijazyčných sémantických reprezentačných algoritmov vyvinutých spoločnosťou NetEase Youdao, vrátane dvoch typov základných modelov: EmbeddingModel a RerankerModel. EmbeddingModel je špeciálne navrhnutý na generovanie sémantických vektorov a zohráva kľúčovú úlohu v sémantikom vyhľadávaní a otázkach a odpovediach, zatiaľ čo RerankerModel vyniká v optimalizácii výsledkov sémantického vyhľadávania a sémanticky súvisiaceho sekvenovania.

GitHub:Prihlásenie na hypertextový odkaz je viditeľné.

EmbeddingModel:Prihlásenie na hypertextový odkaz je viditeľné.
RerankerModel:Prihlásenie na hypertextový odkaz je viditeľné.

Malý · Zverejnené 18. 3. 2025 10:07:55

Názov modelu	verzia	Organizácia/Jednotlivec	adresa	Dĺžka vloženia	Maximálna vstupná dĺžka
Gte	gte-large-zh	Alibaba Dharma Academy	Prihlásenie na hypertextový odkaz je viditeľné.	1024	512
BGE	bge-large-zh-v1.5	Inštitút pre výskum umelej inteligencie Beijing Zhiyuan	Prihlásenie na hypertextový odkaz je viditeľné.	1024	512
M3E	M3E-base	Moka	Prihlásenie na hypertextový odkaz je viditeľné.	768	512
tao8k	tao8k	Huggingface je vyvinutý a open source spoločnosťou AMU	Prihlásenie na hypertextový odkaz je viditeľné.	1024	512

AI (11) Výber modelu vkladania

Súvisiace príspevky

Zobrazené sekcie