Tento článok je zrkadlovým článkom o strojovom preklade, kliknite sem pre prechod na pôvodný článok.

Pohľad: 1262|Odpoveď: 3

AI (11) Výber modelu vkladania

[Kopírovať odkaz]
Zverejnené 14. marca 2025 23:01:35 | | | |
Požiadavky: Keď podniky budujú znalostnú bázu RAG, je dôležité zvoliť vhodný model embeddingu, pretože výkon embeddingu určuje presnosť vyhľadávania a nepriamo spoľahlivosť výstupu veľkých modelov. Bežne používané modely: bge, m3e, nomic-embed-text, BCEmbedding (NetEase Youdao).

Prečo potrebujete vložiť model?

Počítače dokážu spracovať iba numerické operácie a nemôžu priamo rozumieť nenumerickým formám dát, ako sú prirodzený jazyk, text, obrázky a zvuk. Preto musíme "vektorizovať", aby sme tieto dáta premenili na numerické formy, ktorým počítače rozumejú a spracujú, teda mapujú ich do matematických vektorových reprezentácií. Tento proces sa zvyčajne dosahuje pomocou vkladacích modelov, ktoré dokážu efektívne zachytiť sémantické informácie a vnútorné štruktúry v dátach.

Úlohou embedding modelov je nielen prevádzať diskrétne dáta (ako sú slová, obrazové fragmenty alebo audio fragmenty) na kontinuálne nízkorozmerné vektory, ale aj zachovávať sémantické vzťahy medzi dátami vo vektorovom priestore. Napríklad v spracovaní prirodzeného jazyka môžu embedding modely generovať vektory slov, čím sa sémanticky podobné slová približujú vo vektorovom priestore. Táto efektívna reprezentácia umožňuje počítačom vykonávať zložité výpočty a analýzy na základe týchto vektorov, čím lepšie rozumie a spracováva zložité dáta, ako sú texty, obrázky alebo zvuky.

Vložením vektorizácie modelu môžu počítače nielen efektívne spracovávať veľké dáta, ale tiež preukazovať silnejší výkon a schopnosti generalizácie v rôznych úlohách (ako je klasifikácia, vyhľadávanie, generovanie a pod.).

Hodnotenie modelu vloženia

Na posúdenie kvality zabudovaného modelu musí existovať jasný súbor kritérií. MTEB a C-MTEB sa bežne používajú na benchmarking.

MTEB

Huggingface má hodnotiaci štandard MTEB (Massive Multilingual Text Embedding Benchmark), ktorý je relatívne uznávaným štandardom v odvetví a môže slúžiť ako referencia. Pokrýva 8 úloh vkladania, celkovo 58 dátových súborov a 112 jazykov, čo z neho robí najkomplexnejší benchmark textového vkladania doteraz.



Zoznam:Prihlásenie na hypertextový odkaz je viditeľné.
GitHub adresa:Prihlásenie na hypertextový odkaz je viditeľné.



C-MTEB

C-MTEB je najkomplexnejší čínsky benchmark hodnotenia sémantických vektorov, pokrývajúci 6 kategórií hodnotiacich úloh (vyhľadávanie, triedenie, podobnosť viet, uvažovanie, klasifikácia, zhlukovanie) a 35 dátových súborov.

Dokumenty C-MTEB:Prihlásenie na hypertextový odkaz je viditeľné.
Kódy a rebríčky:Prihlásenie na hypertextový odkaz je viditeľné.(Mnohé adresy na internete sú staré)





Predchádzajúci:Linux príkazy sudo a apt anglické skratky slov
Budúci:.NET/C# používa algoritmus SM3 na generovanie podpisov
 Prenajímateľ| Zverejnené 17. marca 2025 08:55:55 |
Arctic Embed 2.0

Snowflake s radosťou oznamuje vydanie Arctic Embed L 2.0 a Arctic Embed M 2.0, ďalšej verzie nášho špičkového modelu vkladania, teraz s podporou viacjazyčného vyhľadávania.Prihlásenie na hypertextový odkaz je viditeľné.

Sťahovanie modelov

Arctic Embed L 2.0:Prihlásenie na hypertextový odkaz je viditeľné.
Arctic Embed M 2.0:Prihlásenie na hypertextový odkaz je viditeľné.

 Prenajímateľ| Zverejnené 17.3.2025 o 16:30:21 |
BCEmbedding je knižnica modelov bilingválnych a medzijazyčných sémantických reprezentačných algoritmov vyvinutých spoločnosťou NetEase Youdao, vrátane dvoch typov základných modelov: EmbeddingModel a RerankerModel. EmbeddingModel je špeciálne navrhnutý na generovanie sémantických vektorov a zohráva kľúčovú úlohu v sémantikom vyhľadávaní a otázkach a odpovediach, zatiaľ čo RerankerModel vyniká v optimalizácii výsledkov sémantického vyhľadávania a sémanticky súvisiaceho sekvenovania.

GitHub:Prihlásenie na hypertextový odkaz je viditeľné.

EmbeddingModel:Prihlásenie na hypertextový odkaz je viditeľné.
RerankerModel:Prihlásenie na hypertextový odkaz je viditeľné.

 Prenajímateľ| Zverejnené 18. marca 2025 o 10:07:55 |
Názov modeluverziaOrganizácia/JednotlivecadresaDĺžka vloženiaMaximálna vstupná dĺžka
Gtegte-large-zhAlibaba Dharma AcademyPrihlásenie na hypertextový odkaz je viditeľné.1024512
BGEbge-large-zh-v1.5Inštitút pre výskum umelej inteligencie Beijing ZhiyuanPrihlásenie na hypertextový odkaz je viditeľné.1024512
M3EM3E-baseMokaPrihlásenie na hypertextový odkaz je viditeľné.768512
tao8ktao8kHuggingface je vyvinutý a open source spoločnosťou AMUPrihlásenie na hypertextový odkaz je viditeľné.1024512

Vyhlásenie:
Všetok softvér, programovacie materiály alebo články publikované spoločnosťou Code Farmer Network slúžia len na vzdelávacie a výskumné účely; Vyššie uvedený obsah nesmie byť použitý na komerčné alebo nezákonné účely, inak nesú všetky následky používateľmi. Informácie na tejto stránke pochádzajú z internetu a spory o autorské práva s touto stránkou nesúvisia. Musíte úplne vymazať vyššie uvedený obsah zo svojho počítača do 24 hodín od stiahnutia. Ak sa vám program páči, podporte originálny softvér, zakúpte si registráciu a získajte lepšie originálne služby. Ak dôjde k akémukoľvek porušeniu, kontaktujte nás prosím e-mailom.

Mail To:help@itsvse.com