Tento článek je zrcadlovým článkem o strojovém překladu, klikněte zde pro přechod na původní článek.

Pohled: 1262|Odpověď: 3

AI (11) Výběr modelu vnoření

[Kopírovat odkaz]
Zveřejněno 14. 3. 2025 23:01:35 | | | |
Požadavky: Když podniky budují znalostní bázi RAG, je důležité zvolit vhodný model embeddingu, protože výkon embeddingu určuje přesnost vyhledávání a nepřímo spolehlivost výstupu velkých modelů. Běžně používané modely: bge, m3e, nomic-embed-text, BCEmbedding (NetEase Youdao).

Proč je potřeba vložit model?

Počítače zvládají pouze numerické operace a nemohou přímo rozumět nenumerickým formám dat, jako je přirozený jazyk, text, obrázky a zvuk. Proto je potřeba "vektorizovat" a tato data převést do číselných forem, kterým počítače rozumí a zpracují, tedy je přemapovat do matematických vektorových reprezentací. Tento proces je obvykle realizován pomocí vnořených modelů, které dokážou efektivně zachytit sémantické informace a vnitřní struktury v datech.

Úlohou embedding modelů je nejen převádět diskrétní data (jako jsou slova, obrazové fragmenty nebo audio fragmenty) do spojitých nízkorozměrných vektorů, ale také zachovávat sémantické vztahy mezi daty ve vektorovém prostoru. Například v zpracování přirozeného jazyka mohou embedding modely generovat vektory slov, čímž se sémanticky podobná slova ve vektorovém prostoru přibližují. Tato efektivní reprezentace umožňuje počítačům provádět složité výpočty a analýzy na základě těchto vektorů, čímž lépe rozumí a zpracovává složitá data, jako jsou text, obrázky nebo zvuky.

Díky vektorizaci modelu mohou počítače nejen efektivně zpracovávat velká data, ale také prokazovat lepší výkonnost a schopnosti generalizace v různých úkolech (jako je klasifikace, vyhledávání, generování atd.).

Hodnocení vkládaného modelu

Pro posouzení kvality vloženého modelu musí existovat jasná sada kritérií. MTEB a C-MTEB se běžně používají pro benchmarking.

MTEB

Huggingface má hodnotící standard MTEB (Massive Multilingual Text Embedding Benchmark), který je v oboru poměrně uznávaným standardem a může sloužit jako referenční bod. Pokrývá 8 úloh vkládání, celkem 58 datových sad a 112 jazyků, což z něj činí nejkomplexnější benchmark textového vkládání dosud.



Seznam:Přihlášení k hypertextovému odkazu je viditelné.
Adresa GitHubu:Přihlášení k hypertextovému odkazu je viditelné.



C-MTEB

C-MTEB je nejkomplexnější čínský benchmark pro hodnocení sémantických vektorů, pokrývající 6 kategorií hodnotících úkolů (vyhledávání, třídění, podobnost vět, uvažování, klasifikace, shlukování) a 35 datových sad.

Dokumenty C-MTEB:Přihlášení k hypertextovému odkazu je viditelné.
Kódy a žebříčky:Přihlášení k hypertextovému odkazu je viditelné.(Mnoho adres na internetu je starých)





Předchozí:Linux příkazy sudo a zkratky slov apt
Další:.NET/C# používá algoritmus SM3 k generování podpisů
 Pronajímatel| Zveřejněno 17. 3. 2025 08:55:55 |
Arctic Embed 2.0

Snowflake s potěšením oznamuje vydání Arctic Embed L 2.0 a Arctic Embed M 2.0, další iterace našeho špičkového modelu vkládání, nyní s podporou vícejazyčného vyhledávání.Přihlášení k hypertextovému odkazu je viditelné.

Stažení modelu

Arctic Embed L 2.0:Přihlášení k hypertextovému odkazu je viditelné.
Arctic Embed M 2.0:Přihlášení k hypertextovému odkazu je viditelné.

 Pronajímatel| Zveřejněno 17. 3. 2025 16:30:21 |
BCEmbedding je knihovna modelů bilingvních a křížových sémantických algoritmů pro reprezentaci vyvinutá společností NetEase Youdao, včetně dvou typů základních modelů: EmbeddingModel a RerankerModel. EmbeddingModel je speciálně navržen k generování sémantických vektorů a hraje klíčovou roli v sémantickém vyhledávání a Q&A, zatímco RerankerModel vyniká v optimalizaci výsledků sémantického vyhledávání a sémanticky souvisejícího sekvenování.

GitHub:Přihlášení k hypertextovému odkazu je viditelné.

EmbeddingModel:Přihlášení k hypertextovému odkazu je viditelné.
RerankerModel:Přihlášení k hypertextovému odkazu je viditelné.

 Pronajímatel| Zveřejněno 18. 3. 2025 10:07:55 |
Název modeluverzeOrganizace/JednotlivecadresaDélka vloženíMaximální vstupní délka
Gtegte-large-zhAlibaba Dharma AcademyPřihlášení k hypertextovému odkazu je viditelné.1024512
BgeBGE-large-zh-v1.5Výzkumný institut umělé inteligence Beijing ZhiyuanPřihlášení k hypertextovému odkazu je viditelné.1024512
M3EM3E-základnaMokaPřihlášení k hypertextovému odkazu je viditelné.768512
tao8ktao8kHuggingface je vyvinutý a open source společností AMUPřihlášení k hypertextovému odkazu je viditelné.1024512

Zřeknutí se:
Veškerý software, programovací materiály nebo články publikované organizací Code Farmer Network slouží pouze k učení a výzkumu; Výše uvedený obsah nesmí být používán pro komerční ani nelegální účely, jinak nesou všechny důsledky uživatelé. Informace na tomto webu pocházejí z internetu a spory o autorská práva s tímto webem nesouvisí. Musíte výše uvedený obsah ze svého počítače zcela smazat do 24 hodin od stažení. Pokud se vám program líbí, podporujte prosím originální software, kupte si registraci a získejte lepší skutečné služby. Pokud dojde k jakémukoli porušení, kontaktujte nás prosím e-mailem.

Mail To:help@itsvse.com