Ta članek je zrcalni članek strojnega prevajanja, kliknite tukaj za skok na izvirni članek.

Pogled: 1262|Odgovoriti: 3

UI (11) Izbira modela vdelave

[Kopiraj povezavo]
Objavljeno 14. 3. 2025 ob 23:01:35 | | | |
Zahteve: Ko podjetja gradijo bazo znanja o RAG, je pomembno izbrati ustrezen model vdelave vdelav, saj uspešnost vdelave določa natančnost iskanja in posredno zanesljivost izhodov velikih modelov. Pogosto uporabljeni modeli: bge, m3e, nomic-embed-text, BCEmbedding (NetEase Youdao).

Zakaj morate vgraditi model?

Računalniki lahko obravnavajo le numerične operacije in ne morejo neposredno razumeti nenumeričnih oblik podatkov, kot so naravni jezik, besedilo, slike in zvok. Zato moramo "vektorizirati", da te podatke pretvorimo v numerične oblike, ki jih računalniki razumejo in obdelajo, torej jih preslikajo v matematične vektorske predstave. Ta proces se običajno doseže s pomočjo vgrajenih modelov, ki lahko učinkovito zajamejo semantične informacije in notranje strukture v podatkih.

Vloga vgradnih modelov je, da ne le pretvarjajo diskretne podatke (kot so besede, fragmenti slik ali zvočni fragmenti) v kontinuirane nizkodimenzionalne vektorje, temveč tudi ohranjajo semantične odnose med podatki v vektorskem prostoru. Na primer, v obdelavi naravnega jezika lahko modeli vdelave generirajo vektorje besed, zaradi česar so semantično podobne besede v vektorskem prostoru bližje skupaj. Ta učinkovita predstavitev omogoča računalnikom izvajanje zapletenih izračunov in analiz na podlagi teh vektorjev, s čimer bolje razumejo in obdelujejo kompleksne podatke, kot so besedilo, slike ali zvoki.

Z vgradnjo vektorizacije modela lahko računalniki ne le učinkovito obdelujejo podatke v velikem obsegu, temveč tudi pokažejo močnejše zmogljivosti in sposobnosti posploševanja pri različnih nalogah (kot so klasifikacija, pridobivanje podatkov, generiranje itd.).

Evalvacija modela vgradnje

Za oceno kakovosti vgrajenega modela mora obstajati jasen nabor kriterijev. MTEB in C-MTEB se pogosto uporabljata za primerjalno analizo.

MTEB

Huggingface ima standard MTEB (Massive Multilingual Text Embedding Benchmark), ki je razmeroma priznan standard v industriji in se lahko uporablja kot referenca. Pokriva 8 nalog vdelave, skupno 58 podatkovnih nizov in 112 jezikov, zaradi česar je do danes najbolj celovit referenčni sistem za vdelavo besedila.



Seznam:Prijava do hiperpovezave je vidna.
GitHub naslov:Prijava do hiperpovezave je vidna.



C-MTEB

C-MTEB je najobsežnejši kitajski referenčni standard za ocenjevanje semantičnih vektorjev, ki zajema 6 kategorij evalvacijskih nalog (iskanje, razvrščanje, podobnost stavkov, sklepanje, klasifikacija, združevanje) in 35 podatkovnih nizov.

Dokumenti C-MTEB:Prijava do hiperpovezave je vidna.
Kodeksi in lestvice:Prijava do hiperpovezave je vidna.(Veliko naslovov na internetu je starih)





Prejšnji:Linux ukazuje sudo in ustrezne angleške okrajšave besed
Naslednji:.NET/C# uporablja algoritem SM3 za generiranje podpisov
 Najemodajalec| Objavljeno 2025-3-17 08:55:55 |
Arctic Embed 2.0

Snowflake z navdušenjem napoveduje izdajo Arctic Embed L 2.0 in Arctic Embed M 2.0, naslednje različice našega naprednega modela vdelave, ki zdaj podpira večjezično iskanje.Prijava do hiperpovezave je vidna.

Prenos modela

Arctic Embed L 2.0:Prijava do hiperpovezave je vidna.
Arctic Embed M 2.0:Prijava do hiperpovezave je vidna.

 Najemodajalec| Objavljeno 17. 3. 2025 ob 16:30:21 |
BCEmbedding je knjižnica modelov dvojezičnih in medjezikovnih semantičnih predstavniških algoritmov, ki jih je razvil NetEase Youdao, vključno z dvema vrstama osnovnih modelov: EmbeddingModel in RerankerModel. EmbeddingModel je posebej zasnovan za generiranje semantičnih vektorjev in ima ključno vlogo pri semantičnem iskanju ter vprašanjih in odgovorih, medtem ko RerankerModel izstopa pri optimizaciji semantičnih rezultatov iskanja in semantično povezanega zaporedja.

GitHub:Prijava do hiperpovezave je vidna.

EmbeddingModel:Prijava do hiperpovezave je vidna.
RerankerModel:Prijava do hiperpovezave je vidna.

 Najemodajalec| Objavljeno 18. 3. 2025 ob 10:07:55 |
Ime modelarazličicaOrganizacija/PosamezniknaslovDolžina vgradnjeNajvečja vhodna dolžina
Gtegte-large-zhAlibaba Dharma AkademijaPrijava do hiperpovezave je vidna.1024512
Bgebge-large-zh-v1.5Inštitut za umetno inteligenco Beijing ZhiyuanPrijava do hiperpovezave je vidna.1024512
M3EM3E-bazamokaPrijava do hiperpovezave je vidna.768512
tao8ktao8kHuggingface je razvil in odprtokodni projekt založil AMUPrijava do hiperpovezave je vidna.1024512

Disclaimer:
Vsa programska oprema, programski materiali ali članki, ki jih izdaja Code Farmer Network, so namenjeni zgolj učnim in raziskovalnim namenom; Zgornja vsebina ne sme biti uporabljena v komercialne ali nezakonite namene, sicer uporabniki nosijo vse posledice. Informacije na tej strani prihajajo z interneta, spori glede avtorskih pravic pa nimajo nobene zveze s to stranjo. Zgornjo vsebino morate popolnoma izbrisati z računalnika v 24 urah po prenosu. Če vam je program všeč, podprite pristno programsko opremo, kupite registracijo in pridobite boljše pristne storitve. Če pride do kakršne koli kršitve, nas prosimo kontaktirajte po elektronski pošti.

Mail To:help@itsvse.com