Tämä artikkeli on konekäännöksen peiliartikkeli, klikkaa tästä siirtyäksesi alkuperäiseen artikkeliin.

Näkymä: 1262|Vastaus: 3

AI (11) Upotusmallin valinta

[Kopioi linkki]
Julkaistu 2025-3-14 23:01:35 | | | |
Vaatimukset: Kun yritykset rakentavat RAG-tietopohjaa, on tärkeää valita sopiva upotuksen upotusmalli, sillä upotuksen suorituskyky määrittää haun tarkkuuden ja epäsuorasti suurten mallien tulosten luotettavuuden. Yleisesti käytetyt mallit: bge, m3e, nomic-embed-text, BCEmbedding (NetEase Youdao).

Miksi sinun täytyy upottaa malli?

Tietokoneet pystyvät käsittelemään vain numeerisia toimintoja eivätkä pysty suoraan ymmärtämään ei-numeerisia tietomuotoja, kuten luonnollista kieltä, tekstiä, kuvia tai ääntä. Siksi meidän täytyy "vektorisoida" muuntamaan tämä data numeerisiksi muodoiksi, joita tietokoneet voivat ymmärtää ja käsitellä, eli kartoittaa ne matemaattisiin vektoriesityksiin. Tämä prosessi toteutetaan yleensä upotusmallien avulla, jotka voivat tehokkaasti tallentaa semanttista tietoa ja sisäisiä rakenteita dataan.

Upotusmallien rooli on siinä, että ne eivät ainoastaan muunna diskreettiä dataa (kuten sanoja, kuvafragmentteja tai äänifragmentteja) jatkuviksi matalan ulottuvuuden vektoreiksi, vaan myös säilyttävät semanttiset suhteet vektoriavaruudessa olevien tietojen välillä. Esimerkiksi luonnollisen kielen käsittelyssä upotusmallit voivat tuottaa sanavektoreita, jolloin semanttisesti samankaltaiset sanat ovat lähempänä toisiaan vektoriavaruudessa. Tämä tehokas esitystapa mahdollistaa tietokoneiden suorittaa monimutkaisia laskelmia ja analyysejä näiden vektorien pohjalta, jolloin monimutkaiset tiedot, kuten teksti, kuvat tai äänet, ymmärretään ja käsitellään paremmin.

Mallin vektoroinnin upottaminen mahdollistaa sen, että tietokoneet voivat paitsi käsitellä tehokkaasti laajamittaista dataa, myös osoittaa vahvempia suorituskyky- ja yleistymiskykyjä erilaisissa tehtävissä (kuten luokituksessa, hakukoneessa, generoinnissa jne.).

Upotusmallin arviointi

Upotetun mallin laadun arvioimiseksi on oltava selkeä joukko kriteerejä. MTEB:tä ja C-MTEB:tä käytetään yleisesti vertailuihin.

MTEB

Huggingfacella on MTEB (Massive Multilingual Text Embedding Benchmark) -arviointistandardi, joka on alalla melko tunnustettu standardi ja jota voidaan käyttää viitteenä. Se kattaa 8 upotustehtävää, yhteensä 58 aineistoa ja 112 kieltä, mikä tekee siitä kattavimman tekstin upotuksen vertailukriteerin tähän mennessä.



Lista:Hyperlinkin kirjautuminen on näkyvissä.
GitHub-osoite:Hyperlinkin kirjautuminen on näkyvissä.



C-MTEB

C-MTEB on kattavin kiinalainen semanttisten vektorien arviointikriteeri, joka kattaa 6 arviointitehtäväkategoriaa (haku, lajittelu, lauseiden samankaltaisuus, päättely, luokittelu, klusterointi) ja 35 aineistoa.

C-MTEB:n asiakirjat:Hyperlinkin kirjautuminen on näkyvissä.
Koodit ja tulostaulut:Hyperlinkin kirjautuminen on näkyvissä.(Monet osoitteet internetissä ovat vanhoja)





Edellinen:Linux-komennot sudo ja osuvat englanninkieliset lyhenteet
Seuraava:.NET/C# käyttää SM3-algoritmia allekirjoitusten luomiseen
 Vuokraisäntä| Julkaistu 2025-3-17 08:55:55 |
Arctic Embed 2.0

Snowflake on innoissaan voidessaan ilmoittaa Arctic Embed L 2.0:n ja Arctic Embed M 2.0:n julkaisusta, jotka ovat seuraava versio huippumodernista upotusmallistamme ja nyt tukee monikielistä hakua.Hyperlinkin kirjautuminen on näkyvissä.

Mallin lataus

Arctic Embed L 2.0:Hyperlinkin kirjautuminen on näkyvissä.
Arctic Embed M 2.0:Hyperlinkin kirjautuminen on näkyvissä.

 Vuokraisäntä| Julkaistu 2025-3-17 klo 16:30:21 |
BCEmbedding on kaksikielisten ja monikielisten semanttisten esitysalgoritmien mallikirjasto, jonka on kehittänyt NetEase Youdao. Se sisältää kaksi perusmallityyppiä: EmbeddingModel ja RerankerModel. EmbeddingModel on suunniteltu erityisesti semanttisten vektorien tuottamiseen ja sillä on keskeinen rooli semanttisessa haussa ja kysymys-vastauksissa, kun taas RerankerModel loistaa semanttisten hakutulosten ja semanttisesti liittyvän sekvensoinnin optimoinnissa.

GitHub:Hyperlinkin kirjautuminen on näkyvissä.

EmbeddingModel:Hyperlinkin kirjautuminen on näkyvissä.
RerankerModel:Hyperlinkin kirjautuminen on näkyvissä.

 Vuokraisäntä| Julkaistu 2025-3-18 10:07:55 |
Mallin nimiversioOrganisaatio/YksilöosoiteUpotuksen pituusMaksimisyöttöpituus
Gtegte-large-zhAlibaba Dharma AkatemiaHyperlinkin kirjautuminen on näkyvissä.1024512
Bgebge-large-zh-v1.5Beijing Zhiyuan -tekoälytutkimuslaitosHyperlinkin kirjautuminen on näkyvissä.1024512
M3EM3e-kantaMokaHyperlinkin kirjautuminen on näkyvissä.768512
tao8ktao8kHuggingface on AMU kehittämä ja avoimen lähdekoodinHyperlinkin kirjautuminen on näkyvissä.1024512

Vastuuvapauslauseke:
Kaikki Code Farmer Networkin julkaisemat ohjelmistot, ohjelmamateriaalit tai artikkelit ovat tarkoitettu vain oppimis- ja tutkimustarkoituksiin; Yllä mainittua sisältöä ei saa käyttää kaupallisiin tai laittomiin tarkoituksiin, muuten käyttäjät joutuvat kantamaan kaikki seuraukset. Tämän sivuston tiedot ovat peräisin internetistä, eikä tekijänoikeuskiistat liity tähän sivustoon. Sinun tulee poistaa yllä oleva sisältö kokonaan tietokoneeltasi 24 tunnin kuluessa lataamisesta. Jos pidät ohjelmasta, tue aitoa ohjelmistoa, osta rekisteröityminen ja hanki parempia aitoja palveluita. Jos rikkomuksia ilmenee, ota meihin yhteyttä sähköpostitse.

Mail To:help@itsvse.com