Vaatimukset: Kun yritykset rakentavat RAG-tietopohjaa, on tärkeää valita sopiva upotuksen upotusmalli, sillä upotuksen suorituskyky määrittää haun tarkkuuden ja epäsuorasti suurten mallien tulosten luotettavuuden. Yleisesti käytetyt mallit: bge, m3e, nomic-embed-text, BCEmbedding (NetEase Youdao).
Miksi sinun täytyy upottaa malli?
Tietokoneet pystyvät käsittelemään vain numeerisia toimintoja eivätkä pysty suoraan ymmärtämään ei-numeerisia tietomuotoja, kuten luonnollista kieltä, tekstiä, kuvia tai ääntä. Siksi meidän täytyy "vektorisoida" muuntamaan tämä data numeerisiksi muodoiksi, joita tietokoneet voivat ymmärtää ja käsitellä, eli kartoittaa ne matemaattisiin vektoriesityksiin. Tämä prosessi toteutetaan yleensä upotusmallien avulla, jotka voivat tehokkaasti tallentaa semanttista tietoa ja sisäisiä rakenteita dataan.
Upotusmallien rooli on siinä, että ne eivät ainoastaan muunna diskreettiä dataa (kuten sanoja, kuvafragmentteja tai äänifragmentteja) jatkuviksi matalan ulottuvuuden vektoreiksi, vaan myös säilyttävät semanttiset suhteet vektoriavaruudessa olevien tietojen välillä. Esimerkiksi luonnollisen kielen käsittelyssä upotusmallit voivat tuottaa sanavektoreita, jolloin semanttisesti samankaltaiset sanat ovat lähempänä toisiaan vektoriavaruudessa. Tämä tehokas esitystapa mahdollistaa tietokoneiden suorittaa monimutkaisia laskelmia ja analyysejä näiden vektorien pohjalta, jolloin monimutkaiset tiedot, kuten teksti, kuvat tai äänet, ymmärretään ja käsitellään paremmin.
Mallin vektoroinnin upottaminen mahdollistaa sen, että tietokoneet voivat paitsi käsitellä tehokkaasti laajamittaista dataa, myös osoittaa vahvempia suorituskyky- ja yleistymiskykyjä erilaisissa tehtävissä (kuten luokituksessa, hakukoneessa, generoinnissa jne.).
Upotusmallin arviointi
Upotetun mallin laadun arvioimiseksi on oltava selkeä joukko kriteerejä. MTEB:tä ja C-MTEB:tä käytetään yleisesti vertailuihin.
MTEB
Huggingfacella on MTEB (Massive Multilingual Text Embedding Benchmark) -arviointistandardi, joka on alalla melko tunnustettu standardi ja jota voidaan käyttää viitteenä. Se kattaa 8 upotustehtävää, yhteensä 58 aineistoa ja 112 kieltä, mikä tekee siitä kattavimman tekstin upotuksen vertailukriteerin tähän mennessä.
Lista:Hyperlinkin kirjautuminen on näkyvissä. GitHub-osoite:Hyperlinkin kirjautuminen on näkyvissä.
C-MTEB
C-MTEB on kattavin kiinalainen semanttisten vektorien arviointikriteeri, joka kattaa 6 arviointitehtäväkategoriaa (haku, lajittelu, lauseiden samankaltaisuus, päättely, luokittelu, klusterointi) ja 35 aineistoa.
C-MTEB:n asiakirjat:Hyperlinkin kirjautuminen on näkyvissä. Koodit ja tulostaulut:Hyperlinkin kirjautuminen on näkyvissä.(Monet osoitteet internetissä ovat vanhoja)
|