Dit artikel is een spiegelartikel van machinevertaling, klik hier om naar het oorspronkelijke artikel te gaan.

Bekijken: 1262|Antwoord: 3

AI (11) Selectie van embeddingmodel

[Link kopiëren]
Geplaatst op 2025-3-14 23:01:35 | | | |
Eisen: Wanneer ondernemingen een RAG-kennisbank opbouwen, is het belangrijk om het juiste embeddingmodel te kiezen, omdat de prestaties van het inbedden de nauwkeurigheid van het ophalen bepalen en indirect de betrouwbaarheid van de output van grote modellen bepalen. Veelgebruikte modellen: bge, m3e, nomic-embed-text, BCEmbedding (NetEase Youdao).

Waarom moet je een model embeden?

Computers kunnen alleen numerieke bewerkingen uitvoeren en kunnen niet-numerieke vormen van data zoals natuurlijke taal, tekst, afbeeldingen en audio niet direct begrijpen. Daarom moeten we "vectoriseren" om deze gegevens om te zetten in numerieke vormen die computers kunnen begrijpen en verwerken, dat wil zeggen, ze kunnen mappen in wiskundige vectorrepresentaties. Dit proces wordt meestal bereikt met behulp van embeddingmodellen, die effectief semantische informatie en interne structuren in de data kunnen vastleggen.

De rol van embeddingmodellen is dat ze niet alleen discrete data (zoals woorden, beeldfragmenten of audiofragmenten) omzetten in continue laagdimensionale vectoren, maar ook de semantische relaties tussen de data in de vectorruimte behouden. In natuurlijke taalverwerking kunnen embedding-modellen bijvoorbeeld woordvectoren genereren, waardoor woorden semantisch dichter bij elkaar komen in vectorruimte. Deze efficiënte representatie stelt computers in staat complexe berekeningen en analyses uit te voeren op basis van deze vectoren, waardoor complexe data zoals tekst, afbeeldingen of geluiden beter kunnen begrijpen en verwerken.

Door de vectorisatie van het model in te betten, kunnen computers niet alleen grootschalige data efficiënt verwerken, maar ook sterkere prestaties en generalisatiemogelijkheden tonen in diverse taken (zoals classificatie, opvraging, generatie, enz.).

Evaluatie van het embed-model

Om de kwaliteit van een embedded model te beoordelen, moet er een duidelijke set criteria zijn. MTEB en C-MTEB worden vaak gebruikt voor benchmarking.

MTEB

Huggingface heeft een MTEB (Massive Multilingual Text Embedding Benchmark) evaluatiestandaard, die een relatief erkende standaard is in de industrie en als referentie kan dienen. Het omvat 8 embeddingtaken, in totaal 58 datasets en 112 talen, waarmee het tot nu toe de meest uitgebreide benchmark voor tekst-embedding is.



Lijst:De hyperlink-login is zichtbaar.
GitHub-adres:De hyperlink-login is zichtbaar.



C-MTEB

C-MTEB is de meest uitgebreide Chinese benchmark voor semantische vectorevaluatie, die 6 categorieën evaluatietaken omvat (opzoeken, sorteren, zinsgelijkenis, redeneren, classificatie, clustering) en 35 datasets.

C-MTEB Papers:De hyperlink-login is zichtbaar.
Codes en ranglijsten:De hyperlink-login is zichtbaar.(Veel adressen op internet zijn oud)





Vorig:Linux-commando's sudo en apt Engelse woordafkortingen
Volgend:.NET/C# gebruikt het SM3-algoritme om handtekeningen te genereren
 Huisbaas| Geplaatst op 17-3-2025 08:55:55 |
Arctische Embed 2.0

Snowflake is verheugd de release aan te kondigen van Arctic Embed L 2.0 en Arctic Embed M 2.0, de volgende iteratie van ons geavanceerde embeddingmodel, nu met ondersteuning voor meertalige zoekmethoden.De hyperlink-login is zichtbaar.

Model download

Arctische Embed L 2.0:De hyperlink-login is zichtbaar.
Arctische Embedering M 2.0:De hyperlink-login is zichtbaar.

 Huisbaas| Geplaatst op 17-3-2025 16:30:21 |
BCEmbedding is een modelbibliotheek van tweetalige en cross-linguale semantische representatie-algoritmen, ontwikkeld door NetEase Youdao, inclusief twee soorten basismodellen: EmbeddingModel en RerankerModel. EmbeddingModel is specifiek ontworpen om semantische vectoren te genereren en speelt een cruciale rol bij semantisch zoeken en Q&A, terwijl RerankerModel uitblinkt in het optimaliseren van semantische zoekresultaten en semantisch gerelateerde sequencing.

GitHub:De hyperlink-login is zichtbaar.

EmbeddingModel:De hyperlink-login is zichtbaar.
RerankerModel:De hyperlink-login is zichtbaar.

 Huisbaas| Geplaatst op 2025-3-18 10:07:55 |
ModelnaamVersieOrganisatie/IndividueeladresIngebedde lengteMaximale invoerlengte
GteGTE-Large-ZHAlibaba Dharma AcademieDe hyperlink-login is zichtbaar.1024512
BGEBGE-Large-ZH-v1.5Beijing Zhiyuan Kunstmatige Intelligentie OnderzoeksinstituutDe hyperlink-login is zichtbaar.1024512
M3Em3e-basismokaDe hyperlink-login is zichtbaar.768512
tao8ktao8kHuggingface is ontwikkeld en open source gemaakt door amuDe hyperlink-login is zichtbaar.1024512

Disclaimer:
Alle software, programmeermaterialen of artikelen die door Code Farmer Network worden gepubliceerd, zijn uitsluitend bedoeld voor leer- en onderzoeksdoeleinden; De bovenstaande inhoud mag niet worden gebruikt voor commerciële of illegale doeleinden, anders dragen gebruikers alle gevolgen. De informatie op deze site komt van het internet, en auteursrechtconflicten hebben niets met deze site te maken. Je moet bovenstaande inhoud volledig van je computer verwijderen binnen 24 uur na het downloaden. Als je het programma leuk vindt, steun dan de echte software, koop registratie en krijg betere echte diensten. Als er sprake is van een inbreuk, neem dan contact met ons op via e-mail.

Mail To:help@itsvse.com