Denne artikel er en spejling af maskinoversættelse, klik venligst her for at springe til den oprindelige artikel.

Udsigt: 1262|Svar: 3

AI (11) Udvælgelse af embedding-model

[Kopier link]
Opslået den 14-03-2025 kl. 23:01:35 | | | |
Krav: Når virksomheder opbygger en RAG-vidensbase, er det vigtigt at vælge den passende embedding-model, da ydeevnen af embedding bestemmer nøjagtigheden af hentningen og indirekte pålideligheden af outputtet fra store modeller. Almindeligt anvendte modeller: bge, m3e, nomic-embed-text, BCEmbedding (NetEase Youdao).

Hvorfor skal du indlejre en model?

Computere kan kun håndtere numeriske operationer og kan ikke direkte forstå ikke-numeriske former for data såsom naturligt sprog, tekst, billeder og lyd. Derfor skal vi "vektorisere" for at omdanne disse data til numeriske former, som computere kan forstå og behandle, det vil sige kortlægge dem til matematiske vektorrepræsentationer. Denne proces opnås normalt ved hjælp af indlejrede modeller, som effektivt kan indfange semantisk information og interne strukturer i dataene.

Indlejringsmodellers rolle er, at de ikke kun konverterer diskrete data (såsom ord, billedfragmenter eller lydfragmenter) til kontinuerlige lavdimensionelle vektorer, men også bevarer de semantiske relationer mellem dataene i vektorrummet. For eksempel kan embedding-modeller i naturlig sprogbehandling generere ordvektorer, hvilket gør semantisk lignende ord tættere på hinanden i vektorrummet. Denne effektive repræsentation gør det muligt for computere at udføre komplekse beregninger og analyser baseret på disse vektorer, hvilket bedre kan forstå og behandle komplekse data som tekst, billeder eller lyde.

Ved at indlejre vektoriseringen af modellen kan computere ikke blot effektivt behandle store data, men også demonstrere stærkere ydeevne og generaliseringsevner i forskellige opgaver (såsom klassificering, hentning, generering osv.).

Indlejringsmodelevaluering

For at bedømme kvaliteten af en indlejret model skal der være et klart sæt kriterier. MTEB og C-MTEB bruges ofte til benchmarking.

MTEB

Huggingface har en MTEB (Massive Multilingual Text Embedding Benchmark) evalueringsstandard, som er en relativt anerkendt standard i branchen og kan bruges som reference. Den dækker 8 embedding-opgaver, i alt 58 datasæt og 112 sprog, hvilket gør den til den mest omfattende benchmark for tekstindsættelse til dato.



Liste:Hyperlink-login er synlig.
GitHub-adresse:Hyperlink-login er synlig.



C-MTEB

C-MTEB er den mest omfattende kinesiske benchmark for semantisk vektorevaluering, der dækker 6 kategorier af evalueringsopgaver (hentning, sortering, sætningslighed, ræsonnement, klassifikation, klyngedannelse) og 35 datasæt.

C-MTEB Papirer:Hyperlink-login er synlig.
Koder og ranglister:Hyperlink-login er synlig.(Mange adresser på internettet er gamle)





Tidligere:Linux-kommandoer sudo og passende engelske ordforkortelser
Næste:.NET/C# bruger SM3-algoritmen til at generere signaturer
 Udlejer| Opslået den 17-3-2025 08:55:55 |
Arctic Embed 2.0

Snowflake er begejstret for at kunne annoncere udgivelsen af Arctic Embed L 2.0 og Arctic Embed M 2.0, den næste iteration af vores banebrydende embedding-model, nu med støtte til flersproget søgning.Hyperlink-login er synlig.

Model download

Arctic Embed L 2.0:Hyperlink-login er synlig.
Arctic Embed M 2.0:Hyperlink-login er synlig.

 Udlejer| Opslået den 17-03-2025 kl. 16:30:21 |
BCEmbedding er et modelbibliotek af tosprogede og tværsprogede semantiske repræsentationsalgoritmer udviklet af NetEase Youdao, som omfatter to typer grundlæggende modeller: EmbeddingModel og RerankerModel. EmbeddingModel er specifikt designet til at generere semantiske vektorer og spiller en afgørende rolle i semantisk søgning og spørgsmål og svar, mens RerankerModel udmærker sig i optimering af semantiske søgeresultater og semantisk relateret sekventering.

GitHub:Hyperlink-login er synlig.

EmbeddingModel:Hyperlink-login er synlig.
RerankerModel:Hyperlink-login er synlig.

 Udlejer| Opslået den 18-03-2025 kl. 10:07:55 |
ModelnavnversionOrganisation/IndividueladresseIndlejringslængdeMaksimal inputlængde
Gtegte-large-zhAlibaba Dharma AkademiHyperlink-login er synlig.1024512
BGEBGE-Large-ZH-v1.5Beijing Zhiyuan Kunstig Intelligens ForskningsinstitutHyperlink-login er synlig.1024512
M3Em3e-baseMokaHyperlink-login er synlig.768512
tao8ktao8kHuggingface er udviklet og open source af amuHyperlink-login er synlig.1024512

Ansvarsfraskrivelse:
Al software, programmeringsmaterialer eller artikler udgivet af Code Farmer Network er kun til lærings- og forskningsformål; Ovenstående indhold må ikke bruges til kommercielle eller ulovlige formål, ellers skal brugerne bære alle konsekvenser. Oplysningerne på dette site kommer fra internettet, og ophavsretstvister har intet med dette site at gøre. Du skal slette ovenstående indhold fuldstændigt fra din computer inden for 24 timer efter download. Hvis du kan lide programmet, så understøt venligst ægte software, køb registrering og få bedre ægte tjenester. Hvis der er nogen overtrædelse, bedes du kontakte os via e-mail.

Mail To:help@itsvse.com