Questo articolo è un articolo speculare di traduzione automatica, clicca qui per saltare all'articolo originale.

Vista: 1262|Risposta: 3

AI (11) Selezione del modello di embedding

[Copiato link]
Pubblicato il 14-03-2025 alle 23:01:35 | | | |
Requisiti: Quando le aziende costruiscono una base di conoscenza RAG, è importante scegliere il modello di embedding appropriato, poiché le prestazioni dell'embedding determinano l'accuratezza del recupero e indirettamente l'affidabilità dell'output dei grandi modelli. Modelli comunemente usati: bge, m3e, nomic-embed-text, BCEmbedding (NetEase Youdao).

Perché hai bisogno di incorporare un modello?

I computer possono gestire solo operazioni numeriche e non possono comprendere direttamente forme non numeriche di dati come linguaggio naturale, testo, immagini e audio. Pertanto, dobbiamo "vettorizzare" per trasformare questi dati in forme numeriche che i computer possano comprendere ed elaborare, cioè mappareli in rappresentazioni vettoriali matematiche. Questo processo viene solitamente realizzato con l'aiuto di modelli di embedding, che possono catturare efficacemente informazioni semantiche e strutture interne nei dati.

Il ruolo dei modelli di embedding è che non solo convertono dati discreti (come parole, frammenti di immagine o frammenti audio) in vettori continui a bassa dimensione, ma preservano anche le relazioni semantiche tra i dati nello spazio vettoriale. Ad esempio, nell'elaborazione del linguaggio naturale, i modelli di embedding possono generare vettori di parola, rendendo parole semanticamente simili più vicine nello spazio vettoriale. Questa rappresentazione efficiente consente ai computer di eseguire calcoli e analisi complessi basati su questi vettori, comprendendo e elaborando così meglio dati complessi come testo, immagini o suoni.

Incorporando la vettorizzazione del modello, i computer possono non solo elaborare dati su larga scala in modo efficiente, ma anche dimostrare maggiori prestazioni e capacità di generalizzazione in vari compiti (come classificazione, recupero, generazione, ecc.).

Valutazione del modello di incorporazione

Per giudicare la qualità di un modello embedded, deve esserci un insieme chiaro di criteri. MTEB e C-MTEB sono comunemente utilizzati per il benchmarking.

MTEB

Huggingface ha uno standard di valutazione MTEB (Massive Multilingual Text Embedding Benchmark), uno standard relativamente riconosciuto nel settore e può essere utilizzato come riferimento. Copre 8 compiti di embedding, per un totale di 58 dataset e 112 lingue, rendendolo il benchmark di embedding di testo più completo fino ad oggi.



Lista:Il login del link ipertestuale è visibile.
Indirizzo GitHub:Il login del link ipertestuale è visibile.



C-MTEB

C-MTEB è il benchmark cinese più completo per la valutazione semantica vettoriale, che copre 6 categorie di compiti di valutazione (recupero, ordinamento, somiglianza di frasi, ragionamento, classificazione, clustering) e 35 dataset.

Documenti C-MTEB:Il login del link ipertestuale è visibile.
Codici e classifiche:Il login del link ipertestuale è visibile.(Molti indirizzi su Internet sono vecchi)





Precedente:Linux comanda sudo e abbreviazioni di parole inglesi appropriate
Prossimo:.NET/C# utilizza l'algoritmo SM3 per generare firme
 Padrone di casa| Pubblicato il 17-03-2025 08:55:55 |
Arctic Embed 2.0

Snowflake è entusiasta di annunciare il rilascio di Arctic Embed L 2.0 e Arctic Embed M 2.0, la prossima iterazione del nostro modello di embedding all'avanguardia, ora con supporto per la ricerca multilingue.Il login del link ipertestuale è visibile.

Download del modello

Embedded artico L 2.0:Il login del link ipertestuale è visibile.
Embedded artico M 2.0:Il login del link ipertestuale è visibile.

 Padrone di casa| Pubblicato il 17-03-2025 16:30:21 |
BCEmbedding è una libreria di modelli di algoritmi di rappresentazione semantica bilingue e cross-lingue sviluppata da NetEase Youdao, che include due tipi di modelli di base: EmbeddingModel e RerankerModel. EmbeddingModel è specificamente progettato per generare vettori semantici e svolge un ruolo fondamentale nella ricerca semantica e nelle Q&A, mentre RerankerModel eccelle nell'ottimizzare i risultati di ricerca semantica e il sequenziamento semanticamente correlato.

GitHub:Il login del link ipertestuale è visibile.

EmbeddingModel:Il login del link ipertestuale è visibile.
RerankerModel:Il login del link ipertestuale è visibile.

 Padrone di casa| Pubblicato il 18-03-2025 alle 10:07:55 |
Nome del modelloVersioneOrganizzazione/IndividuoindirizzoLunghezza dell'embedingLunghezza massima di ingresso
GteGTE-Large-ZHAccademia Alibaba DharmaIl login del link ipertestuale è visibile.1024512
Bgebge-large-zh-v1.5Istituto di Ricerca sull'Intelligenza Artificiale Zhiyuan di PechinoIl login del link ipertestuale è visibile.1024512
M3EM3E-baseMokaIl login del link ipertestuale è visibile.768512
tao8ktao8kHuggingface è sviluppato e open source da AMUIl login del link ipertestuale è visibile.1024512

Disconoscimento:
Tutto il software, i materiali di programmazione o gli articoli pubblicati dalla Code Farmer Network sono destinati esclusivamente all'apprendimento e alla ricerca; I contenuti sopra elencati non devono essere utilizzati per scopi commerciali o illegali, altrimenti gli utenti dovranno sostenere tutte le conseguenze. Le informazioni su questo sito provengono da Internet, e le controversie sul copyright non hanno nulla a che fare con questo sito. Devi eliminare completamente i contenuti sopra elencati dal tuo computer entro 24 ore dal download. Se ti piace il programma, ti preghiamo di supportare software autentico, acquistare la registrazione e ottenere servizi autentici migliori. In caso di violazione, vi preghiamo di contattarci via email.

Mail To:help@itsvse.com