Requisiti: Quando le aziende costruiscono una base di conoscenza RAG, è importante scegliere il modello di embedding appropriato, poiché le prestazioni dell'embedding determinano l'accuratezza del recupero e indirettamente l'affidabilità dell'output dei grandi modelli. Modelli comunemente usati: bge, m3e, nomic-embed-text, BCEmbedding (NetEase Youdao).
Perché hai bisogno di incorporare un modello?
I computer possono gestire solo operazioni numeriche e non possono comprendere direttamente forme non numeriche di dati come linguaggio naturale, testo, immagini e audio. Pertanto, dobbiamo "vettorizzare" per trasformare questi dati in forme numeriche che i computer possano comprendere ed elaborare, cioè mappareli in rappresentazioni vettoriali matematiche. Questo processo viene solitamente realizzato con l'aiuto di modelli di embedding, che possono catturare efficacemente informazioni semantiche e strutture interne nei dati.
Il ruolo dei modelli di embedding è che non solo convertono dati discreti (come parole, frammenti di immagine o frammenti audio) in vettori continui a bassa dimensione, ma preservano anche le relazioni semantiche tra i dati nello spazio vettoriale. Ad esempio, nell'elaborazione del linguaggio naturale, i modelli di embedding possono generare vettori di parola, rendendo parole semanticamente simili più vicine nello spazio vettoriale. Questa rappresentazione efficiente consente ai computer di eseguire calcoli e analisi complessi basati su questi vettori, comprendendo e elaborando così meglio dati complessi come testo, immagini o suoni.
Incorporando la vettorizzazione del modello, i computer possono non solo elaborare dati su larga scala in modo efficiente, ma anche dimostrare maggiori prestazioni e capacità di generalizzazione in vari compiti (come classificazione, recupero, generazione, ecc.).
Valutazione del modello di incorporazione
Per giudicare la qualità di un modello embedded, deve esserci un insieme chiaro di criteri. MTEB e C-MTEB sono comunemente utilizzati per il benchmarking.
MTEB
Huggingface ha uno standard di valutazione MTEB (Massive Multilingual Text Embedding Benchmark), uno standard relativamente riconosciuto nel settore e può essere utilizzato come riferimento. Copre 8 compiti di embedding, per un totale di 58 dataset e 112 lingue, rendendolo il benchmark di embedding di testo più completo fino ad oggi.
Lista:Il login del link ipertestuale è visibile. Indirizzo GitHub:Il login del link ipertestuale è visibile.
C-MTEB
C-MTEB è il benchmark cinese più completo per la valutazione semantica vettoriale, che copre 6 categorie di compiti di valutazione (recupero, ordinamento, somiglianza di frasi, ragionamento, classificazione, clustering) e 35 dataset.
Documenti C-MTEB:Il login del link ipertestuale è visibile. Codici e classifiche:Il login del link ipertestuale è visibile.(Molti indirizzi su Internet sono vecchi)
|