Requisitos: Cuando las empresas construyen una base de conocimiento RAG, es importante elegir el modelo de incrustación adecuado, ya que el rendimiento de la incrustación determina la precisión de la recuperación y determina indirectamente la fiabilidad de la salida de grandes modelos. Modelos comúnmente utilizados: bge, m3e, nomic-embed-text, BCEmbedding (NetEase Youdao).
¿Por qué necesitas incrustar un modelo?
Los ordenadores solo pueden manejar operaciones numéricas y no pueden comprender directamente formas no numéricas de datos como lenguaje natural, texto, imágenes y audio. Por lo tanto, necesitamos "vectorizar" para transformar estos datos en formas numéricas que los ordenadores puedan entender y procesar, es decir, mapearlos en representaciones vectoriales matemáticas. Este proceso suele lograrse con la ayuda de modelos de incrustación, que pueden capturar eficazmente información semántica y estructuras internas en los datos.
El papel de los modelos de incrustación es que no solo convierten datos discretos (como palabras, fragmentos de imagen o fragmentos de audio) en vectores continuos de baja dimensión, sino que también preservan las relaciones semánticas entre los datos en el espacio vectorial. Por ejemplo, en el procesamiento del lenguaje natural, los modelos de incrustación pueden generar vectores de palabras, haciendo que palabras semánticamente similares estén más juntas en el espacio vectorial. Esta representación eficiente permite a los ordenadores realizar cálculos y análisis complejos basados en estos vectores, comprendiendo y procesando así mejor datos complejos como texto, imágenes o sonidos.
Al incrustar la vectorización del modelo, los ordenadores no solo pueden procesar datos a gran escala de forma eficiente, sino que también demuestran mayores capacidades de rendimiento y generalización en diversas tareas (como clasificación, recuperación, generación, etc.).
Evaluación del modelo embebido
Para juzgar la calidad de un modelo embebido, debe existir un conjunto claro de criterios. MTEB y C-MTEB se utilizan comúnmente para benchmarking.
MTEB
Huggingface cuenta con un estándar de evaluación MTEB (Massive Multilingual Text Embedding Benchmark), que es un estándar relativamente reconocido en la industria y puede usarse como referencia. Cubre 8 tareas de incrustación, un total de 58 conjuntos de datos y 112 idiomas, lo que la convierte en el benchmark de incrustación de texto más completo hasta la fecha.
Lista:El inicio de sesión del hipervínculo es visible. Dirección de GitHub:El inicio de sesión del hipervínculo es visible.
C-MTEB
C-MTEB es el benchmark chino más completo de evaluación semántica vectorial, cubriendo 6 categorías de tareas de evaluación (recuperación, ordenación, similitud de frases, razonamiento, clasificación, agrupamiento) y 35 conjuntos de datos.
Documentos del C-MTEB:El inicio de sesión del hipervínculo es visible. Códigos y clasificaciones:El inicio de sesión del hipervínculo es visible.(Muchas direcciones en Internet son antiguas)
|