IA (11) Selección del modelo de incrustación

Pequeña basura · Publicado en 14/3/2025 23:01:35

Requisitos: Cuando las empresas construyen una base de conocimiento RAG, es importante elegir el modelo de incrustación adecuado, ya que el rendimiento de la incrustación determina la precisión de la recuperación y determina indirectamente la fiabilidad de la salida de grandes modelos. Modelos comúnmente utilizados: bge, m3e, nomic-embed-text, BCEmbedding (NetEase Youdao).

¿Por qué necesitas incrustar un modelo?

Los ordenadores solo pueden manejar operaciones numéricas y no pueden comprender directamente formas no numéricas de datos como lenguaje natural, texto, imágenes y audio. Por lo tanto, necesitamos "vectorizar" para transformar estos datos en formas numéricas que los ordenadores puedan entender y procesar, es decir, mapearlos en representaciones vectoriales matemáticas. Este proceso suele lograrse con la ayuda de modelos de incrustación, que pueden capturar eficazmente información semántica y estructuras internas en los datos.

El papel de los modelos de incrustación es que no solo convierten datos discretos (como palabras, fragmentos de imagen o fragmentos de audio) en vectores continuos de baja dimensión, sino que también preservan las relaciones semánticas entre los datos en el espacio vectorial. Por ejemplo, en el procesamiento del lenguaje natural, los modelos de incrustación pueden generar vectores de palabras, haciendo que palabras semánticamente similares estén más juntas en el espacio vectorial. Esta representación eficiente permite a los ordenadores realizar cálculos y análisis complejos basados en estos vectores, comprendiendo y procesando así mejor datos complejos como texto, imágenes o sonidos.

Al incrustar la vectorización del modelo, los ordenadores no solo pueden procesar datos a gran escala de forma eficiente, sino que también demuestran mayores capacidades de rendimiento y generalización en diversas tareas (como clasificación, recuperación, generación, etc.).

Evaluación del modelo embebido

Para juzgar la calidad de un modelo embebido, debe existir un conjunto claro de criterios. MTEB y C-MTEB se utilizan comúnmente para benchmarking.

MTEB

Huggingface cuenta con un estándar de evaluación MTEB (Massive Multilingual Text Embedding Benchmark), que es un estándar relativamente reconocido en la industria y puede usarse como referencia. Cubre 8 tareas de incrustación, un total de 58 conjuntos de datos y 112 idiomas, lo que la convierte en el benchmark de incrustación de texto más completo hasta la fecha.

Lista:El inicio de sesión del hipervínculo es visible.
Dirección de GitHub:El inicio de sesión del hipervínculo es visible.

C-MTEB

C-MTEB es el benchmark chino más completo de evaluación semántica vectorial, cubriendo 6 categorías de tareas de evaluación (recuperación, ordenación, similitud de frases, razonamiento, clasificación, agrupamiento) y 35 conjuntos de datos.

Documentos del C-MTEB:El inicio de sesión del hipervínculo es visible.
Códigos y clasificaciones:El inicio de sesión del hipervínculo es visible.(Muchas direcciones en Internet son antiguas)

Pequeña basura · Publicado en 17/3/2025 8:55:55

Incrustación Ártica 2.0

Snowflake se complace en anunciar el lanzamiento de Arctic Embed L 2.0 y Arctic Embed M 2.0, la siguiente iteración de nuestro modelo de embedding de vanguardia, ahora con soporte para búsqueda multilingüe.El inicio de sesión del hipervínculo es visible.

Descarga del modelo

Incrustación Ártica L 2.0:El inicio de sesión del hipervínculo es visible.
Incrustación Ártica M 2.0:El inicio de sesión del hipervínculo es visible.

Pequeña basura · Publicado en 17/3/2025 16:30:21

BCEmbedding es una biblioteca de modelos de algoritmos de representación semántica bilingües y cruzados desarrollada por NetEase Youdao, que incluye dos tipos de modelos básicos: EmbeddingModel y RerankerModel. EmbeddingModel está diseñado específicamente para generar vectores semánticos y desempeña un papel fundamental en la búsqueda semántica y las preguntas y respuestas, mientras que RerankerModel destaca en la optimización de resultados de búsqueda semántica y secuenciación semánticamente relacionada.

GitHub:El inicio de sesión del hipervínculo es visible.

Modelo Embebido:El inicio de sesión del hipervínculo es visible.
RerankerModel:El inicio de sesión del hipervínculo es visible.

Pequeña basura · Publicado en 18/3/2025 10:07:55

Nombre del modelo	Versión	Organización/Individuo	dirección	Longitud de incrustación	Longitud máxima de entrada
Gte	gte-large-zh	Academia Alibaba Dharma	El inicio de sesión del hipervínculo es visible.	1024	512
Bge	bge-large-zh-v1.5	Instituto de Investigación en Inteligencia Artificial Zhiyuan de Pekín	El inicio de sesión del hipervínculo es visible.	1024	512
M3E	Base M3E	moka	El inicio de sesión del hipervínculo es visible.	768	512
tao8k	tao8k	Huggingface es desarrollado y de código abierto por AMU	El inicio de sesión del hipervínculo es visible.	1024	512

IA (11) Selección del modelo de incrustación

Publicaciones relacionadas

Secciones vistas