Este artículo es un artículo espejo de traducción automática, por favor haga clic aquí para saltar al artículo original.

Vista: 1262|Respuesta: 3

IA (11) Selección del modelo de incrustación

[Copiar enlace]
Publicado el 14-03-2025 23:01:35 | | | |
Requisitos: Cuando las empresas construyen una base de conocimiento RAG, es importante elegir el modelo de incrustación adecuado, ya que el rendimiento de la incrustación determina la precisión de la recuperación y determina indirectamente la fiabilidad de la salida de grandes modelos. Modelos comúnmente utilizados: bge, m3e, nomic-embed-text, BCEmbedding (NetEase Youdao).

¿Por qué necesitas incrustar un modelo?

Los ordenadores solo pueden manejar operaciones numéricas y no pueden comprender directamente formas no numéricas de datos como lenguaje natural, texto, imágenes y audio. Por lo tanto, necesitamos "vectorizar" para transformar estos datos en formas numéricas que los ordenadores puedan entender y procesar, es decir, mapearlos en representaciones vectoriales matemáticas. Este proceso suele lograrse con la ayuda de modelos de incrustación, que pueden capturar eficazmente información semántica y estructuras internas en los datos.

El papel de los modelos de incrustación es que no solo convierten datos discretos (como palabras, fragmentos de imagen o fragmentos de audio) en vectores continuos de baja dimensión, sino que también preservan las relaciones semánticas entre los datos en el espacio vectorial. Por ejemplo, en el procesamiento del lenguaje natural, los modelos de incrustación pueden generar vectores de palabras, haciendo que palabras semánticamente similares estén más juntas en el espacio vectorial. Esta representación eficiente permite a los ordenadores realizar cálculos y análisis complejos basados en estos vectores, comprendiendo y procesando así mejor datos complejos como texto, imágenes o sonidos.

Al incrustar la vectorización del modelo, los ordenadores no solo pueden procesar datos a gran escala de forma eficiente, sino que también demuestran mayores capacidades de rendimiento y generalización en diversas tareas (como clasificación, recuperación, generación, etc.).

Evaluación del modelo embebido

Para juzgar la calidad de un modelo embebido, debe existir un conjunto claro de criterios. MTEB y C-MTEB se utilizan comúnmente para benchmarking.

MTEB

Huggingface cuenta con un estándar de evaluación MTEB (Massive Multilingual Text Embedding Benchmark), que es un estándar relativamente reconocido en la industria y puede usarse como referencia. Cubre 8 tareas de incrustación, un total de 58 conjuntos de datos y 112 idiomas, lo que la convierte en el benchmark de incrustación de texto más completo hasta la fecha.



Lista:El inicio de sesión del hipervínculo es visible.
Dirección de GitHub:El inicio de sesión del hipervínculo es visible.



C-MTEB

C-MTEB es el benchmark chino más completo de evaluación semántica vectorial, cubriendo 6 categorías de tareas de evaluación (recuperación, ordenación, similitud de frases, razonamiento, clasificación, agrupamiento) y 35 conjuntos de datos.

Documentos del C-MTEB:El inicio de sesión del hipervínculo es visible.
Códigos y clasificaciones:El inicio de sesión del hipervínculo es visible.(Muchas direcciones en Internet son antiguas)





Anterior:Linux comanda sudo y abreviaturas de palabras en inglés apt
Próximo:.NET/C# utiliza el algoritmo SM3 para generar firmas
 Propietario| Publicado el 17-03-2025 08:55:55 |
Incrustación Ártica 2.0

Snowflake se complace en anunciar el lanzamiento de Arctic Embed L 2.0 y Arctic Embed M 2.0, la siguiente iteración de nuestro modelo de embedding de vanguardia, ahora con soporte para búsqueda multilingüe.El inicio de sesión del hipervínculo es visible.

Descarga del modelo

Incrustación Ártica L 2.0:El inicio de sesión del hipervínculo es visible.
Incrustación Ártica M 2.0:El inicio de sesión del hipervínculo es visible.

 Propietario| Publicado el 17-03-2025 16:30:21 |
BCEmbedding es una biblioteca de modelos de algoritmos de representación semántica bilingües y cruzados desarrollada por NetEase Youdao, que incluye dos tipos de modelos básicos: EmbeddingModel y RerankerModel. EmbeddingModel está diseñado específicamente para generar vectores semánticos y desempeña un papel fundamental en la búsqueda semántica y las preguntas y respuestas, mientras que RerankerModel destaca en la optimización de resultados de búsqueda semántica y secuenciación semánticamente relacionada.

GitHub:El inicio de sesión del hipervínculo es visible.

Modelo Embebido:El inicio de sesión del hipervínculo es visible.
RerankerModel:El inicio de sesión del hipervínculo es visible.

 Propietario| Publicado el 18-03-2025 10:07:55 |
Nombre del modeloVersiónOrganización/IndividuodirecciónLongitud de incrustaciónLongitud máxima de entrada
Gtegte-large-zhAcademia Alibaba DharmaEl inicio de sesión del hipervínculo es visible.1024512
Bgebge-large-zh-v1.5Instituto de Investigación en Inteligencia Artificial Zhiyuan de PekínEl inicio de sesión del hipervínculo es visible.1024512
M3EBase M3EmokaEl inicio de sesión del hipervínculo es visible.768512
tao8ktao8kHuggingface es desarrollado y de código abierto por AMUEl inicio de sesión del hipervínculo es visible.1024512

Renuncia:
Todo el software, materiales de programación o artículos publicados por Code Farmer Network son únicamente para fines de aprendizaje e investigación; El contenido anterior no se utilizará con fines comerciales o ilegales; de lo contrario, los usuarios asumirán todas las consecuencias. La información de este sitio proviene de Internet, y las disputas de derechos de autor no tienen nada que ver con este sitio. Debes eliminar completamente el contenido anterior de tu ordenador en un plazo de 24 horas desde la descarga. Si te gusta el programa, por favor apoya el software genuino, compra el registro y obtén mejores servicios genuinos. Si hay alguna infracción, por favor contáctanos por correo electrónico.

Mail To:help@itsvse.com