Este artigo é um artigo espelhado de tradução automática, por favor clique aqui para ir para o artigo original.

Vista: 1262|Resposta: 3

IA (11) Seleção do modelo de embedding

[Copiar link]
Postado em 2025-3-14 23:01:35 | | | |
Requisitos: Quando as empresas constroem uma base de conhecimento RAG, é importante escolher o modelo de embedding apropriado, pois o desempenho do embedding determina a precisão da recuperação e indiretamente determina a confiabilidade da saída de grandes modelos. Modelos comumente usados: bge, m3e, nomic-embed-text, BCEmbedding (NetEase Youdao).

Por que você precisa incorporar um modelo?

Computadores só podem lidar com operações numéricas e não podem entender diretamente formas não numéricas de dados, como linguagem natural, texto, imagens e áudio. Portanto, precisamos "vetorizar" para transformar esses dados em formas numéricas que os computadores possam entender e processar, ou seja, mapeá-las em representações vetoriais matemáticas. Esse processo geralmente é alcançado com a ajuda de modelos de embedding, que podem capturar efetivamente informações semânticas e estruturas internas nos dados.

O papel dos modelos de embedding é que eles não apenas convertem dados discretos (como palavras, fragmentos de imagem ou fragmentos de áudio) em vetores contínuos de baixa dimensão, mas também preservam as relações semânticas entre os dados no espaço vetorial. Por exemplo, no processamento de linguagem natural, modelos de embedding podem gerar vetores de palavras, tornando palavras semanticamente semelhantes mais próximas umas das outras no espaço vetorial. Essa representação eficiente permite que os computadores realizem cálculos e análises complexos baseados nesses vetores, compreendendo e processando melhor dados complexos, como texto, imagens ou sons.

Ao incorporar a vetorização do modelo, os computadores não só processam dados em larga escala de forma eficiente, mas também demonstram maior desempenho e capacidades de generalização em várias tarefas (como classificação, recuperação, geração, etc.).

Avaliação do modelo de embeds

Para julgar a qualidade de um modelo embutido, deve haver um conjunto claro de critérios. MTEB e C-MTEB são comumente usados para benchmarking.

MTEB

O Huggingface possui um padrão de avaliação MTEB (Massive Multilingual Text Embedding Benchmark), que é um padrão relativamente reconhecido na indústria e pode ser usado como referência. Ele cobre 8 tarefas de embedding, um total de 58 conjuntos de dados e 112 idiomas, tornando-se o benchmark de embutimento de texto mais abrangente até hoje.



Lista:O login do hiperlink está visível.
Endereço do GitHub:O login do hiperlink está visível.



C-MTEB

O C-MTEB é o benchmark de avaliação vetorial semântica mais abrangente da China, abrangendo 6 categorias de tarefas de avaliação (recuperação, ordenação, similaridade de frases, raciocínio, classificação, agrupamento) e 35 conjuntos de dados.

Documentos do C-MTEB:O login do hiperlink está visível.
Códigos e rankings:O login do hiperlink está visível.(Muitos endereços na Internet são antigos)





Anterior:Comandos Linux sudo e abreviações de palavras em inglês apt
Próximo:.NET/C# usa o algoritmo SM3 para gerar assinaturas
 Senhorio| Postado em 17-03-2025 08:55:55 |
Embed Ártico 2.0

A Snowflake está animada em anunciar o lançamento do Arctic Embed L 2.0 e do Arctic Embed M 2.0, a próxima versão do nosso modelo de embedding de ponta, agora com suporte para busca multilíngue.O login do hiperlink está visível.

Download do modelo

Incorporação Ártica L 2.0:O login do hiperlink está visível.
Incorporação Ártica M 2.0:O login do hiperlink está visível.

 Senhorio| Postado em 17-03-2025 às 16:30:21 |
BCEmbedding é uma biblioteca de modelos de algoritmos de representação semântica bilíngues e cruzados desenvolvida pela NetEase Youdao, incluindo dois tipos de modelos básicos: EmbeddingModel e RerankerModel. O EmbeddingModel é especificamente projetado para gerar vetores semânticos e desempenha um papel fundamental em busca semântica e perguntas e respostas, enquanto o RerankerModel se destaca na otimização de resultados de busca semântica e sequenciamento semanticamente relacionado.

GitHub:O login do hiperlink está visível.

EmbeddingModel:O login do hiperlink está visível.
RerankerModel:O login do hiperlink está visível.

 Senhorio| Postado em 18-03-2025 às 10:07:55 |
Nome do modeloVersãoOrganização/IndivíduoendereçoComprimento de embedsComprimento máximo de entrada
GteGTE-LARGE-ZHAcademia Alibaba DharmaO login do hiperlink está visível.1024512
Bgebge-large-zh-v1.5Instituto de Pesquisa em Inteligência Artificial Zhiyuan de PequimO login do hiperlink está visível.1024512
M3EM3E-baseMokaO login do hiperlink está visível.768512
tao8ktao8kHuggingface é desenvolvido e disponibilizado de código aberto pela AMUO login do hiperlink está visível.1024512

Disclaimer:
Todo software, material de programação ou artigos publicados pela Code Farmer Network são apenas para fins de aprendizado e pesquisa; O conteúdo acima não deve ser usado para fins comerciais ou ilegais, caso contrário, os usuários terão todas as consequências. As informações deste site vêm da Internet, e disputas de direitos autorais não têm nada a ver com este site. Você deve deletar completamente o conteúdo acima do seu computador em até 24 horas após o download. Se você gosta do programa, por favor, apoie um software genuíno, compre o registro e obtenha serviços genuínos melhores. Se houver qualquer infração, por favor, entre em contato conosco por e-mail.

Mail To:help@itsvse.com