Requisitos: Quando as empresas constroem uma base de conhecimento RAG, é importante escolher o modelo de embedding apropriado, pois o desempenho do embedding determina a precisão da recuperação e indiretamente determina a confiabilidade da saída de grandes modelos. Modelos comumente usados: bge, m3e, nomic-embed-text, BCEmbedding (NetEase Youdao).
Por que você precisa incorporar um modelo?
Computadores só podem lidar com operações numéricas e não podem entender diretamente formas não numéricas de dados, como linguagem natural, texto, imagens e áudio. Portanto, precisamos "vetorizar" para transformar esses dados em formas numéricas que os computadores possam entender e processar, ou seja, mapeá-las em representações vetoriais matemáticas. Esse processo geralmente é alcançado com a ajuda de modelos de embedding, que podem capturar efetivamente informações semânticas e estruturas internas nos dados.
O papel dos modelos de embedding é que eles não apenas convertem dados discretos (como palavras, fragmentos de imagem ou fragmentos de áudio) em vetores contínuos de baixa dimensão, mas também preservam as relações semânticas entre os dados no espaço vetorial. Por exemplo, no processamento de linguagem natural, modelos de embedding podem gerar vetores de palavras, tornando palavras semanticamente semelhantes mais próximas umas das outras no espaço vetorial. Essa representação eficiente permite que os computadores realizem cálculos e análises complexos baseados nesses vetores, compreendendo e processando melhor dados complexos, como texto, imagens ou sons.
Ao incorporar a vetorização do modelo, os computadores não só processam dados em larga escala de forma eficiente, mas também demonstram maior desempenho e capacidades de generalização em várias tarefas (como classificação, recuperação, geração, etc.).
Avaliação do modelo de embeds
Para julgar a qualidade de um modelo embutido, deve haver um conjunto claro de critérios. MTEB e C-MTEB são comumente usados para benchmarking.
MTEB
O Huggingface possui um padrão de avaliação MTEB (Massive Multilingual Text Embedding Benchmark), que é um padrão relativamente reconhecido na indústria e pode ser usado como referência. Ele cobre 8 tarefas de embedding, um total de 58 conjuntos de dados e 112 idiomas, tornando-se o benchmark de embutimento de texto mais abrangente até hoje.
Lista:O login do hiperlink está visível. Endereço do GitHub:O login do hiperlink está visível.
C-MTEB
O C-MTEB é o benchmark de avaliação vetorial semântica mais abrangente da China, abrangendo 6 categorias de tarefas de avaliação (recuperação, ordenação, similaridade de frases, raciocínio, classificação, agrupamento) e 35 conjuntos de dados.
Documentos do C-MTEB:O login do hiperlink está visível. Códigos e rankings:O login do hiperlink está visível.(Muitos endereços na Internet são antigos)
|