Este artigo é um artigo espelhado de tradução automática, por favor clique aqui para ir para o artigo original.

Vista: 1009|Resposta: 0

[IA] (13) Uma breve introdução à similaridade vetorial e distância

[Copiar link]
Postado em 2025-3-21 13:37:09 | | | |
Requisitos: Da última vez que escrevi um artigo sobre selecionar um modelo de embedding e obter um vetor, qual algoritmo deve ser usado para calcular a similaridade vetorial após chamar o modelo de embedding para obter o valor vetorial e armazená-lo no banco de dados vetorial?

vetor

Em álgebra linear, vetores são frequentemente definidos em um espaço vetorial mais abstrato (também conhecido como espaço linear). Vetores são os blocos básicos de construção no espaço vetorial.


(Muitas setas representam muitos vetores)

Similaridade vetorial

Alguns métodos para cálculo de similaridade vetorial:

  • Distância Euclidiana
  • Similaridade Cosseno
  • Coeficiente de correlação de Pearson (Pearson)
  • Cosseno ajustado
  • Distância de Hamming
  • Distância em Manhattan
  • Distância de Chebyshev
  • Distância Euclidiana


Similaridade Cosseno

A similaridade cosseno mede a similaridade entre dois vetores medindo o valor cosseno do ângulo entre eles. O valor cosseno do ângulo 0 grau é 1, enquanto o valor cosseno de qualquer outro ângulo não é maior que 1; E seu valor mínimo é -1. Assim, o valor cosseno do ângulo entre os dois vetores determina se os dois vetores apontam aproximadamente na mesma direção. Quando dois vetores têm o mesmo apontamento, o valor da similaridade cosseno é 1; Quando o ângulo entre os dois vetores é 90°, o valor da similaridade cosseno é 0. Quando dois vetores apontam em direções opostas, o valor da similaridade cosseno é -1. Esse resultado é independente do comprimento do vetor, apenas da direção do apontamento do vetor. A similaridade cosseno geralmente é usada em espaços positivos, então o valor dado está entre -1 e 1.

A similaridade cosseno usa o valor cosseno do ângulo entre dois vetores no espaço vetorial como a magnitude da diferença entre dois indivíduos. Quanto mais próximo o valor do cosseno está de 1, mais próximo é o ângulo de 0 graus, ou seja, mais semelhantes são os dois vetores, o que é chamado de "similaridade cosseno".



Coeficiente de Correlação de Pearson

Dadas duas variáveis aleatórias X e Y, o coeficiente de correlação de Pearson pode ser usado para medir o quão correlacionadas são as duas, usando a seguinte fórmula:



Coeficiente de Jaccard

Suponha que existam dois conjuntos X e Y (note que os dois aqui não são vetores), a fórmula para o cálculo é:



Produto escalar

O produto quantitativo, também conhecido como produto escalar e produto escalar, é chamado de produto interno no espaço euclidiano, e os elementos correspondentes são multiplicados e somados, e o resultado é uma quantidade escalar (ou seja, um número). Refere-se a uma operação binária que aceita dois vetores no número real R e retorna um escalar numérico real. É o produto interno padrão do espaço euclidiano.

Distâncias comuns

Distância Minkowski

O Distane de Minkowski é uma expressão generalizada de múltiplas fórmulas de medição de distância, quando p=1, o Distane de Minkowski é a distância de Manhattan; Quando p=2, a Distane de Minkowski é a distância euclidiana; A Distane de Minkowski assume a forma do limite da distância de Chebyshev.



Distância em Manhattan



Distância euclidiana



Distância de Chebyshev



Distância de Hamming

Na teoria da informação, a distância de Hemming entre duas cadeias iguais é o número de caracteres em posições diferentes correspondentes às duas cadeias. Suponha que existam duas cadeias: x=[x1,x2,...,xn] e y=[y1,y2,...,yn], então a distância entre as duas é:



onde II representa a função indicativa, ambas são 1 para a mesma, caso contrário é 0.

Divergência KL

Dada a variável aleatória X e as duas distribuições de probabilidade P e Q, a divergência KL pode ser usada para medir a diferença entre as duas distribuições usando a seguinte fórmula:




resumo

A distância do produto Pip e a similaridade cosseno são frequentemente usadas para medir similaridade em dados vetoriais ou textuais。 É usado principalmente para medir similaridade vetorial, como similaridade de documentos em mineração de texto e processamento de linguagem natural, ou recuperação de informações, sistemas de recomendação e outros campos. Se você estiver usando um modelo moderno de embedding como Sentence-BERT ou outros modelos pré-treinados, a saída padrão geralmente é normalizada, então "Acúmulo de pontosÉ a opção preferida.

Referência:

O login do hiperlink está visível.
O login do hiperlink está visível.
O login do hiperlink está visível.
O login do hiperlink está visível.




Anterior:Crie um projeto simples de console Maven
Próximo:【AI】(14) Uma breve introdução aos bancos de dados vetoriais open source
Disclaimer:
Todo software, material de programação ou artigos publicados pela Code Farmer Network são apenas para fins de aprendizado e pesquisa; O conteúdo acima não deve ser usado para fins comerciais ou ilegais, caso contrário, os usuários terão todas as consequências. As informações deste site vêm da Internet, e disputas de direitos autorais não têm nada a ver com este site. Você deve deletar completamente o conteúdo acima do seu computador em até 24 horas após o download. Se você gosta do programa, por favor, apoie um software genuíno, compre o registro e obtenha serviços genuínos melhores. Se houver qualquer infração, por favor, entre em contato conosco por e-mail.

Mail To:help@itsvse.com