Requisitos: Da última vez que escrevi um artigo sobre selecionar um modelo de embedding e obter um vetor, qual algoritmo deve ser usado para calcular a similaridade vetorial após chamar o modelo de embedding para obter o valor vetorial e armazená-lo no banco de dados vetorial?
vetor
Em álgebra linear, vetores são frequentemente definidos em um espaço vetorial mais abstrato (também conhecido como espaço linear). Vetores são os blocos básicos de construção no espaço vetorial.
(Muitas setas representam muitos vetores)
Similaridade vetorial
Alguns métodos para cálculo de similaridade vetorial:
- Distância Euclidiana
- Similaridade Cosseno
- Coeficiente de correlação de Pearson (Pearson)
- Cosseno ajustado
- Distância de Hamming
- Distância em Manhattan
- Distância de Chebyshev
- Distância Euclidiana
Similaridade Cosseno
A similaridade cosseno mede a similaridade entre dois vetores medindo o valor cosseno do ângulo entre eles. O valor cosseno do ângulo 0 grau é 1, enquanto o valor cosseno de qualquer outro ângulo não é maior que 1; E seu valor mínimo é -1. Assim, o valor cosseno do ângulo entre os dois vetores determina se os dois vetores apontam aproximadamente na mesma direção. Quando dois vetores têm o mesmo apontamento, o valor da similaridade cosseno é 1; Quando o ângulo entre os dois vetores é 90°, o valor da similaridade cosseno é 0. Quando dois vetores apontam em direções opostas, o valor da similaridade cosseno é -1. Esse resultado é independente do comprimento do vetor, apenas da direção do apontamento do vetor. A similaridade cosseno geralmente é usada em espaços positivos, então o valor dado está entre -1 e 1.
A similaridade cosseno usa o valor cosseno do ângulo entre dois vetores no espaço vetorial como a magnitude da diferença entre dois indivíduos. Quanto mais próximo o valor do cosseno está de 1, mais próximo é o ângulo de 0 graus, ou seja, mais semelhantes são os dois vetores, o que é chamado de "similaridade cosseno".
Coeficiente de Correlação de Pearson
Dadas duas variáveis aleatórias X e Y, o coeficiente de correlação de Pearson pode ser usado para medir o quão correlacionadas são as duas, usando a seguinte fórmula:
Coeficiente de Jaccard
Suponha que existam dois conjuntos X e Y (note que os dois aqui não são vetores), a fórmula para o cálculo é:
Produto escalar
O produto quantitativo, também conhecido como produto escalar e produto escalar, é chamado de produto interno no espaço euclidiano, e os elementos correspondentes são multiplicados e somados, e o resultado é uma quantidade escalar (ou seja, um número). Refere-se a uma operação binária que aceita dois vetores no número real R e retorna um escalar numérico real. É o produto interno padrão do espaço euclidiano.
Distâncias comuns
Distância Minkowski
O Distane de Minkowski é uma expressão generalizada de múltiplas fórmulas de medição de distância, quando p=1, o Distane de Minkowski é a distância de Manhattan; Quando p=2, a Distane de Minkowski é a distância euclidiana; A Distane de Minkowski assume a forma do limite da distância de Chebyshev.
Distância em Manhattan
Distância euclidiana
Distância de Chebyshev
Distância de Hamming
Na teoria da informação, a distância de Hemming entre duas cadeias iguais é o número de caracteres em posições diferentes correspondentes às duas cadeias. Suponha que existam duas cadeias: x=[x1,x2,...,xn] e y=[y1,y2,...,yn], então a distância entre as duas é:
onde II representa a função indicativa, ambas são 1 para a mesma, caso contrário é 0.
Divergência KL
Dada a variável aleatória X e as duas distribuições de probabilidade P e Q, a divergência KL pode ser usada para medir a diferença entre as duas distribuições usando a seguinte fórmula:
resumo
A distância do produto Pip e a similaridade cosseno são frequentemente usadas para medir similaridade em dados vetoriais ou textuais。 É usado principalmente para medir similaridade vetorial, como similaridade de documentos em mineração de texto e processamento de linguagem natural, ou recuperação de informações, sistemas de recomendação e outros campos. Se você estiver usando um modelo moderno de embedding como Sentence-BERT ou outros modelos pré-treinados, a saída padrão geralmente é normalizada, então "Acúmulo de pontosÉ a opção preferida.
Referência:
O login do hiperlink está visível.
O login do hiperlink está visível.
O login do hiperlink está visível.
O login do hiperlink está visível. |