Requisitos: La última vez que escribí un artículo sobre seleccionar un modelo de incrustación y obtener un vector, ¿qué algoritmo debería usarse para calcular la similitud vectorial después de llamar al modelo de incrustación para obtener el valor del vector y almacenarlo en la base de datos vectorial?
vector
En álgebra lineal, los vectores suelen definirse en un espacio vectorial más abstracto (también conocido como espacio lineal). Los vectores son los bloques básicos en el espacio vectorial.
(Muchas flechas representan muchos vectores)
Similitud vectorial
Algunos métodos para el cálculo de similitud vectorial:
- Distancia euclidiana
- Similitud coseno
- Coeficiente de correlación de Pearson (Pearson)
- Coseno ajustado
- Distancia de Hamming
- Distancia en Manhattan
- Distancia de Chebyshev
- Distancia euclidiana
Similitud coseno
La similitud coseno mide la similitud entre dos vectores midiendo el valor coseno del ángulo entre ellos. El valor del coseno del ángulo 0 grados es 1, mientras que el valor del coseno de cualquier otro ángulo no es mayor que 1; Y su valor mínimo es -1. Así, el valor coseno del ángulo entre los dos vectores determina si los dos vectores apuntan aproximadamente en la misma dirección. Cuando dos vectores tienen el mismo apuntamiento, el valor de similitud coseno es 1; Cuando el ángulo entre los dos vectores es 90°, el valor de similitud coseno es 0. Cuando dos vectores apuntan en direcciones opuestas, el valor de similitud coseno es -1. Este resultado es independiente de la longitud del vector, solo de la dirección en la que apunta el vector. La similitud coseno se usa habitualmente en espacios positivos, por lo que el valor dado está entre -1 y 1.
La similitud coseno utiliza el valor coseno del ángulo entre dos vectores en el espacio vectorial como la magnitud de la diferencia entre dos individuos. Cuanto más cerca esté el valor del coseno a 1, más cerca es el ángulo de 0 grados, es decir, más similares son los dos vectores, lo que se denomina "similitud coseno".
Coeficiente de Correlación de Pearson
Dadas dos variables aleatorias X e Y, el coeficiente de correlación de Pearson puede usarse para medir cuán correlacionadas están, empleando la siguiente fórmula:
Coeficiente de Jaccard
Supongamos que existen dos conjuntos X e Y (hay que notar que aquí no son vectores), la fórmula para el cálculo es:
Producto escalar
El producto cuantitativo, también conocido como producto escalar y producto escalar, se denomina producto interno en el espacio euclidiano, y los elementos correspondientes se multiplican y suman, y el resultado es una cantidad escalar (es decir, un número). Se refiere a una operación binaria que acepta dos vectores sobre el número real R y devuelve un escalar numérico real. Es el producto interno estándar del espacio euclidiano.
Distancias comunes
Distancia de Minkowski
La Distana de Minkowski es una expresión generalizada de múltiples fórmulas de medición de distancias, cuando p=1, la Distanación de Minkowski es la distancia de Manhattan; Cuando p=2, la Distana de Minkowski es la distancia euclidiana; La Distana de Minkowski toma la forma del límite de la distancia de Chebyshev.
Distancia en Manhattan
Distancia euclidiana
Distancia de Chebyshev
Distancia de Hamming
En teoría de la información, la distancia de Hemming entre dos cadenas iguales es el número de caracteres en diferentes posiciones correspondientes a las dos cadenas. Supongamos que hay dos cadenas: x=[x1,x2,...,xn] y y=[y1,y2,...,yn], entonces la distancia entre ambas es:
donde II representa la función indicativa, ambas son 1 para la misma, de lo contrario es 0.
Divergencia KL
Dada la variable aleatoria X y las dos distribuciones de probabilidad P y Q, la divergencia KL puede usarse para medir la diferencia entre ambas distribuciones usando la siguiente fórmula:
resumen
La distancia del producto Pip y la similitud coseno se usan a menudo para medir la similitud en datos vectoriales o textuales。 Se utiliza principalmente para medir la similitud vectorial, como la similitud de documentos en minería de texto y procesamiento de lenguaje natural, o recuperación de información, sistemas de recomendación y otros campos. Si usas un modelo de incrustación moderno como Sentence-BERT u otros modelos preentrenados, la salida por defecto suele estar normalizada, así que "Acumulación de puntosEs la opción preferida.
Referencia:
El inicio de sesión del hipervínculo es visible.
El inicio de sesión del hipervínculo es visible.
El inicio de sesión del hipervínculo es visible.
El inicio de sesión del hipervínculo es visible. |