Exigences : La dernière fois, j’ai écrit un article sur la sélection d’un modèle d’embarquement et l’obtention d’un vecteur, quel algorithme faut-il utiliser pour calculer la similarité vectorielle après avoir appelé le modèle d’embedding afin d’obtenir la valeur vectorielle et de la stocker dans la base de données vectorielle ?
vecteur
En algèbre linéaire, les vecteurs sont souvent définis dans un espace vectoriel plus abstrait (également appelé espace linéaire). Les vecteurs sont les éléments de base de l’espace vectoriel.
(De nombreuses flèches représentent de nombreux vecteurs)
Similarité vectorielle
Quelques méthodes pour le calcul de similarité vectorielle :
- Distance euclidienne
- Similarité cosinus
- Coefficient de corrélation de Pearson (Pearson)
- Cosinus ajusté
- Hamming Distance
- Manhattan Distance
- Chebyshev Distance
- Distance euclidienne
Similarité cosinus
La similarité cosinus mesure la similarité entre deux vecteurs en mesurant la valeur cosinus de l’angle entre eux. La valeur cosinus de l’angle 0 degré est 1, tandis que la valeur cosinus de tout autre angle n’est pas supérieure à 1 ; Et sa valeur minimale est -1. Ainsi, la valeur cosinus de l’angle entre les deux vecteurs détermine si les deux vecteurs pointent à peu près dans la même direction. Lorsque deux vecteurs ont le même pointage, la valeur de similarité cosinus est 1 ; Lorsque l’angle entre les deux vecteurs est de 90°, la valeur de similarité cosinus est de 0. Lorsque deux vecteurs pointent dans des directions opposées, la valeur de similarité cosinus est -1. Ce résultat est indépendant de la longueur du vecteur, seulement de la direction du pointage du vecteur. La similarité cosinus est généralement utilisée dans les espaces positifs, donc la valeur donnée est comprise entre -1 et 1.
La similarité cosinus utilise la valeur cosinus de l’angle entre deux vecteurs dans l’espace vectoriel comme la magnitude de la différence entre deux individus. Plus la valeur du cosinus est proche de 1, plus l’angle est proche de 0 degrés, c’est-à-dire que les deux vecteurs sont similaires, ce qu’on appelle la « similarité cosinus ».
Coefficient de corrélation de Pearson
Étant données deux variables aléatoires X et Y, le coefficient de corrélation de Pearson peut être utilisé pour mesurer la corrélation des deux, en utilisant la formule suivante :
Jaccard Coefficient
Supposons qu’il existe deux ensembles X et Y (notez que les deux ici ne sont pas des vecteurs), la formule de calcul est la suivante :
Produit scalaire
Le produit quantitatif, également appelé produit scalaire et produit scalaire, est appelé produit scalaire dans l’espace euclidien, et les éléments correspondants sont multipliés et additionnés, et le résultat est une grandeur scalaire (c’est-à-dire un nombre). Il fait référence à une opération binaire qui accepte deux vecteurs sur le nombre réel R et renvoie un scalaire numérique réel. Il s’agit du produit scalaire standard de l’espace euclidien.
Distances courantes
Minkowski Distance
La distanne de Minkowski est une expression généralisée de multiples formules de mesure de distance, lorsque p=1, la distanne de Minkowski correspond à la distance de Manhattan ; Lorsque p=2, la distanne de Minkowski correspond à la distance euclidienne ; La distanne de Minkowski prend la forme de la limite de la distance de Chebyshev.
Manhattan Distance
Distance euclidienne
Chebyshev Distance
Hamming Distance
En théorie de l’information, la distance de Hemming entre deux chaînes égales est le nombre de caractères placés à différentes positions correspondant aux deux chaînes. Supposons qu’il y ait deux chaînes : x=[x1,x2,...,xn] et y=[y1,y2,...,yn], alors la distance entre les deux est :
où II représente la fonction indicative, les deux sont 1 pour la même chose, sinon elle est 0.
KL Divergence
Étant donné la variable aléatoire X et les deux distributions de probabilité P et Q, la divergence KL peut être utilisée pour mesurer la différence entre les deux distributions à l’aide de la formule suivante :
résumé
La distance produit de pip et la similarité cosinus sont souvent utilisées pour mesurer la similarité dans les données vectorielles ou textuelles。 Il est principalement utilisé pour mesurer la similarité vectorielle, comme la similarité de documents dans l’exploration de texte et le traitement du langage naturel, ou la recherche d’informations, les systèmes de recommandation et d’autres domaines. Si vous utilisez un modèle d’embedding moderne comme Sentence-BERT ou d’autres modèles pré-entraînés, la sortie par défaut est généralement normalisée, donc "Accumulation de pointsC’est l’option préférée.
Référence:
La connexion hyperlientérée est visible.
La connexion hyperlientérée est visible.
La connexion hyperlientérée est visible.
La connexion hyperlientérée est visible. |