Anforderungen: Als ich zuletzt einen Artikel über die Auswahl eines Embedding-Modells und das Erhalten eines Vektors geschrieben habe, welcher Algorithmus sollte verwendet werden, um die Vektorähnlichkeit nach dem Aufruf des Embedding-Modells zu berechnen, um den Vektorwert zu erhalten und in der Vektordatenbank zu speichern?
Vektor
In der linearen Algebra sind Vektoren oft in einem abstrakteren Vektorraum (auch als linearer Raum bekannt) definiert. Vektoren sind die grundlegenden Bausteine im Vektorraum.
(Viele Pfeile stellen viele Vektoren dar)
Vektorähnlichkeit
Einige Methoden zur Berechnung der Vektorähnlichkeit:
- Euklidische Distanz
- Kosinusähnlichkeit
- Pearson-Korrelationskoeffizient (Pearson)
- Angepasster Kosinus
- Hamming-Distanz
- Manhattan-Entfernung
- Chebyshev-Distanz
- Euklidische Distanz
Kosinusähnlichkeit
Kosinusähnlichkeit misst die Ähnlichkeit zwischen zwei Vektoren, indem der Kosinuswert des Winkels zwischen ihnen gemessen wird. Der Kosinuswert des 0-Grad-Winkels beträgt 1, während der Kosinuswert eines anderen Winkels nicht größer als 1 ist; Und ihr Mindestwert ist -1. Daher bestimmt der Kosinuswert des Winkels zwischen den beiden Vektoren, ob die beiden Vektoren ungefähr in die gleiche Richtung zeigen. Wenn zwei Vektoren die gleiche Ausrichtung haben, beträgt der Wert der Kosinusähnlichkeit 1; Wenn der Winkel zwischen den beiden Vektoren 90° beträgt, beträgt der Wert der Kosinusähnlichkeit 0. Wenn zwei Vektoren in entgegengesetzte Richtungen zeigen, beträgt der Wert der Kosinusähnlichkeit -1. Dieses Ergebnis ist unabhängig von der Länge des Vektors, nur von der Richtung des Vektors. Kosinusähnlichkeit wird üblicherweise in positiven Räumen verwendet, sodass der angegebene Wert zwischen -1 und 1 liegt.
Die Kosinusähnlichkeit verwendet den Kosinuswert des Winkels zwischen zwei Vektoren im Vektorraum als Betrag der Differenz zwischen zwei Individuen. Je näher der Kosinuswert 1 ist, desto näher ist der Winkel 0 Grad, das heißt, desto ähnlicher sind die beiden Vektoren, was als "Kosinusähnlichkeit" bezeichnet wird.
Pearson-Korrelationskoeffizient
Gegeben zwei Zufallsvariablen X und Y, kann der Pearson-Korrelationskoeffizient verwendet werden, um zu messen, wie korreliert die beiden sind, mit folgender Formel:
Jaccard-Koeffizient
Angenommen, es gibt zwei Mengen X und Y (beachte, dass die beiden hier keine Vektoren sind), die Formel für die Berechnung lautet:
Skalarprodukt
Das quantitative Produkt, auch als skalares Produkt und Skalarprodukt bekannt, wird im euklidischen Raum als Innenprodukt bezeichnet, und die entsprechenden Elemente werden multipliziert und addiert, sodass das Ergebnis eine skalare Größe (d. h. eine Zahl) ist. Es bezieht sich auf eine binäre Operation, die zwei Vektoren auf der reellen Zahl R akzeptiert und einen reellen numerischen Skalar zurückgibt. Es ist das Standard-Skalarprodukt des euklidischen Raums.
Häufige Entfernungen
Minkowski-Distanz
Minkowski Distane ist ein verallgemeinerter Ausdruck von Formeln zur Messung mehrerer Entfernungen, bei der p=1 Minkowski Distane die Manhattan-Entfernung ist; Wenn p=2, ist Minkowski-Distan die euklidische Distanz; Minkowski Distane nimmt die Form der Grenze der Chebyshev-Entfernung an.
Manhattan-Entfernung
Euklidische Entfernung
Chebyshev-Distanz
Hamming-Distanz
In der Informationstheorie ist der Hemming-Abstand zwischen zwei gleich großen Zeichenketten die Anzahl der Zeichen an unterschiedlichen Positionen, die den beiden Zeichenketten entsprechen. Angenommen, es gibt zwei Strings: x=[x1,x2,...,xn] und y=[y1,y2,...,yn], dann ist der Abstand zwischen beiden:
wobei II die Indikativfunktion darstellt, sind beide 1 für dasselbe, ansonsten ist es 0.
KL-Divergenz
Gegeben die Zufallsvariable X und die beiden Wahrscheinlichkeitsverteilungen P und Q kann die KL-Divergenz verwendet werden, um die Differenz zwischen den beiden Verteilungen mit folgender Formel zu messen:
Zusammenfassung
Pip-Produkt-Abstand und Kosinusähnlichkeit werden häufig verwendet, um Ähnlichkeit in Vektor- oder Textdaten zu messen。 Es wird hauptsächlich verwendet, um Vektorähnlichkeiten zu messen, wie etwa Dokumentenähnlichkeit im Textmining und in der Verarbeitung natürlicher Sprache, oder zur Informationsabruf, in Empfehlungssystemen und anderen Bereichen. Wenn Sie ein modernes Embedding-Modell wie Sentence-BERT oder andere vortrainierte Modelle verwenden, ist die Standardausgabe normalerweise normalisiert, also "PunktakkumulationDas ist die bevorzugte Option.
Referenz:
Der Hyperlink-Login ist sichtbar.
Der Hyperlink-Login ist sichtbar.
Der Hyperlink-Login ist sichtbar.
Der Hyperlink-Login ist sichtbar. |