Dieser Artikel ist ein Spiegelartikel der maschinellen Übersetzung, bitte klicken Sie hier, um zum Originalartikel zu springen.

Ansehen: 1009|Antwort: 0

[KI] (13) Eine kurze Einführung in Vektorähnlichkeit und -entfernung

[Link kopieren]
Veröffentlicht am 21.03.2025, 13:37:09 | | | |
Anforderungen: Als ich zuletzt einen Artikel über die Auswahl eines Embedding-Modells und das Erhalten eines Vektors geschrieben habe, welcher Algorithmus sollte verwendet werden, um die Vektorähnlichkeit nach dem Aufruf des Embedding-Modells zu berechnen, um den Vektorwert zu erhalten und in der Vektordatenbank zu speichern?

Vektor

In der linearen Algebra sind Vektoren oft in einem abstrakteren Vektorraum (auch als linearer Raum bekannt) definiert. Vektoren sind die grundlegenden Bausteine im Vektorraum.


(Viele Pfeile stellen viele Vektoren dar)

Vektorähnlichkeit

Einige Methoden zur Berechnung der Vektorähnlichkeit:

  • Euklidische Distanz
  • Kosinusähnlichkeit
  • Pearson-Korrelationskoeffizient (Pearson)
  • Angepasster Kosinus
  • Hamming-Distanz
  • Manhattan-Entfernung
  • Chebyshev-Distanz
  • Euklidische Distanz


Kosinusähnlichkeit

Kosinusähnlichkeit misst die Ähnlichkeit zwischen zwei Vektoren, indem der Kosinuswert des Winkels zwischen ihnen gemessen wird. Der Kosinuswert des 0-Grad-Winkels beträgt 1, während der Kosinuswert eines anderen Winkels nicht größer als 1 ist; Und ihr Mindestwert ist -1. Daher bestimmt der Kosinuswert des Winkels zwischen den beiden Vektoren, ob die beiden Vektoren ungefähr in die gleiche Richtung zeigen. Wenn zwei Vektoren die gleiche Ausrichtung haben, beträgt der Wert der Kosinusähnlichkeit 1; Wenn der Winkel zwischen den beiden Vektoren 90° beträgt, beträgt der Wert der Kosinusähnlichkeit 0. Wenn zwei Vektoren in entgegengesetzte Richtungen zeigen, beträgt der Wert der Kosinusähnlichkeit -1. Dieses Ergebnis ist unabhängig von der Länge des Vektors, nur von der Richtung des Vektors. Kosinusähnlichkeit wird üblicherweise in positiven Räumen verwendet, sodass der angegebene Wert zwischen -1 und 1 liegt.

Die Kosinusähnlichkeit verwendet den Kosinuswert des Winkels zwischen zwei Vektoren im Vektorraum als Betrag der Differenz zwischen zwei Individuen. Je näher der Kosinuswert 1 ist, desto näher ist der Winkel 0 Grad, das heißt, desto ähnlicher sind die beiden Vektoren, was als "Kosinusähnlichkeit" bezeichnet wird.



Pearson-Korrelationskoeffizient

Gegeben zwei Zufallsvariablen X und Y, kann der Pearson-Korrelationskoeffizient verwendet werden, um zu messen, wie korreliert die beiden sind, mit folgender Formel:



Jaccard-Koeffizient

Angenommen, es gibt zwei Mengen X und Y (beachte, dass die beiden hier keine Vektoren sind), die Formel für die Berechnung lautet:



Skalarprodukt

Das quantitative Produkt, auch als skalares Produkt und Skalarprodukt bekannt, wird im euklidischen Raum als Innenprodukt bezeichnet, und die entsprechenden Elemente werden multipliziert und addiert, sodass das Ergebnis eine skalare Größe (d. h. eine Zahl) ist. Es bezieht sich auf eine binäre Operation, die zwei Vektoren auf der reellen Zahl R akzeptiert und einen reellen numerischen Skalar zurückgibt. Es ist das Standard-Skalarprodukt des euklidischen Raums.

Häufige Entfernungen

Minkowski-Distanz

Minkowski Distane ist ein verallgemeinerter Ausdruck von Formeln zur Messung mehrerer Entfernungen, bei der p=1 Minkowski Distane die Manhattan-Entfernung ist; Wenn p=2, ist Minkowski-Distan die euklidische Distanz; Minkowski Distane nimmt die Form der Grenze der Chebyshev-Entfernung an.



Manhattan-Entfernung



Euklidische Entfernung



Chebyshev-Distanz



Hamming-Distanz

In der Informationstheorie ist der Hemming-Abstand zwischen zwei gleich großen Zeichenketten die Anzahl der Zeichen an unterschiedlichen Positionen, die den beiden Zeichenketten entsprechen. Angenommen, es gibt zwei Strings: x=[x1,x2,...,xn] und y=[y1,y2,...,yn], dann ist der Abstand zwischen beiden:



wobei II die Indikativfunktion darstellt, sind beide 1 für dasselbe, ansonsten ist es 0.

KL-Divergenz

Gegeben die Zufallsvariable X und die beiden Wahrscheinlichkeitsverteilungen P und Q kann die KL-Divergenz verwendet werden, um die Differenz zwischen den beiden Verteilungen mit folgender Formel zu messen:




Zusammenfassung

Pip-Produkt-Abstand und Kosinusähnlichkeit werden häufig verwendet, um Ähnlichkeit in Vektor- oder Textdaten zu messen。 Es wird hauptsächlich verwendet, um Vektorähnlichkeiten zu messen, wie etwa Dokumentenähnlichkeit im Textmining und in der Verarbeitung natürlicher Sprache, oder zur Informationsabruf, in Empfehlungssystemen und anderen Bereichen. Wenn Sie ein modernes Embedding-Modell wie Sentence-BERT oder andere vortrainierte Modelle verwenden, ist die Standardausgabe normalerweise normalisiert, also "PunktakkumulationDas ist die bevorzugte Option.

Referenz:

Der Hyperlink-Login ist sichtbar.
Der Hyperlink-Login ist sichtbar.
Der Hyperlink-Login ist sichtbar.
Der Hyperlink-Login ist sichtbar.




Vorhergehend:Erstellen Sie ein einfaches Maven-Konsolenprojekt
Nächster:【AI】(14) Eine kurze Einführung in Open-Source-Vektordatenbanken
Verzichtserklärung:
Alle von Code Farmer Network veröffentlichten Software, Programmiermaterialien oder Artikel dienen ausschließlich Lern- und Forschungszwecken; Die oben genannten Inhalte dürfen nicht für kommerzielle oder illegale Zwecke verwendet werden, andernfalls tragen die Nutzer alle Konsequenzen. Die Informationen auf dieser Seite stammen aus dem Internet, und Urheberrechtsstreitigkeiten haben nichts mit dieser Seite zu tun. Sie müssen die oben genannten Inhalte innerhalb von 24 Stunden nach dem Download vollständig von Ihrem Computer löschen. Wenn Ihnen das Programm gefällt, unterstützen Sie bitte echte Software, kaufen Sie die Registrierung und erhalten Sie bessere echte Dienstleistungen. Falls es eine Verletzung gibt, kontaktieren Sie uns bitte per E-Mail.

Mail To:help@itsvse.com