Denne artikkelen er en speilartikkel om maskinoversettelse, vennligst klikk her for å hoppe til originalartikkelen.

Utsikt: 1009|Svare: 0

[AI] (13) En kort introduksjon til vektorlikhet og avstand

[Kopier lenke]
Publisert 21.03.2025 kl. 13:37:09 | | | |
Krav: Sist jeg skrev en artikkel om å velge en embedding-modell og få en vektor, hvilken algoritme bør brukes for å beregne vektorlikheten etter å ha kalt embedding-modellen for å hente vektorverdien og lagre den i vektordatabasen?

vektor

I lineær algebra defineres vektorer ofte i et mer abstrakt vektorrom (også kjent som lineært rom). Vektorer er de grunnleggende byggesteinene i vektorrommet.


(Mange piler representerer mange vektorer)

Vektorlikhet

Noen metoder for beregning av vektorlikhet:

  • Euklidisk avstand
  • Cosinuslikhet
  • Pearson-korrelasjonskoeffisienten (Pearson)
  • Justert cosinus
  • Hamming-distanse
  • Manhattan-distansen
  • Chebyshev-distansen
  • Euklidisk avstand


Cosinuslikhet

Cosinuslikhet måler likheten mellom to vektorer ved å måle cosinusverdien til vinkelen mellom dem. Kosinusverdien til 0-graders vinkelen er 1, mens cosinusverdien til en annen vinkel ikke er større enn 1; Og minimumsverdien er -1. Dermed avgjør cosinusverdien til vinkelen mellom de to vektorene om de to vektorene peker omtrent i samme retning. Når to vektorer har samme peking, er verdien av cosinuslikhet 1; Når vinkelen mellom de to vektorene er 90°, er verdien av cosinuslikhet 0. Når to vektorer peker i motsatte retninger, er verdien av cosinuslikhet -1. Dette resultatet er uavhengig av lengden på vektoren, kun retningen på vektorens peking. Kosinuslikhet brukes vanligvis i positive rom, så verdien som er gitt er mellom -1 og 1.

Kosinuslikhet bruker cosinusverdien til vinkelen mellom to vektorer i vektorrommet som størrelsen på forskjellen mellom to individer. Jo nærmere cosinusverdien er 1, desto nærmere er vinkelen 0 grader, det vil si at de to vektorene er mer like, noe som kalles "cosinuslikhet".



Pearson-korrelasjonskoeffisienten

Gitt to stokastiske variabler X og Y, kan Pearson-korrelasjonskoeffisienten brukes til å måle hvor korrelert de to er, ved å bruke følgende formel:



Jaccard-koeffisienten

Anta at det finnes to mengder X og Y (merk at de to her ikke er vektorer), formelen for beregning er:



Punktprodukt

Det kvantitative produktet, også kjent som skalarprodukt og punktprodukt, kalles det indre produktet i det euklidske rommet, og de tilsvarende elementene multipliseres og legges til, og resultatet er en skalar størrelse (dvs. et tall). Det refererer til en binær operasjon som aksepterer to vektorer på det reelle tallet R og returnerer en reell numerisk skalar. Det er det standard indre produktet av det euklidske rommet.

Felles avstander

Minkowski-distansen

Minkowski Distane er et generalisert uttrykk for flere avstandsmåleformler, når p=1, er Minkowski Distane Manhattan-avstanden; Når p=2, er Minkowski Distane den euklidske avstanden; Minkowski Distane tar formen av grensen for Chebyshev-distansen.



Manhattan-distansen



Euklidisk avstand



Chebyshev-distansen



Hamming-distanse

I informasjonsteori er Hemming-avstanden mellom to like strenger antallet tegn i forskjellige posisjoner som tilsvarer de to strengene. Anta at det finnes to strenger: x=[x1,x2,...,xn] og y=[y1,y2,...,yn], da er avstanden mellom de to:



hvor II representerer indikativfunksjonen, er begge 1 for det samme, ellers er det 0.

KL-avviket

Gitt den stokastiske variabelen X og de to sannsynlighetsfordelingene P og Q, kan KL-divergensen brukes til å måle forskjellen mellom de to fordelingene ved hjelp av følgende formel:




sammendrag

Pip-produktavstand og cosinuslikhet brukes ofte for å måle likhet i vektor- eller tekstdata。 Den brukes hovedsakelig til å måle vektorlikhet, slik som dokumentlikhet i tekstutvinning og naturlig språkbehandling, eller informasjonsinnhenting, anbefalingssystemer og andre felt. Hvis du bruker en moderne embedding-modell som Sentence-BERT eller andre forhåndstrente modeller, er standardutgangen vanligvis normalisert, så "PrikkakkumuleringDet er det foretrukne alternativet.

Referanse:

Innloggingen med hyperkoblingen er synlig.
Innloggingen med hyperkoblingen er synlig.
Innloggingen med hyperkoblingen er synlig.
Innloggingen med hyperkoblingen er synlig.




Foregående:Lag et enkelt Maven-konsollprosjekt
Neste:【AI】(14) En kort introduksjon til åpen kildekode-vektordatabaser
Ansvarsfraskrivelse:
All programvare, programmeringsmateriell eller artikler publisert av Code Farmer Network er kun for lærings- og forskningsformål; Innholdet ovenfor skal ikke brukes til kommersielle eller ulovlige formål, ellers skal brukerne bære alle konsekvenser. Informasjonen på dette nettstedet kommer fra Internett, og opphavsrettstvister har ingenting med dette nettstedet å gjøre. Du må fullstendig slette innholdet ovenfor fra datamaskinen din innen 24 timer etter nedlasting. Hvis du liker programmet, vennligst støtt ekte programvare, kjøp registrering, og få bedre ekte tjenester. Hvis det foreligger noen krenkelse, vennligst kontakt oss på e-post.

Mail To:help@itsvse.com