Krav: Sist jeg skrev en artikkel om å velge en embedding-modell og få en vektor, hvilken algoritme bør brukes for å beregne vektorlikheten etter å ha kalt embedding-modellen for å hente vektorverdien og lagre den i vektordatabasen?
vektor
I lineær algebra defineres vektorer ofte i et mer abstrakt vektorrom (også kjent som lineært rom). Vektorer er de grunnleggende byggesteinene i vektorrommet.
(Mange piler representerer mange vektorer)
Vektorlikhet
Noen metoder for beregning av vektorlikhet:
- Euklidisk avstand
- Cosinuslikhet
- Pearson-korrelasjonskoeffisienten (Pearson)
- Justert cosinus
- Hamming-distanse
- Manhattan-distansen
- Chebyshev-distansen
- Euklidisk avstand
Cosinuslikhet
Cosinuslikhet måler likheten mellom to vektorer ved å måle cosinusverdien til vinkelen mellom dem. Kosinusverdien til 0-graders vinkelen er 1, mens cosinusverdien til en annen vinkel ikke er større enn 1; Og minimumsverdien er -1. Dermed avgjør cosinusverdien til vinkelen mellom de to vektorene om de to vektorene peker omtrent i samme retning. Når to vektorer har samme peking, er verdien av cosinuslikhet 1; Når vinkelen mellom de to vektorene er 90°, er verdien av cosinuslikhet 0. Når to vektorer peker i motsatte retninger, er verdien av cosinuslikhet -1. Dette resultatet er uavhengig av lengden på vektoren, kun retningen på vektorens peking. Kosinuslikhet brukes vanligvis i positive rom, så verdien som er gitt er mellom -1 og 1.
Kosinuslikhet bruker cosinusverdien til vinkelen mellom to vektorer i vektorrommet som størrelsen på forskjellen mellom to individer. Jo nærmere cosinusverdien er 1, desto nærmere er vinkelen 0 grader, det vil si at de to vektorene er mer like, noe som kalles "cosinuslikhet".
Pearson-korrelasjonskoeffisienten
Gitt to stokastiske variabler X og Y, kan Pearson-korrelasjonskoeffisienten brukes til å måle hvor korrelert de to er, ved å bruke følgende formel:
Jaccard-koeffisienten
Anta at det finnes to mengder X og Y (merk at de to her ikke er vektorer), formelen for beregning er:
Punktprodukt
Det kvantitative produktet, også kjent som skalarprodukt og punktprodukt, kalles det indre produktet i det euklidske rommet, og de tilsvarende elementene multipliseres og legges til, og resultatet er en skalar størrelse (dvs. et tall). Det refererer til en binær operasjon som aksepterer to vektorer på det reelle tallet R og returnerer en reell numerisk skalar. Det er det standard indre produktet av det euklidske rommet.
Felles avstander
Minkowski-distansen
Minkowski Distane er et generalisert uttrykk for flere avstandsmåleformler, når p=1, er Minkowski Distane Manhattan-avstanden; Når p=2, er Minkowski Distane den euklidske avstanden; Minkowski Distane tar formen av grensen for Chebyshev-distansen.
Manhattan-distansen
Euklidisk avstand
Chebyshev-distansen
Hamming-distanse
I informasjonsteori er Hemming-avstanden mellom to like strenger antallet tegn i forskjellige posisjoner som tilsvarer de to strengene. Anta at det finnes to strenger: x=[x1,x2,...,xn] og y=[y1,y2,...,yn], da er avstanden mellom de to:
hvor II representerer indikativfunksjonen, er begge 1 for det samme, ellers er det 0.
KL-avviket
Gitt den stokastiske variabelen X og de to sannsynlighetsfordelingene P og Q, kan KL-divergensen brukes til å måle forskjellen mellom de to fordelingene ved hjelp av følgende formel:
sammendrag
Pip-produktavstand og cosinuslikhet brukes ofte for å måle likhet i vektor- eller tekstdata。 Den brukes hovedsakelig til å måle vektorlikhet, slik som dokumentlikhet i tekstutvinning og naturlig språkbehandling, eller informasjonsinnhenting, anbefalingssystemer og andre felt. Hvis du bruker en moderne embedding-modell som Sentence-BERT eller andre forhåndstrente modeller, er standardutgangen vanligvis normalisert, så "PrikkakkumuleringDet er det foretrukne alternativet.
Referanse:
Innloggingen med hyperkoblingen er synlig.
Innloggingen med hyperkoblingen er synlig.
Innloggingen med hyperkoblingen er synlig.
Innloggingen med hyperkoblingen er synlig. |