Krav: Sidst jeg skrev en artikel om at vælge en embedding-model og opnå en vektor, hvilken algoritme bør så bruges til at beregne vektorligheden efter at have kaldt embedding-modellen for at få vektorværdien og gemme den i vektordatabasen?
vektor
I lineær algebra defineres vektorer ofte i et mere abstrakt vektorrum (også kendt som lineært rum). Vektorer er de grundlæggende byggesten i vektorrummet.
(Mange pile repræsenterer mange vektorer)
Vektorlig lighed
Nogle metoder til beregning af vektorlighed:
- Euklidisk afstand
- Cosinuslighed
- Pearson-korrelationskoefficient (Pearson)
- Justeret cosinus
- Hamming-distance
- Manhattan-afstanden
- Chebyshev-distancen
- Euklidisk afstand
Cosinuslighed
Cosinuslighed måler ligheden mellem to vektorer ved at måle cosinusværdien af vinklen mellem dem. Cosinusværdien for 0-graders vinklen er 1, mens cosinusværdien for enhver anden vinkel ikke er større end 1; Og dens minimumsværdi er -1. Dermed bestemmer cosinusværdien af vinklen mellem de to vektorer, om de to vektorer peger i omtrent samme retning. Når to vektorer har samme pegning, er værdien af cosinuslighed 1; Når vinklen mellem de to vektorer er 90°, er værdien af cosinuslighed 0. Når to vektorer peger i modsatte retninger, er værdien af cosinuslighed -1. Dette resultat er uafhængigt af vektorens længde, kun retningen af vektorens peg. Cosinuslighed bruges normalt i positive rum, så den givne værdi ligger mellem -1 og 1.
Cosinus-lighed bruger cosinusværdien af vinklen mellem to vektorer i vektorrummet som størrelsen af forskellen mellem to individer. Jo tættere cosinusværdien er på 1, desto tættere er vinklen på 0 grader, det vil sige, jo mere ens er de to vektorer, hvilket kaldes "cosinuslighed".
Pearson-korrelationskoefficient
Givet to stokastiske variable X og Y kan Pearson-korrelationskoefficienten bruges til at måle, hvor korrelerede de to er, ved hjælp af følgende formel:
Jaccard-koefficient
Antag, at der findes to mængder X og Y (bemærk, at de to her ikke er vektorer), formlen for beregning er:
Punktprodukt
Det kvantitative produkt, også kendt som skalarprodukt og prikprodukt, kaldes det indre produkt i det euklidiske rum, og de tilsvarende elementer multipliceres og lægges til, og resultatet er en skalar størrelse (dvs. et tal). Det refererer til en binær operation, der accepterer to vektorer på det reelle tal R og returnerer en reel numerisk skalar. Det er det standard indre produkt af det euklidiske rum.
Fælles afstande
Minkowski-distancen
Minkowski Distane er et generaliseret udtryk for flere afstandsmåleformler, hvor p=1, Minkowski Distane er Manhattan-afstanden; Når p=2, er Minkowski Distane den euklidiske afstand; Minkowski Distane tager form af grænsen for Chebyshev-afstanden.
Manhattan-afstanden
Euklidisk afstand
Chebyshev-distancen
Hamming-distance
I informationsteori er Hemming-afstanden mellem to lige strenge antallet af tegn i forskellige positioner, der svarer til de to strenge. Antag, at der er to strenge: x=[x1,x2,...,xn] og y=[y1,y2,...,yn], så er afstanden mellem de to:
hvor II repræsenterer indikativfunktionen, begge er 1 for det samme, ellers er den 0.
KL-afvigelsen
Givet den stokastiske variabel X og de to sandsynlighedsfordelinger P og Q kan KL-divergensen bruges til at måle forskellen mellem de to fordelinger ved hjælp af følgende formel:
resumé
Pip-produktafstand og cosinuslighed bruges ofte til at måle lighed i vektor- eller tekstdata。 Det bruges hovedsageligt til at måle vektorlighed, såsom dokumentlighed i tekstmining og naturlig sprogbehandling eller informationssøgning, anbefalingssystemer og andre områder. Hvis du bruger en moderne embedding-model som Sentence-BERT eller andre forudtrænede modeller, er standardoutputtet normalt normaliseret, så "PrikophobningDet er den foretrukne mulighed.
Henvisning:
Hyperlink-login er synlig.
Hyperlink-login er synlig.
Hyperlink-login er synlig.
Hyperlink-login er synlig. |