Denne artikel er en spejling af maskinoversættelse, klik venligst her for at springe til den oprindelige artikel.

Udsigt: 1009|Svar: 0

[AI] (13) En kort introduktion til vektorlighed og afstand

[Kopier link]
Opslået den 21-3-2025 13:37:09 | | | |
Krav: Sidst jeg skrev en artikel om at vælge en embedding-model og opnå en vektor, hvilken algoritme bør så bruges til at beregne vektorligheden efter at have kaldt embedding-modellen for at få vektorværdien og gemme den i vektordatabasen?

vektor

I lineær algebra defineres vektorer ofte i et mere abstrakt vektorrum (også kendt som lineært rum). Vektorer er de grundlæggende byggesten i vektorrummet.


(Mange pile repræsenterer mange vektorer)

Vektorlig lighed

Nogle metoder til beregning af vektorlighed:

  • Euklidisk afstand
  • Cosinuslighed
  • Pearson-korrelationskoefficient (Pearson)
  • Justeret cosinus
  • Hamming-distance
  • Manhattan-afstanden
  • Chebyshev-distancen
  • Euklidisk afstand


Cosinuslighed

Cosinuslighed måler ligheden mellem to vektorer ved at måle cosinusværdien af vinklen mellem dem. Cosinusværdien for 0-graders vinklen er 1, mens cosinusværdien for enhver anden vinkel ikke er større end 1; Og dens minimumsværdi er -1. Dermed bestemmer cosinusværdien af vinklen mellem de to vektorer, om de to vektorer peger i omtrent samme retning. Når to vektorer har samme pegning, er værdien af cosinuslighed 1; Når vinklen mellem de to vektorer er 90°, er værdien af cosinuslighed 0. Når to vektorer peger i modsatte retninger, er værdien af cosinuslighed -1. Dette resultat er uafhængigt af vektorens længde, kun retningen af vektorens peg. Cosinuslighed bruges normalt i positive rum, så den givne værdi ligger mellem -1 og 1.

Cosinus-lighed bruger cosinusværdien af vinklen mellem to vektorer i vektorrummet som størrelsen af forskellen mellem to individer. Jo tættere cosinusværdien er på 1, desto tættere er vinklen på 0 grader, det vil sige, jo mere ens er de to vektorer, hvilket kaldes "cosinuslighed".



Pearson-korrelationskoefficient

Givet to stokastiske variable X og Y kan Pearson-korrelationskoefficienten bruges til at måle, hvor korrelerede de to er, ved hjælp af følgende formel:



Jaccard-koefficient

Antag, at der findes to mængder X og Y (bemærk, at de to her ikke er vektorer), formlen for beregning er:



Punktprodukt

Det kvantitative produkt, også kendt som skalarprodukt og prikprodukt, kaldes det indre produkt i det euklidiske rum, og de tilsvarende elementer multipliceres og lægges til, og resultatet er en skalar størrelse (dvs. et tal). Det refererer til en binær operation, der accepterer to vektorer på det reelle tal R og returnerer en reel numerisk skalar. Det er det standard indre produkt af det euklidiske rum.

Fælles afstande

Minkowski-distancen

Minkowski Distane er et generaliseret udtryk for flere afstandsmåleformler, hvor p=1, Minkowski Distane er Manhattan-afstanden; Når p=2, er Minkowski Distane den euklidiske afstand; Minkowski Distane tager form af grænsen for Chebyshev-afstanden.



Manhattan-afstanden



Euklidisk afstand



Chebyshev-distancen



Hamming-distance

I informationsteori er Hemming-afstanden mellem to lige strenge antallet af tegn i forskellige positioner, der svarer til de to strenge. Antag, at der er to strenge: x=[x1,x2,...,xn] og y=[y1,y2,...,yn], så er afstanden mellem de to:



hvor II repræsenterer indikativfunktionen, begge er 1 for det samme, ellers er den 0.

KL-afvigelsen

Givet den stokastiske variabel X og de to sandsynlighedsfordelinger P og Q kan KL-divergensen bruges til at måle forskellen mellem de to fordelinger ved hjælp af følgende formel:




resumé

Pip-produktafstand og cosinuslighed bruges ofte til at måle lighed i vektor- eller tekstdata。 Det bruges hovedsageligt til at måle vektorlighed, såsom dokumentlighed i tekstmining og naturlig sprogbehandling eller informationssøgning, anbefalingssystemer og andre områder. Hvis du bruger en moderne embedding-model som Sentence-BERT eller andre forudtrænede modeller, er standardoutputtet normalt normaliseret, så "PrikophobningDet er den foretrukne mulighed.

Henvisning:

Hyperlink-login er synlig.
Hyperlink-login er synlig.
Hyperlink-login er synlig.
Hyperlink-login er synlig.




Tidligere:Opret et simpelt Maven-konsolprojekt
Næste:【AI】(14) En kort introduktion til open source vektordatabaser
Ansvarsfraskrivelse:
Al software, programmeringsmaterialer eller artikler udgivet af Code Farmer Network er kun til lærings- og forskningsformål; Ovenstående indhold må ikke bruges til kommercielle eller ulovlige formål, ellers skal brugerne bære alle konsekvenser. Oplysningerne på dette site kommer fra internettet, og ophavsretstvister har intet med dette site at gøre. Du skal slette ovenstående indhold fuldstændigt fra din computer inden for 24 timer efter download. Hvis du kan lide programmet, så understøt venligst ægte software, køb registrering og få bedre ægte tjenester. Hvis der er nogen overtrædelse, bedes du kontakte os via e-mail.

Mail To:help@itsvse.com