Acest articol este un articol oglindă al traducerii automate, vă rugăm să faceți clic aici pentru a sări la articolul original.

Vedere: 1009|Răspunde: 0

[AI] (13) O scurtă introducere în similaritatea vectorială și distanță

[Copiază linkul]
Postat la 2025-03-21 13:37:09 | | | |
Cerințe: Ultima dată când am scris un articol despre selectarea unui model de embedding și obținerea unui vector, ce algoritm ar trebui folosit pentru a calcula similaritatea vectorială după ce se apelează modelul de embedding pentru a obține valoarea vectorială și a o stoca în baza de date vectorială?

vector

În algebra liniară, vectorii sunt adesea definiți într-un spațiu vectorial mai abstract (cunoscut și ca spațiu liniar). Vectorii sunt elementele de bază în spațiul vectorial.


(Multe săgeți reprezintă mulți vectori)

Similaritatea vectorială

Câteva metode pentru calculul similarității vectoriale:

  • Distanța euclidiană
  • Similaritatea cosinus
  • Coeficient de corelație Pearson (Pearson)
  • Cosinus ajustat
  • Distanța Hamming
  • Distanța Manhattan
  • Distanța Chebyshev
  • Distanța euclidiană


Similaritatea cosinus

Similaritatea cosinus măsoară similaritatea dintre doi vectori prin măsurarea valorii cosinus a unghiului dintre ei. Valoarea cosinus a unghiului de 0 grade este 1, în timp ce valoarea cosinus a oricărui alt unghi nu este mai mare de 1; Iar valoarea sa minimă este -1. Astfel, valoarea cosinus a unghiului dintre cei doi vectori determină dacă cei doi vectori indică aproximativ aceeași direcție. Când doi vectori au aceeași orientare, valoarea similarității cosinus este 1; Când unghiul dintre cei doi vectori este 90°, valoarea similarității cosinus este 0. Când doi vectori indică în direcții opuse, valoarea similarității cosinus este -1. Acest rezultat este independent de lungimea vectorului, ci doar de direcția de orientare a vectorului. Similaritatea cosinus este de obicei folosită în spațiile pozitive, astfel încât valoarea dată este între -1 și 1.

Similaritatea cosinus folosește valoarea cosinus a unghiului dintre doi vectori în spațiul vectorial ca mărimea diferenței dintre doi indivizi. Cu cât valoarea cosinus este mai apropiată de 1, cu atât unghiul este mai aproape de 0 grade, adică cu atât cei doi vectori sunt mai asemănători, ceea ce se numește "similaritate cosinus".



Coeficientul de Corelație Pearson

Având două variabile aleatoare X și Y, coeficientul de corelație Pearson poate fi folosit pentru a măsura cât de corelate sunt cele două, folosind următoarea formulă:



Coeficientul Jaccard

Să presupunem că există două mulțimi X și Y (rețineți că cele două aici nu sunt vectori), formula de calcul este:



Produsul scalar

Produsul cantitativ, cunoscut și ca produs scalar și produs scalar, se numește produsul scalar în spațiul euclidian, iar elementele corespunzătoare sunt înmulțite și adunate, iar rezultatul este o mărime scalară (adică un număr). Se referă la o operație binară care acceptă doi vectori pe numărul real R și returnează un scalar numeric real. Este produsul scalar standard al spațiului euclidian.

Distanțe comune

Distanța Minkowski

Distane Minkowski este o expresie generalizată a formulelor multiple de măsurare a distanței, când p=1, Distane Minkowski este distanța Manhattan; Când p=2, Distane Minkowski este distanța euclidiană; Distane Minkowski ia forma limitei distanței Chebyshev.



Distanța Manhattan



Distanța euclidiană



Distanța Chebyshev



Distanța Hamming

În teoria informației, distanța Hemming dintre două șiruri egale este numărul de caractere în poziții diferite corespunzătoare celor două șiruri. Să presupunem că există două șiruri: x=[x1,x2,...,xn] și y=[y1,y2,...,yn], atunci distanța dintre cele două este:



unde II reprezintă funcția indicativă, ambele fiind 1 pentru același lucru, altfel este 0.

Divergența KL

Având variabila aleatoare X și cele două distribuții de probabilitate P și Q, divergența KL poate fi folosită pentru a măsura diferența dintre cele două distribuții folosind următoarea formulă:




rezumat

Distanța produsului pip și similaritatea cosinus sunt adesea folosite pentru a măsura similaritatea în date vectoriale sau text。 Este folosit în principal pentru a măsura similaritatea vectorială, cum ar fi similaritatea documentelor în extragerea textului și procesarea limbajului natural, sau recuperarea informațiilor, sistemele de recomandare și alte domenii. Dacă folosești un model modern de embedding precum Sentence-BERT sau alte modele pre-antrenate, ieșirea implicită este de obicei normalizată, deci "Acumularea punctelorEste opțiunea preferată.

Referință:

Autentificarea cu hyperlink este vizibilă.
Autentificarea cu hyperlink este vizibilă.
Autentificarea cu hyperlink este vizibilă.
Autentificarea cu hyperlink este vizibilă.




Precedent:Creează un proiect simplu de consolă Maven
Următor:【AI】(14) O scurtă introducere în bazele de date vectoriale open source
Disclaimer:
Tot software-ul, materialele de programare sau articolele publicate de Code Farmer Network sunt destinate exclusiv scopurilor de învățare și cercetare; Conținutul de mai sus nu va fi folosit în scopuri comerciale sau ilegale, altfel utilizatorii vor suporta toate consecințele. Informațiile de pe acest site provin de pe Internet, iar disputele privind drepturile de autor nu au legătură cu acest site. Trebuie să ștergi complet conținutul de mai sus de pe calculatorul tău în termen de 24 de ore de la descărcare. Dacă îți place programul, te rugăm să susții software-ul autentic, să cumperi înregistrarea și să primești servicii autentice mai bune. Dacă există vreo încălcare, vă rugăm să ne contactați prin e-mail.

Mail To:help@itsvse.com