[AI] (13) O scurtă introducere în similaritatea vectorială și distanță

Mică mizerie · Postat pe 21.03.2025 13:37:09

Cerințe: Ultima dată când am scris un articol despre selectarea unui model de embedding și obținerea unui vector, ce algoritm ar trebui folosit pentru a calcula similaritatea vectorială după ce se apelează modelul de embedding pentru a obține valoarea vectorială și a o stoca în baza de date vectorială?

vector

În algebra liniară, vectorii sunt adesea definiți într-un spațiu vectorial mai abstract (cunoscut și ca spațiu liniar). Vectorii sunt elementele de bază în spațiul vectorial.

(Multe săgeți reprezintă mulți vectori)

Similaritatea vectorială

Câteva metode pentru calculul similarității vectoriale:

Distanța euclidiană
Similaritatea cosinus
Coeficient de corelație Pearson (Pearson)
Cosinus ajustat
Distanța Hamming
Distanța Manhattan
Distanța Chebyshev
Distanța euclidiană

Similaritatea cosinus

Similaritatea cosinus măsoară similaritatea dintre doi vectori prin măsurarea valorii cosinus a unghiului dintre ei. Valoarea cosinus a unghiului de 0 grade este 1, în timp ce valoarea cosinus a oricărui alt unghi nu este mai mare de 1; Iar valoarea sa minimă este -1. Astfel, valoarea cosinus a unghiului dintre cei doi vectori determină dacă cei doi vectori indică aproximativ aceeași direcție. Când doi vectori au aceeași orientare, valoarea similarității cosinus este 1; Când unghiul dintre cei doi vectori este 90°, valoarea similarității cosinus este 0. Când doi vectori indică în direcții opuse, valoarea similarității cosinus este -1. Acest rezultat este independent de lungimea vectorului, ci doar de direcția de orientare a vectorului. Similaritatea cosinus este de obicei folosită în spațiile pozitive, astfel încât valoarea dată este între -1 și 1.

Similaritatea cosinus folosește valoarea cosinus a unghiului dintre doi vectori în spațiul vectorial ca mărimea diferenței dintre doi indivizi. Cu cât valoarea cosinus este mai apropiată de 1, cu atât unghiul este mai aproape de 0 grade, adică cu atât cei doi vectori sunt mai asemănători, ceea ce se numește "similaritate cosinus".

Coeficientul de Corelație Pearson

Având două variabile aleatoare X și Y, coeficientul de corelație Pearson poate fi folosit pentru a măsura cât de corelate sunt cele două, folosind următoarea formulă:

Coeficientul Jaccard

Să presupunem că există două mulțimi X și Y (rețineți că cele două aici nu sunt vectori), formula de calcul este:

Produsul scalar

Produsul cantitativ, cunoscut și ca produs scalar și produs scalar, se numește produsul scalar în spațiul euclidian, iar elementele corespunzătoare sunt înmulțite și adunate, iar rezultatul este o mărime scalară (adică un număr). Se referă la o operație binară care acceptă doi vectori pe numărul real R și returnează un scalar numeric real. Este produsul scalar standard al spațiului euclidian.

Distanțe comune

Distanța Minkowski

Distane Minkowski este o expresie generalizată a formulelor multiple de măsurare a distanței, când p=1, Distane Minkowski este distanța Manhattan; Când p=2, Distane Minkowski este distanța euclidiană; Distane Minkowski ia forma limitei distanței Chebyshev.

Distanța Manhattan

Distanța euclidiană

Distanța Chebyshev

Distanța Hamming

În teoria informației, distanța Hemming dintre două șiruri egale este numărul de caractere în poziții diferite corespunzătoare celor două șiruri. Să presupunem că există două șiruri: x=[x1,x2,...,xn] și y=[y1,y2,...,yn], atunci distanța dintre cele două este:

unde II reprezintă funcția indicativă, ambele fiind 1 pentru același lucru, altfel este 0.

Divergența KL

Având variabila aleatoare X și cele două distribuții de probabilitate P și Q, divergența KL poate fi folosită pentru a măsura diferența dintre cele două distribuții folosind următoarea formulă:

rezumat

Distanța produsului pip și similaritatea cosinus sunt adesea folosite pentru a măsura similaritatea în date vectoriale sau text。 Este folosit în principal pentru a măsura similaritatea vectorială, cum ar fi similaritatea documentelor în extragerea textului și procesarea limbajului natural, sau recuperarea informațiilor, sistemele de recomandare și alte domenii. Dacă folosești un model modern de embedding precum Sentence-BERT sau alte modele pre-antrenate, ieșirea implicită este de obicei normalizată, deci "Acumularea punctelorEste opțiunea preferată.

Referință:

Autentificarea cu hyperlink este vizibilă.
Autentificarea cu hyperlink este vizibilă.
Autentificarea cu hyperlink este vizibilă.
Autentificarea cu hyperlink este vizibilă.

[AI] (13) O scurtă introducere în similaritatea vectorială și distanță

Postări conexe

Secțiuni vizualizate