Cerințe: Ultima dată când am scris un articol despre selectarea unui model de embedding și obținerea unui vector, ce algoritm ar trebui folosit pentru a calcula similaritatea vectorială după ce se apelează modelul de embedding pentru a obține valoarea vectorială și a o stoca în baza de date vectorială?
vector
În algebra liniară, vectorii sunt adesea definiți într-un spațiu vectorial mai abstract (cunoscut și ca spațiu liniar). Vectorii sunt elementele de bază în spațiul vectorial.
(Multe săgeți reprezintă mulți vectori)
Similaritatea vectorială
Câteva metode pentru calculul similarității vectoriale:
- Distanța euclidiană
- Similaritatea cosinus
- Coeficient de corelație Pearson (Pearson)
- Cosinus ajustat
- Distanța Hamming
- Distanța Manhattan
- Distanța Chebyshev
- Distanța euclidiană
Similaritatea cosinus
Similaritatea cosinus măsoară similaritatea dintre doi vectori prin măsurarea valorii cosinus a unghiului dintre ei. Valoarea cosinus a unghiului de 0 grade este 1, în timp ce valoarea cosinus a oricărui alt unghi nu este mai mare de 1; Iar valoarea sa minimă este -1. Astfel, valoarea cosinus a unghiului dintre cei doi vectori determină dacă cei doi vectori indică aproximativ aceeași direcție. Când doi vectori au aceeași orientare, valoarea similarității cosinus este 1; Când unghiul dintre cei doi vectori este 90°, valoarea similarității cosinus este 0. Când doi vectori indică în direcții opuse, valoarea similarității cosinus este -1. Acest rezultat este independent de lungimea vectorului, ci doar de direcția de orientare a vectorului. Similaritatea cosinus este de obicei folosită în spațiile pozitive, astfel încât valoarea dată este între -1 și 1.
Similaritatea cosinus folosește valoarea cosinus a unghiului dintre doi vectori în spațiul vectorial ca mărimea diferenței dintre doi indivizi. Cu cât valoarea cosinus este mai apropiată de 1, cu atât unghiul este mai aproape de 0 grade, adică cu atât cei doi vectori sunt mai asemănători, ceea ce se numește "similaritate cosinus".
Coeficientul de Corelație Pearson
Având două variabile aleatoare X și Y, coeficientul de corelație Pearson poate fi folosit pentru a măsura cât de corelate sunt cele două, folosind următoarea formulă:
Coeficientul Jaccard
Să presupunem că există două mulțimi X și Y (rețineți că cele două aici nu sunt vectori), formula de calcul este:
Produsul scalar
Produsul cantitativ, cunoscut și ca produs scalar și produs scalar, se numește produsul scalar în spațiul euclidian, iar elementele corespunzătoare sunt înmulțite și adunate, iar rezultatul este o mărime scalară (adică un număr). Se referă la o operație binară care acceptă doi vectori pe numărul real R și returnează un scalar numeric real. Este produsul scalar standard al spațiului euclidian.
Distanțe comune
Distanța Minkowski
Distane Minkowski este o expresie generalizată a formulelor multiple de măsurare a distanței, când p=1, Distane Minkowski este distanța Manhattan; Când p=2, Distane Minkowski este distanța euclidiană; Distane Minkowski ia forma limitei distanței Chebyshev.
Distanța Manhattan
Distanța euclidiană
Distanța Chebyshev
Distanța Hamming
În teoria informației, distanța Hemming dintre două șiruri egale este numărul de caractere în poziții diferite corespunzătoare celor două șiruri. Să presupunem că există două șiruri: x=[x1,x2,...,xn] și y=[y1,y2,...,yn], atunci distanța dintre cele două este:
unde II reprezintă funcția indicativă, ambele fiind 1 pentru același lucru, altfel este 0.
Divergența KL
Având variabila aleatoare X și cele două distribuții de probabilitate P și Q, divergența KL poate fi folosită pentru a măsura diferența dintre cele două distribuții folosind următoarea formulă:
rezumat
Distanța produsului pip și similaritatea cosinus sunt adesea folosite pentru a măsura similaritatea în date vectoriale sau text。 Este folosit în principal pentru a măsura similaritatea vectorială, cum ar fi similaritatea documentelor în extragerea textului și procesarea limbajului natural, sau recuperarea informațiilor, sistemele de recomandare și alte domenii. Dacă folosești un model modern de embedding precum Sentence-BERT sau alte modele pre-antrenate, ieșirea implicită este de obicei normalizată, deci "Acumularea punctelorEste opțiunea preferată.
Referință:
Autentificarea cu hyperlink este vizibilă.
Autentificarea cu hyperlink este vizibilă.
Autentificarea cu hyperlink este vizibilă.
Autentificarea cu hyperlink este vizibilă. |