Zahteve: Zadnjič, ko sem pisal članek o izbiri modela vdelave in pridobivanju vektorja, kateri algoritem naj uporabim za izračun podobnosti vektorjev po klicu modela vdelave, da dobimo vrednost vektorja in jo shranimo v vektorsko bazo podatkov?
vektor
V linearni algebri so vektorji pogosto definirani v bolj abstraktnem vektorskem prostoru (znanem tudi kot linearni prostor). Vektorji so osnovni gradniki v vektorskem prostoru.
(Veliko puščic predstavlja veliko vektorjev)
Vektorska podobnost
Nekaj metod za izračun vektorske podobnosti:
- Evklidska razdalja
- Kosinusna podobnost
- Pearsonov korelacijski koeficient (Pearson)
- Prilagojeni kosinus
- Hammingova razdalja
- Manhattan Distance
- Čebyševska razdalja
- Evklidska razdalja
Kosinusna podobnost
Kosinusna podobnost meri podobnost med dvema vektorjema z merjenjem kosinusne vrednosti kota med njima. Kosinusna vrednost 0-stopinjskega kota je 1, medtem ko kosinusna vrednost katerega koli drugega kota ni večja od 1; Njena minimalna vrednost je -1. Tako kosinusna vrednost kota med obema vektorjema določa, ali oba vektorja kažeta približno v isto smer. Ko imata dva vektorja enako usmerjenost, je vrednost kosinusne podobnosti 1; Ko je kot med obema vektorjema 90°, je vrednost kosinusne podobnosti 0. Ko dva vektorja kažeta v nasprotni smeri, je vrednost kosinusne podobnosti -1. Ta rezultat je neodvisen od dolžine vektorja, temveč le od smeri usmeritve vektorja. Kosinusna podobnost se običajno uporablja v pozitivnih prostorih, zato je podana vrednost med -1 in 1.
Kosinusna podobnost uporablja kosinusno vrednost kota med dvema vektorjema v vektorskem prostoru kot velikost razlike med dvema posameznikoma. Bližje kot je vrednost kosinusa 1, bližje je kot 0 stopinjam, torej bolj podobna sta oba vektorja, kar imenujemo "kosinusna podobnost".
Pearsonov korelacijski koeficient
Za dve naključni spremenljivki X in Y lahko uporabimo Pearsonov korelacijski koeficient za merjenje, kako korelirani sta ti dve spremenljivki, z naslednjo formulo:
Jaccardov koeficient
Predpostavimo, da obstajata dve množici X in Y (upoštevajte, da tukaj nista vektorji), je formula za izračun:
Skalarni produkt
Kvantitativni produkt, znan tudi kot skalarni produkt in skalarni produkt, se v evklidskem prostoru imenuje notranji produkt, ustrezni elementi pa se množijo in seštevajo, rezultat pa je skalarna količina (tj. število). Nanaša se na binarno operacijo, ki sprejme dva vektorja na realnem številu R in vrne realni numerični skalar. Je standardni notranji produkt evklidskega prostora.
Pogoste razdalje
Minkowskijeva razdalja
Minkowski Distane je posplošen izraz formul za merjenje več razdalj, kjer je p=1, Minkowski Distane Manhattan razdalja; Ko je p=2, je Minkowski Distane evklidska razdalja; Minkowski Distane je v obliki limita Čebyševove razdalje.
Manhattan Distance
Evklidska razdalja
Čebyševska razdalja
Hammingova razdalja
V informacijski teoriji je Hemmingova razdalja med dvema enakoma nizoma število znakov na različnih položajih, ki ustrezajo obema nizoma. Predpostavimo, da obstajata dva niza: x=[x1,x2,...,xn] in y=[y1,y2,...,yn], potem je razdalja med njima:
kjer II predstavlja indikativno funkcijo, sta oba 1 za isto, sicer je 0.
KL Divergenca
Za dano naključno spremenljivko X in dve verjetnostni porazdelitvi P in Q lahko KL divergenco uporabimo za merjenje razlike med obema porazdelitvama z naslednjo formulo:
Povzetek
Pipe-produkt razdalje in kosinusna podobnost se pogosto uporabljata za merjenje podobnosti vektorskih ali besedilnih podatkov。 Uporablja se predvsem za merjenje vektorske podobnosti, kot so podobnost dokumentov pri rudarjenju besedil in obdelavi naravnega jezika, ali za iskanje informacij, sistemi priporočil in druga področja. Če uporabljate sodoben model vdelave, kot je Sentence-BERT ali druge vnaprej trenirane modele, je privzeti izhod običajno normaliziran, torej "Kopičenje pikTo je prednostna možnost.
Referenčni:
Prijava do hiperpovezave je vidna.
Prijava do hiperpovezave je vidna.
Prijava do hiperpovezave je vidna.
Prijava do hiperpovezave je vidna. |