Ta članek je zrcalni članek strojnega prevajanja, kliknite tukaj za skok na izvirni članek.

Pogled: 1009|Odgovoriti: 0

[AI] (13) Kratek uvod v vektorsko podobnost in razdaljo

[Kopiraj povezavo]
Objavljeno 21. 3. 2025 ob 13:37:09 | | | |
Zahteve: Zadnjič, ko sem pisal članek o izbiri modela vdelave in pridobivanju vektorja, kateri algoritem naj uporabim za izračun podobnosti vektorjev po klicu modela vdelave, da dobimo vrednost vektorja in jo shranimo v vektorsko bazo podatkov?

vektor

V linearni algebri so vektorji pogosto definirani v bolj abstraktnem vektorskem prostoru (znanem tudi kot linearni prostor). Vektorji so osnovni gradniki v vektorskem prostoru.


(Veliko puščic predstavlja veliko vektorjev)

Vektorska podobnost

Nekaj metod za izračun vektorske podobnosti:

  • Evklidska razdalja
  • Kosinusna podobnost
  • Pearsonov korelacijski koeficient (Pearson)
  • Prilagojeni kosinus
  • Hammingova razdalja
  • Manhattan Distance
  • Čebyševska razdalja
  • Evklidska razdalja


Kosinusna podobnost

Kosinusna podobnost meri podobnost med dvema vektorjema z merjenjem kosinusne vrednosti kota med njima. Kosinusna vrednost 0-stopinjskega kota je 1, medtem ko kosinusna vrednost katerega koli drugega kota ni večja od 1; Njena minimalna vrednost je -1. Tako kosinusna vrednost kota med obema vektorjema določa, ali oba vektorja kažeta približno v isto smer. Ko imata dva vektorja enako usmerjenost, je vrednost kosinusne podobnosti 1; Ko je kot med obema vektorjema 90°, je vrednost kosinusne podobnosti 0. Ko dva vektorja kažeta v nasprotni smeri, je vrednost kosinusne podobnosti -1. Ta rezultat je neodvisen od dolžine vektorja, temveč le od smeri usmeritve vektorja. Kosinusna podobnost se običajno uporablja v pozitivnih prostorih, zato je podana vrednost med -1 in 1.

Kosinusna podobnost uporablja kosinusno vrednost kota med dvema vektorjema v vektorskem prostoru kot velikost razlike med dvema posameznikoma. Bližje kot je vrednost kosinusa 1, bližje je kot 0 stopinjam, torej bolj podobna sta oba vektorja, kar imenujemo "kosinusna podobnost".



Pearsonov korelacijski koeficient

Za dve naključni spremenljivki X in Y lahko uporabimo Pearsonov korelacijski koeficient za merjenje, kako korelirani sta ti dve spremenljivki, z naslednjo formulo:



Jaccardov koeficient

Predpostavimo, da obstajata dve množici X in Y (upoštevajte, da tukaj nista vektorji), je formula za izračun:



Skalarni produkt

Kvantitativni produkt, znan tudi kot skalarni produkt in skalarni produkt, se v evklidskem prostoru imenuje notranji produkt, ustrezni elementi pa se množijo in seštevajo, rezultat pa je skalarna količina (tj. število). Nanaša se na binarno operacijo, ki sprejme dva vektorja na realnem številu R in vrne realni numerični skalar. Je standardni notranji produkt evklidskega prostora.

Pogoste razdalje

Minkowskijeva razdalja

Minkowski Distane je posplošen izraz formul za merjenje več razdalj, kjer je p=1, Minkowski Distane Manhattan razdalja; Ko je p=2, je Minkowski Distane evklidska razdalja; Minkowski Distane je v obliki limita Čebyševove razdalje.



Manhattan Distance



Evklidska razdalja



Čebyševska razdalja



Hammingova razdalja

V informacijski teoriji je Hemmingova razdalja med dvema enakoma nizoma število znakov na različnih položajih, ki ustrezajo obema nizoma. Predpostavimo, da obstajata dva niza: x=[x1,x2,...,xn] in y=[y1,y2,...,yn], potem je razdalja med njima:



kjer II predstavlja indikativno funkcijo, sta oba 1 za isto, sicer je 0.

KL Divergenca

Za dano naključno spremenljivko X in dve verjetnostni porazdelitvi P in Q lahko KL divergenco uporabimo za merjenje razlike med obema porazdelitvama z naslednjo formulo:




Povzetek

Pipe-produkt razdalje in kosinusna podobnost se pogosto uporabljata za merjenje podobnosti vektorskih ali besedilnih podatkov。 Uporablja se predvsem za merjenje vektorske podobnosti, kot so podobnost dokumentov pri rudarjenju besedil in obdelavi naravnega jezika, ali za iskanje informacij, sistemi priporočil in druga področja. Če uporabljate sodoben model vdelave, kot je Sentence-BERT ali druge vnaprej trenirane modele, je privzeti izhod običajno normaliziran, torej "Kopičenje pikTo je prednostna možnost.

Referenčni:

Prijava do hiperpovezave je vidna.
Prijava do hiperpovezave je vidna.
Prijava do hiperpovezave je vidna.
Prijava do hiperpovezave je vidna.




Prejšnji:Ustvarite preprost Maven konzolni projekt
Naslednji:【AI】(14) Kratek uvod v odprtokodne vektorske baze podatkov
Disclaimer:
Vsa programska oprema, programski materiali ali članki, ki jih izdaja Code Farmer Network, so namenjeni zgolj učnim in raziskovalnim namenom; Zgornja vsebina ne sme biti uporabljena v komercialne ali nezakonite namene, sicer uporabniki nosijo vse posledice. Informacije na tej strani prihajajo z interneta, spori glede avtorskih pravic pa nimajo nobene zveze s to stranjo. Zgornjo vsebino morate popolnoma izbrisati z računalnika v 24 urah po prenosu. Če vam je program všeč, podprite pristno programsko opremo, kupite registracijo in pridobite boljše pristne storitve. Če pride do kakršne koli kršitve, nas prosimo kontaktirajte po elektronski pošti.

Mail To:help@itsvse.com