Šis straipsnis yra veidrodinis mašininio vertimo straipsnis, spauskite čia norėdami pereiti prie originalaus straipsnio.

Rodinys: 1009|Atsakyti: 0

[AI] (13) Trumpas įvadas į vektorių panašumą ir atstumą

[Kopijuoti nuorodą]
Publikuota: 2025-3-21 13:37:09 | | | |
Reikalavimai: Paskutinį kartą parašiau straipsnį apie įterpimo modelio pasirinkimą ir vektoriaus gavimą, koks algoritmas turėtų būti naudojamas vektoriaus panašumui apskaičiuoti iškvietus įterpimo modelį, kad gautumėte vektoriaus reikšmę ir išsaugotumėte ją vektorių duomenų bazėje?

vektorius

Tiesinėje algebroje vektoriai dažnai apibrėžiami abstraktesnėje vektorinėje erdvėje (taip pat vadinamoje linijine erdve). Vektoriai yra pagrindiniai vektorinės erdvės blokai.


(Daug rodyklių reiškia daug vektorių)

Vektoriaus panašumas

Kai kurie vektorių panašumo skaičiavimo metodai:

  • Euklido atstumas
  • Kosinuso panašumas
  • Pearsono koreliacijos koeficientas (Pearson)
  • Pakoreguotas kosinusas
  • Hammingo atstumas
  • Manheteno atstumas
  • Čebyševo atstumas
  • Euklido atstumas


Kosinuso panašumas

Kosinuso panašumas matuoja dviejų vektorių panašumą, matuojant kampo tarp jų kosinuso vertę. 0 laipsnių kampo kosinuso vertė yra 1, o bet kurio kito kampo kosinuso vertė yra ne didesnė kaip 1; O mažiausia jo vertė yra -1. Taigi kampo tarp dviejų vektorių kosinuso vertė lemia, ar abu vektoriai nukreipti maždaug ta pačia kryptimi. Kai du vektoriai turi tą patį tašką, kosinuso panašumo vertė yra 1; Kai kampas tarp dviejų vektorių yra 90°, kosinuso panašumo vertė yra 0. Kai du vektoriai nukreipti priešingomis kryptimis, kosinuso panašumo vertė yra -1. Šis rezultatas nepriklauso nuo vektoriaus ilgio, tik nuo vektoriaus nukreipimo krypties. Kosinuso panašumas paprastai naudojamas teigiamose erdvėse, todėl pateikta vertė yra nuo -1 iki 1.

Kosinuso panašumas naudoja kampo tarp dviejų vektorių vektorinėje erdvėje kosinuso vertę kaip skirtumo tarp dviejų individų dydį. Kuo arčiau kosinuso vertė yra 1, tuo arčiau kampo yra 0 laipsnių, tai yra, tuo panašesni yra du vektoriai, o tai vadinama "kosinuso panašumu".



Pearsono koreliacijos koeficientas

Atsižvelgiant į du atsitiktinius kintamuosius X ir Y, Pearsono koreliacijos koeficientas gali būti naudojamas norint įvertinti, kiek jie yra susiję, naudojant šią formulę:



Žakardo koeficientas

Tarkime, kad yra du rinkiniai X ir Y (atkreipkite dėmesį, kad du čia nėra vektoriai), skaičiavimo formulė yra tokia:



Taškinis produktas

Kiekybinė sandauga, dar žinoma kaip skaliarinė sandauga ir taškinė sandauga, Euklido erdvėje vadinama vidine sandauga, o atitinkami elementai padauginami ir pridedami, o rezultatas yra skaliarinis dydis (t. Y. Skaičius). Tai reiškia dvejetainę operaciją, kuri priima du vektorius ant realaus skaičiaus R ir grąžina realų skaitinį skaliarą. Tai standartinis vidinis Euklido erdvės produktas.

Bendri atstumai

Minkowski atstumas

Minkowski Distane yra apibendrinta kelių atstumo matavimo formulių išraiška, kai p=1, Minkowski Distane yra Manheteno atstumas; Kai p=2, Minkowskio distanas yra Euklido atstumas; Minkowski Distane yra Čebyševo atstumo riba.



Manheteno atstumas



Euklido atstumas



Čebyševo atstumas



Hammingo atstumas

Informacijos teorijoje hemmingo atstumas tarp dviejų vienodų eilučių yra simbolių skaičius skirtingose padėtyse, atitinkančiose dvi eilutes. Tarkime, kad yra dvi eilutės: x=[x1,x2,...,xn] ir y=[y1,y2,...,yn], tada atstumas tarp jų yra:



kur II reiškia orientacinę funkciją, abu yra 1 už tą patį, kitaip jis yra 0.

KL skirtumas

Atsižvelgiant į atsitiktinį kintamąjį X ir du tikimybių skirstinius P ir Q, KL divergencija gali būti naudojama dviejų skirstinių skirtumui matuoti pagal šią formulę:




suvestinė

Pip sandaugos atstumas ir kosinuso panašumas dažnai naudojami vektorinių ar tekstinių duomenų panašumui matuoti。 Jis daugiausia naudojamas vektorių panašumui matuoti, pvz., dokumentų panašumui teksto gavybos ir natūralios kalbos apdorojimo arba informacijos gavimo, rekomendacijų sistemų ir kitose srityse. Jei naudojate modernų įterpimo modelį, pvz., Sentence-BERT ar kitus iš anksto apmokytus modelius, numatytoji išvestis paprastai normalizuojama, taigi "Taškų kaupimasisTai tinkamiausias variantas.

Nuoroda:

Hipersaito prisijungimas matomas.
Hipersaito prisijungimas matomas.
Hipersaito prisijungimas matomas.
Hipersaito prisijungimas matomas.




Ankstesnis:Sukurkite paprastą "Maven" konsolės projektą
Kitą:【AI】(14) Trumpas įvadas į atvirojo kodo vektorines duomenų bazes
Atsakomybės apribojimas:
Visa programinė įranga, programavimo medžiaga ar straipsniai, kuriuos skelbia Code Farmer Network, yra skirti tik mokymosi ir mokslinių tyrimų tikslams; Aukščiau nurodytas turinys negali būti naudojamas komerciniais ar neteisėtais tikslais, priešingu atveju vartotojai prisiima visas pasekmes. Šioje svetainėje pateikiama informacija gaunama iš interneto, o ginčai dėl autorių teisių neturi nieko bendra su šia svetaine. Turite visiškai ištrinti aukščiau pateiktą turinį iš savo kompiuterio per 24 valandas nuo atsisiuntimo. Jei jums patinka programa, palaikykite autentišką programinę įrangą, įsigykite registraciją ir gaukite geresnes autentiškas paslaugas. Jei yra kokių nors pažeidimų, susisiekite su mumis el. paštu.

Mail To:help@itsvse.com