Reikalavimai: Paskutinį kartą parašiau straipsnį apie įterpimo modelio pasirinkimą ir vektoriaus gavimą, koks algoritmas turėtų būti naudojamas vektoriaus panašumui apskaičiuoti iškvietus įterpimo modelį, kad gautumėte vektoriaus reikšmę ir išsaugotumėte ją vektorių duomenų bazėje?
vektorius
Tiesinėje algebroje vektoriai dažnai apibrėžiami abstraktesnėje vektorinėje erdvėje (taip pat vadinamoje linijine erdve). Vektoriai yra pagrindiniai vektorinės erdvės blokai.
(Daug rodyklių reiškia daug vektorių)
Vektoriaus panašumas
Kai kurie vektorių panašumo skaičiavimo metodai:
- Euklido atstumas
- Kosinuso panašumas
- Pearsono koreliacijos koeficientas (Pearson)
- Pakoreguotas kosinusas
- Hammingo atstumas
- Manheteno atstumas
- Čebyševo atstumas
- Euklido atstumas
Kosinuso panašumas
Kosinuso panašumas matuoja dviejų vektorių panašumą, matuojant kampo tarp jų kosinuso vertę. 0 laipsnių kampo kosinuso vertė yra 1, o bet kurio kito kampo kosinuso vertė yra ne didesnė kaip 1; O mažiausia jo vertė yra -1. Taigi kampo tarp dviejų vektorių kosinuso vertė lemia, ar abu vektoriai nukreipti maždaug ta pačia kryptimi. Kai du vektoriai turi tą patį tašką, kosinuso panašumo vertė yra 1; Kai kampas tarp dviejų vektorių yra 90°, kosinuso panašumo vertė yra 0. Kai du vektoriai nukreipti priešingomis kryptimis, kosinuso panašumo vertė yra -1. Šis rezultatas nepriklauso nuo vektoriaus ilgio, tik nuo vektoriaus nukreipimo krypties. Kosinuso panašumas paprastai naudojamas teigiamose erdvėse, todėl pateikta vertė yra nuo -1 iki 1.
Kosinuso panašumas naudoja kampo tarp dviejų vektorių vektorinėje erdvėje kosinuso vertę kaip skirtumo tarp dviejų individų dydį. Kuo arčiau kosinuso vertė yra 1, tuo arčiau kampo yra 0 laipsnių, tai yra, tuo panašesni yra du vektoriai, o tai vadinama "kosinuso panašumu".
Pearsono koreliacijos koeficientas
Atsižvelgiant į du atsitiktinius kintamuosius X ir Y, Pearsono koreliacijos koeficientas gali būti naudojamas norint įvertinti, kiek jie yra susiję, naudojant šią formulę:
Žakardo koeficientas
Tarkime, kad yra du rinkiniai X ir Y (atkreipkite dėmesį, kad du čia nėra vektoriai), skaičiavimo formulė yra tokia:
Taškinis produktas
Kiekybinė sandauga, dar žinoma kaip skaliarinė sandauga ir taškinė sandauga, Euklido erdvėje vadinama vidine sandauga, o atitinkami elementai padauginami ir pridedami, o rezultatas yra skaliarinis dydis (t. Y. Skaičius). Tai reiškia dvejetainę operaciją, kuri priima du vektorius ant realaus skaičiaus R ir grąžina realų skaitinį skaliarą. Tai standartinis vidinis Euklido erdvės produktas.
Bendri atstumai
Minkowski atstumas
Minkowski Distane yra apibendrinta kelių atstumo matavimo formulių išraiška, kai p=1, Minkowski Distane yra Manheteno atstumas; Kai p=2, Minkowskio distanas yra Euklido atstumas; Minkowski Distane yra Čebyševo atstumo riba.
Manheteno atstumas
Euklido atstumas
Čebyševo atstumas
Hammingo atstumas
Informacijos teorijoje hemmingo atstumas tarp dviejų vienodų eilučių yra simbolių skaičius skirtingose padėtyse, atitinkančiose dvi eilutes. Tarkime, kad yra dvi eilutės: x=[x1,x2,...,xn] ir y=[y1,y2,...,yn], tada atstumas tarp jų yra:
kur II reiškia orientacinę funkciją, abu yra 1 už tą patį, kitaip jis yra 0.
KL skirtumas
Atsižvelgiant į atsitiktinį kintamąjį X ir du tikimybių skirstinius P ir Q, KL divergencija gali būti naudojama dviejų skirstinių skirtumui matuoti pagal šią formulę:
suvestinė
Pip sandaugos atstumas ir kosinuso panašumas dažnai naudojami vektorinių ar tekstinių duomenų panašumui matuoti。 Jis daugiausia naudojamas vektorių panašumui matuoti, pvz., dokumentų panašumui teksto gavybos ir natūralios kalbos apdorojimo arba informacijos gavimo, rekomendacijų sistemų ir kitose srityse. Jei naudojate modernų įterpimo modelį, pvz., Sentence-BERT ar kitus iš anksto apmokytus modelius, numatytoji išvestis paprastai normalizuojama, taigi "Taškų kaupimasisTai tinkamiausias variantas.
Nuoroda:
Hipersaito prisijungimas matomas.
Hipersaito prisijungimas matomas.
Hipersaito prisijungimas matomas.
Hipersaito prisijungimas matomas. |