[AI] (13) Lühike sissejuhatus vektorite sarnasusesse ja kaugusse

Väike sodi · Postitatud 21.03.2025 13:37:09

Nõuded: Viimati kirjutasin artikli embedding-mudeli valimisest ja vektori saamisest, millist algoritmi tuleks kasutada vektorisarnasuse arvutamiseks pärast embedding-mudeli kutsumist, et saada vektorväärtus ja salvestada see vektori andmebaasi?

Vektor

Lineaaralgebras defineeritakse vektoreid sageli abstraktsemas vektorruumis (tuntud ka kui lineaarruum). Vektorid on vektorruumi põhilised ehitusplokid.

(Paljud nooled tähistavad paljusid vektoreid)

Vektorisarnasus

Mõned meetodid vektorisarnasuse arvutamiseks:

Eukleidiline kaugus
Koosinuse sarnasus
Pearsoni korrelatsioonikordaja (Pearson)
Korrigeeritud kosinus
Hammingi kaugus
Manhattan Distance
Tšebõševi kaugus
Eukleidiline kaugus

Koosinuse sarnasus

Koosinuse sarnasus mõõdab kahe vektori sarnasust, mõõtes nendevahelise nurga kosinuse väärtust. 0-kraadise nurga koosinusväärtus on 1, samas kui mis tahes muu nurga kosiinusväärtus ei ole suurem kui 1; Ja selle minimaalne väärtus on -1. Seega määrab kahe vektori vahelise nurga kosinusväärtus, kas vektorid osutavad ligikaudu samas suunas. Kui kahel vektoril on sama osutamine, on kosinuse sarnasuse väärtus 1; Kui kahe vektori vaheline nurk on 90°, on kosiinuse sarnasuse väärtus 0. Kui kaks vektorit osutavad vastassuunas, on kosinuse sarnasuse väärtus -1. See tulemus on sõltumatu vektori pikkusest, ainult vektori suuna suunast. Positiivsetes ruumides kasutatakse tavaliselt koosinuse sarnasust, seega on antud väärtus vahemikus -1 kuni 1.

Koosinuse sarnasus kasutab vektorruumis kahe vektori vahelise nurga kosinuse väärtust kui kahe indiviidi suurust. Mida lähemal on koosinuse väärtus väärtusele 1, seda lähemal on nurk 0 kraadile, st seda sarnasemad on kaks vektorit, mida nimetatakse "koosinuse sarnasuseks".

Pearsoni korrelatsioonikordaja

Antud kahe juhusliku muutuja X ja Y korral saab Pearsoni korrelatsioonikordajaga mõõta, kui korreleeritud need kaks on, kasutades järgmist valemit:

Jaccardi koefitsient

Oletame, et on kaks hulka X ja Y (pane tähele, et need kaks siin ei ole vektorid), arvutamiseks on valem järgmine:

Punktide korrutis

Kvantitatiivset korrutiset, tuntud ka kui skalaartoode ja täppkorrutis, nimetatakse Eukleidilises ruumis siseproduktiks, vastavad elemendid korrutatakse ja liidetakse, ning tulemuseks on skalaarne suurus (st arv). See viitab binaarsele operatsioonile, mis aktsepteerib kahte vektorit reaalarvul R ja tagastab reaalarvulise skalaar. See on Eukleidese ruumi standardne siseprodukt.

Levinud kaugused

Minkowski distants

Minkowski Distane on üldistatud avaldis mitmest kauguse mõõtmise valemist, kus p=1, Minkowski Distane on Manhattani kaugus; Kui p=2, on Minkowski Distane Eukleidiline kaugus; Minkowski Distane on Tšebõševi distantsi piiri.

Manhattan Distance

Eukleidiline kaugus

Tšebõševi kaugus

Hammingi kaugus

Informatsiooniteoorias on kahe võrdse stringi vaheline Hemmingi kaugus tähemärkide arv erinevates positsioonides, mis vastavad kahele nöörile. Oletame, et on kaks stringi: x=[x1,x2,...,xn] ja y=[y1,y2,...,yn], siis nende vaheline kaugus on:

kus II esindab indikatiivfunktsiooni, on mõlemad 1 sama jaoks, muidu on see 0.

KL Divergens

Arvestades juhuslikku muutujat X ja kahte tõenäosusjaotust P ja Q, saab KL-divergentsi abil mõõta kahe jaotuse erinevust järgmise valemi abil:

Kokkuvõte

Pip-korrutise kaugust ja kosinuse sarnasust kasutatakse sageli vektor- või tekstiandmete sarnasuse mõõtmiseks。 Seda kasutatakse peamiselt vektorisarnasuse mõõtmiseks, näiteks dokumendi sarnasuse puhul tekstikaevandamisel ja loomuliku keele töötlemisel, infootsingul, soovitussüsteemidel ja muudes valdkondades. Kui kasutad kaasaegset manustamismudelit nagu Sentence-BERT või teisi eeltreenitud mudeleid, siis vaikimisi väljund normaliseeritakse, seega "Täppide kogunemineSee on eelistatud valik.

Viide:

Hüperlingi sisselogimine on nähtav.
Hüperlingi sisselogimine on nähtav.
Hüperlingi sisselogimine on nähtav.
Hüperlingi sisselogimine on nähtav.

[AI] (13) Lühike sissejuhatus vektorite sarnasusesse ja kaugusse

Seotud postitused

Vaadatud sektsioonid