Nõuded: Viimati kirjutasin artikli embedding-mudeli valimisest ja vektori saamisest, millist algoritmi tuleks kasutada vektorisarnasuse arvutamiseks pärast embedding-mudeli kutsumist, et saada vektorväärtus ja salvestada see vektori andmebaasi?
Vektor
Lineaaralgebras defineeritakse vektoreid sageli abstraktsemas vektorruumis (tuntud ka kui lineaarruum). Vektorid on vektorruumi põhilised ehitusplokid.
(Paljud nooled tähistavad paljusid vektoreid)
Vektorisarnasus
Mõned meetodid vektorisarnasuse arvutamiseks:
- Eukleidiline kaugus
- Koosinuse sarnasus
- Pearsoni korrelatsioonikordaja (Pearson)
- Korrigeeritud kosinus
- Hammingi kaugus
- Manhattan Distance
- Tšebõševi kaugus
- Eukleidiline kaugus
Koosinuse sarnasus
Koosinuse sarnasus mõõdab kahe vektori sarnasust, mõõtes nendevahelise nurga kosinuse väärtust. 0-kraadise nurga koosinusväärtus on 1, samas kui mis tahes muu nurga kosiinusväärtus ei ole suurem kui 1; Ja selle minimaalne väärtus on -1. Seega määrab kahe vektori vahelise nurga kosinusväärtus, kas vektorid osutavad ligikaudu samas suunas. Kui kahel vektoril on sama osutamine, on kosinuse sarnasuse väärtus 1; Kui kahe vektori vaheline nurk on 90°, on kosiinuse sarnasuse väärtus 0. Kui kaks vektorit osutavad vastassuunas, on kosinuse sarnasuse väärtus -1. See tulemus on sõltumatu vektori pikkusest, ainult vektori suuna suunast. Positiivsetes ruumides kasutatakse tavaliselt koosinuse sarnasust, seega on antud väärtus vahemikus -1 kuni 1.
Koosinuse sarnasus kasutab vektorruumis kahe vektori vahelise nurga kosinuse väärtust kui kahe indiviidi suurust. Mida lähemal on koosinuse väärtus väärtusele 1, seda lähemal on nurk 0 kraadile, st seda sarnasemad on kaks vektorit, mida nimetatakse "koosinuse sarnasuseks".
Pearsoni korrelatsioonikordaja
Antud kahe juhusliku muutuja X ja Y korral saab Pearsoni korrelatsioonikordajaga mõõta, kui korreleeritud need kaks on, kasutades järgmist valemit:
Jaccardi koefitsient
Oletame, et on kaks hulka X ja Y (pane tähele, et need kaks siin ei ole vektorid), arvutamiseks on valem järgmine:
Punktide korrutis
Kvantitatiivset korrutiset, tuntud ka kui skalaartoode ja täppkorrutis, nimetatakse Eukleidilises ruumis siseproduktiks, vastavad elemendid korrutatakse ja liidetakse, ning tulemuseks on skalaarne suurus (st arv). See viitab binaarsele operatsioonile, mis aktsepteerib kahte vektorit reaalarvul R ja tagastab reaalarvulise skalaar. See on Eukleidese ruumi standardne siseprodukt.
Levinud kaugused
Minkowski distants
Minkowski Distane on üldistatud avaldis mitmest kauguse mõõtmise valemist, kus p=1, Minkowski Distane on Manhattani kaugus; Kui p=2, on Minkowski Distane Eukleidiline kaugus; Minkowski Distane on Tšebõševi distantsi piiri.
Manhattan Distance
Eukleidiline kaugus
Tšebõševi kaugus
Hammingi kaugus
Informatsiooniteoorias on kahe võrdse stringi vaheline Hemmingi kaugus tähemärkide arv erinevates positsioonides, mis vastavad kahele nöörile. Oletame, et on kaks stringi: x=[x1,x2,...,xn] ja y=[y1,y2,...,yn], siis nende vaheline kaugus on:
kus II esindab indikatiivfunktsiooni, on mõlemad 1 sama jaoks, muidu on see 0.
KL Divergens
Arvestades juhuslikku muutujat X ja kahte tõenäosusjaotust P ja Q, saab KL-divergentsi abil mõõta kahe jaotuse erinevust järgmise valemi abil:
Kokkuvõte
Pip-korrutise kaugust ja kosinuse sarnasust kasutatakse sageli vektor- või tekstiandmete sarnasuse mõõtmiseks。 Seda kasutatakse peamiselt vektorisarnasuse mõõtmiseks, näiteks dokumendi sarnasuse puhul tekstikaevandamisel ja loomuliku keele töötlemisel, infootsingul, soovitussüsteemidel ja muudes valdkondades. Kui kasutad kaasaegset manustamismudelit nagu Sentence-BERT või teisi eeltreenitud mudeleid, siis vaikimisi väljund normaliseeritakse, seega "Täppide kogunemineSee on eelistatud valik.
Viide:
Hüperlingi sisselogimine on nähtav.
Hüperlingi sisselogimine on nähtav.
Hüperlingi sisselogimine on nähtav.
Hüperlingi sisselogimine on nähtav. |