Követelmények: Amikor legutóbb írtam egy cikket egy beágyazómodell kiválasztásáról és egy vektor megszerzéséről, melyik algoritmust kellene használni a vektor-hasonlóság kiszámítására, miután meghívtuk a beágyazási modellt, hogy megkapjuk a vektorértéket és tároljuk a vektoradatbázisban?
vektor
A lineáris algebrában a vektorokat gyakran egy absztraktabb vektortérben (más néven lineáris térben) definiálják. A vektorok az alapvető építőkövek a vektortérben.
(Sok nyíl sok vektort jelöl)
Vektor-hasonlóság
Néhány módszer a vektor-hasonlóság számítására:
- Euklideszi távolság
- Kozinusz hasonlóság
- Pearson-korrelációs együttható (Pearson)
- Kiállított koszinus
- Hamming távolság
- Manhattan Distance
- Csebyshev távolság
- Euklideszi távolság
Kozinusz hasonlóság
A koszinusz hasonlóság két vektor közötti hasonlóságot méri, a köztük lévő szög koszinuszértékének mérésével. A 0 fokos szög koszinuszértéke 1, míg bármely más szög koszinuszértéke nem nagyobb, mint 1; És a minimális értéke -1. Így a két vektor közötti szög koszinuszértéke határozza meg, hogy a két vektor nagyjából ugyanabba az irányba mutat-e. Ha két vektornak ugyanaz a célpontja, a koszszinusz hasonlóság értéke 1; Ha a két vektor közötti szög 90°, a koszinusz hasonlóság értéke 0. Ha két vektor ellentétes irányba mutat, a koszszinus hasonlóság értéke -1. Ez az eredmény független a vektor hosszától, csak a vektor irányának irányától függ. A koszinusz hasonlóságot általában pozitív terekben használják, így a megadott érték -1 és 1 között van.
A koszinusz hasonlóság a két vektor közötti szög koszinuszértékét használja a vektortérben, mint a két egyed közötti különbség nagyságát. Minél közelebb van a koszinusz érték 1-hez, annál közelebb van a szög 0 fokhoz, vagyis annál hasonlóbb a két vektor – ezt "koszinusz hasonlóságnak" nevezik.
Pearson korrelációs együttható
Két véletlen változó, X és Y esetén a Pearson-korrelációs együttható mérhető, hogy mennyire korrelálnak ezek a kettő, a következő képlettel:
Jaccard együttható
Tegyük fel, hogy két halmaz van, X és Y (megjegyzendő, hogy itt nem vektor), a számítási képlet a következő:
Pont-szorzatot
A kvantitatív szorzatot, más néven skalárszorzatot és pontszorzatot, az euklideszi térben belső szorzatnak nevezik, és a megfelelő elemeket szorozzák és adják össze, így az eredmény egy skalármennyiség (azaz szám). Ez egy bináris műveletet jelent, amely két vektort fogad el a valós számon, R, és egy valós numerikus skalárt ad vissza. Ez az euklideszi tér standard belső szorzata.
Gyakori távolságok
Minkowski távolság
A Minkowski Distane egy általánosított kifejezés több távolságmérési képletre, amikor p=1, Minkowski Distane a Manhattan távolsága; Amikor p=2, Minkowski Distane az euklideszi távolság; Minkowski Distane a Csebyshev távolság határa formájában jelenik meg.
Manhattan Distance
Euklideszi távolság
Csebyshev távolság
Hamming távolság
Az információelméletben a két egyenlő húr közötti szegés-távolság a két húrhoz tartozó különböző pozícióban lévő karakterek száma. Tegyük fel, hogy két string létezik: x=[x1,x2,...,xn] és y=[y1,y2,...,yn], akkor a kettő közötti távolság:
ahol II az indikatív függvényt jelöli, mindkettő 1 ugyanaz esetén, egyébként 0.
KL Divergencia
A véletlen változó X és a két valószínűségi eloszlás, P és Q esetén a KL divergencia a két eloszlás közötti különbség mérésére a következő képlettel alkalmazható:
összefoglalás
Pip-szorzattávolságot és koszinusz hasonlóságot gyakran alkalmaznak a vektor- vagy szöveges adatok hasonlóságának mérésére。 Főként vektor-hasonlóság mérésére használják, például dokumentum-hasonlóságot szövegbányászatban és természetes nyelvfeldolgozásban, információkeresésben, ajánlási rendszerekben és más területeken. Ha modern beágyazási modellt használsz, mint például a Sentence-BERT vagy más előre betanított modellek, az alapértelmezett kimenet általában normalizált, tehát "PontfelhalmozódásEz a preferált lehetőség.
Utalás:
A hiperlink bejelentkezés látható.
A hiperlink bejelentkezés látható.
A hiperlink bejelentkezés látható.
A hiperlink bejelentkezés látható. |