[AI] (13) Rövid bevezetés a vektorok hasonlóságába és távolságába

Kis szemét · Közzétéve 2025. 03. 21. 13:37:09

Követelmények: Amikor legutóbb írtam egy cikket egy beágyazómodell kiválasztásáról és egy vektor megszerzéséről, melyik algoritmust kellene használni a vektor-hasonlóság kiszámítására, miután meghívtuk a beágyazási modellt, hogy megkapjuk a vektorértéket és tároljuk a vektoradatbázisban?

vektor

A lineáris algebrában a vektorokat gyakran egy absztraktabb vektortérben (más néven lineáris térben) definiálják. A vektorok az alapvető építőkövek a vektortérben.

(Sok nyíl sok vektort jelöl)

Vektor-hasonlóság

Néhány módszer a vektor-hasonlóság számítására:

Euklideszi távolság
Kozinusz hasonlóság
Pearson-korrelációs együttható (Pearson)
Kiállított koszinus
Hamming távolság
Manhattan Distance
Csebyshev távolság
Euklideszi távolság

Kozinusz hasonlóság

A koszinusz hasonlóság két vektor közötti hasonlóságot méri, a köztük lévő szög koszinuszértékének mérésével. A 0 fokos szög koszinuszértéke 1, míg bármely más szög koszinuszértéke nem nagyobb, mint 1; És a minimális értéke -1. Így a két vektor közötti szög koszinuszértéke határozza meg, hogy a két vektor nagyjából ugyanabba az irányba mutat-e. Ha két vektornak ugyanaz a célpontja, a koszszinusz hasonlóság értéke 1; Ha a két vektor közötti szög 90°, a koszinusz hasonlóság értéke 0. Ha két vektor ellentétes irányba mutat, a koszszinus hasonlóság értéke -1. Ez az eredmény független a vektor hosszától, csak a vektor irányának irányától függ. A koszinusz hasonlóságot általában pozitív terekben használják, így a megadott érték -1 és 1 között van.

A koszinusz hasonlóság a két vektor közötti szög koszinuszértékét használja a vektortérben, mint a két egyed közötti különbség nagyságát. Minél közelebb van a koszinusz érték 1-hez, annál közelebb van a szög 0 fokhoz, vagyis annál hasonlóbb a két vektor – ezt "koszinusz hasonlóságnak" nevezik.

Pearson korrelációs együttható

Két véletlen változó, X és Y esetén a Pearson-korrelációs együttható mérhető, hogy mennyire korrelálnak ezek a kettő, a következő képlettel:

Jaccard együttható

Tegyük fel, hogy két halmaz van, X és Y (megjegyzendő, hogy itt nem vektor), a számítási képlet a következő:

Pont-szorzatot

A kvantitatív szorzatot, más néven skalárszorzatot és pontszorzatot, az euklideszi térben belső szorzatnak nevezik, és a megfelelő elemeket szorozzák és adják össze, így az eredmény egy skalármennyiség (azaz szám). Ez egy bináris műveletet jelent, amely két vektort fogad el a valós számon, R, és egy valós numerikus skalárt ad vissza. Ez az euklideszi tér standard belső szorzata.

Gyakori távolságok

Minkowski távolság

A Minkowski Distane egy általánosított kifejezés több távolságmérési képletre, amikor p=1, Minkowski Distane a Manhattan távolsága; Amikor p=2, Minkowski Distane az euklideszi távolság; Minkowski Distane a Csebyshev távolság határa formájában jelenik meg.

Manhattan Distance

Euklideszi távolság

Csebyshev távolság

Hamming távolság

Az információelméletben a két egyenlő húr közötti szegés-távolság a két húrhoz tartozó különböző pozícióban lévő karakterek száma. Tegyük fel, hogy két string létezik: x=[x1,x2,...,xn] és y=[y1,y2,...,yn], akkor a kettő közötti távolság:

ahol II az indikatív függvényt jelöli, mindkettő 1 ugyanaz esetén, egyébként 0.

KL Divergencia

A véletlen változó X és a két valószínűségi eloszlás, P és Q esetén a KL divergencia a két eloszlás közötti különbség mérésére a következő képlettel alkalmazható:

összefoglalás

Pip-szorzattávolságot és koszinusz hasonlóságot gyakran alkalmaznak a vektor- vagy szöveges adatok hasonlóságának mérésére。 Főként vektor-hasonlóság mérésére használják, például dokumentum-hasonlóságot szövegbányászatban és természetes nyelvfeldolgozásban, információkeresésben, ajánlási rendszerekben és más területeken. Ha modern beágyazási modellt használsz, mint például a Sentence-BERT vagy más előre betanított modellek, az alapértelmezett kimenet általában normalizált, tehát "PontfelhalmozódásEz a preferált lehetőség.

Utalás:

A hiperlink bejelentkezés látható.
A hiperlink bejelentkezés látható.
A hiperlink bejelentkezés látható.
A hiperlink bejelentkezés látható.

[AI] (13) Rövid bevezetés a vektorok hasonlóságába és távolságába

Kapcsolódó bejegyzések

Megtekintett szakaszok