Ez a cikk egy tükör gépi fordítás, kérjük, kattintson ide, hogy ugorjon az eredeti cikkre.

Nézet: 1009|Válasz: 0

[AI] (13) Rövid bevezetés a vektorok hasonlóságába és távolságába

[Linket másol]
Közzétéve: 2025-3-21 13:37:09 | | | |
Követelmények: Amikor legutóbb írtam egy cikket egy beágyazómodell kiválasztásáról és egy vektor megszerzéséről, melyik algoritmust kellene használni a vektor-hasonlóság kiszámítására, miután meghívtuk a beágyazási modellt, hogy megkapjuk a vektorértéket és tároljuk a vektoradatbázisban?

vektor

A lineáris algebrában a vektorokat gyakran egy absztraktabb vektortérben (más néven lineáris térben) definiálják. A vektorok az alapvető építőkövek a vektortérben.


(Sok nyíl sok vektort jelöl)

Vektor-hasonlóság

Néhány módszer a vektor-hasonlóság számítására:

  • Euklideszi távolság
  • Kozinusz hasonlóság
  • Pearson-korrelációs együttható (Pearson)
  • Kiállított koszinus
  • Hamming távolság
  • Manhattan Distance
  • Csebyshev távolság
  • Euklideszi távolság


Kozinusz hasonlóság

A koszinusz hasonlóság két vektor közötti hasonlóságot méri, a köztük lévő szög koszinuszértékének mérésével. A 0 fokos szög koszinuszértéke 1, míg bármely más szög koszinuszértéke nem nagyobb, mint 1; És a minimális értéke -1. Így a két vektor közötti szög koszinuszértéke határozza meg, hogy a két vektor nagyjából ugyanabba az irányba mutat-e. Ha két vektornak ugyanaz a célpontja, a koszszinusz hasonlóság értéke 1; Ha a két vektor közötti szög 90°, a koszinusz hasonlóság értéke 0. Ha két vektor ellentétes irányba mutat, a koszszinus hasonlóság értéke -1. Ez az eredmény független a vektor hosszától, csak a vektor irányának irányától függ. A koszinusz hasonlóságot általában pozitív terekben használják, így a megadott érték -1 és 1 között van.

A koszinusz hasonlóság a két vektor közötti szög koszinuszértékét használja a vektortérben, mint a két egyed közötti különbség nagyságát. Minél közelebb van a koszinusz érték 1-hez, annál közelebb van a szög 0 fokhoz, vagyis annál hasonlóbb a két vektor – ezt "koszinusz hasonlóságnak" nevezik.



Pearson korrelációs együttható

Két véletlen változó, X és Y esetén a Pearson-korrelációs együttható mérhető, hogy mennyire korrelálnak ezek a kettő, a következő képlettel:



Jaccard együttható

Tegyük fel, hogy két halmaz van, X és Y (megjegyzendő, hogy itt nem vektor), a számítási képlet a következő:



Pont-szorzatot

A kvantitatív szorzatot, más néven skalárszorzatot és pontszorzatot, az euklideszi térben belső szorzatnak nevezik, és a megfelelő elemeket szorozzák és adják össze, így az eredmény egy skalármennyiség (azaz szám). Ez egy bináris műveletet jelent, amely két vektort fogad el a valós számon, R, és egy valós numerikus skalárt ad vissza. Ez az euklideszi tér standard belső szorzata.

Gyakori távolságok

Minkowski távolság

A Minkowski Distane egy általánosított kifejezés több távolságmérési képletre, amikor p=1, Minkowski Distane a Manhattan távolsága; Amikor p=2, Minkowski Distane az euklideszi távolság; Minkowski Distane a Csebyshev távolság határa formájában jelenik meg.



Manhattan Distance



Euklideszi távolság



Csebyshev távolság



Hamming távolság

Az információelméletben a két egyenlő húr közötti szegés-távolság a két húrhoz tartozó különböző pozícióban lévő karakterek száma. Tegyük fel, hogy két string létezik: x=[x1,x2,...,xn] és y=[y1,y2,...,yn], akkor a kettő közötti távolság:



ahol II az indikatív függvényt jelöli, mindkettő 1 ugyanaz esetén, egyébként 0.

KL Divergencia

A véletlen változó X és a két valószínűségi eloszlás, P és Q esetén a KL divergencia a két eloszlás közötti különbség mérésére a következő képlettel alkalmazható:




összefoglalás

Pip-szorzattávolságot és koszinusz hasonlóságot gyakran alkalmaznak a vektor- vagy szöveges adatok hasonlóságának mérésére。 Főként vektor-hasonlóság mérésére használják, például dokumentum-hasonlóságot szövegbányászatban és természetes nyelvfeldolgozásban, információkeresésben, ajánlási rendszerekben és más területeken. Ha modern beágyazási modellt használsz, mint például a Sentence-BERT vagy más előre betanított modellek, az alapértelmezett kimenet általában normalizált, tehát "PontfelhalmozódásEz a preferált lehetőség.

Utalás:

A hiperlink bejelentkezés látható.
A hiperlink bejelentkezés látható.
A hiperlink bejelentkezés látható.
A hiperlink bejelentkezés látható.




Előző:Készíts egy egyszerű Maven konzolprojektet
Következő:【AI】(14) Rövid bevezetés a nyílt forráskódú vektoradatbázisokhoz
Lemondás:
A Code Farmer Network által közzétett összes szoftver, programozási anyag vagy cikk kizárólag tanulási és kutatási célokra szolgál; A fenti tartalmat nem szabad kereskedelmi vagy illegális célokra használni, különben a felhasználók viselik az összes következményet. Az oldalon található információk az internetről származnak, és a szerzői jogi vitáknak semmi köze ehhez az oldalhoz. A fenti tartalmat a letöltés után 24 órán belül teljesen törölni kell a számítógépéről. Ha tetszik a program, kérjük, támogassa a valódi szoftvert, vásároljon regisztrációt, és szerezzen jobb hiteles szolgáltatásokat. Ha bármilyen jogsértés történik, kérjük, vegye fel velünk a kapcsolatot e-mailben.

Mail To:help@itsvse.com