Požiadavky: Naposledy, keď som písal článok o výbere modelu vkladania a získaní vektora, ktorý algoritmus by sa mal použiť na výpočet podobnosti vektorov po zavolaní modelu vkladania na získanie vektorovej hodnoty a uloženie do vektorovej databázy?
vektor
V lineárnej algebre sú vektory často definované v abstraktnejšom vektorovom priestore (známom aj ako lineárny priestor). Vektory sú základnými stavebnými kameňmi vo vektorovom priestore.
(Mnoho šípok predstavuje mnoho vektorov)
Vektorová podobnosť
Niektoré metódy výpočtu podobnosti vektorov:
- Euklidovská vzdialenosť
- Kosinusová podobnosť
- Pearsonov korelačný koeficient (Pearson)
- Upravený kosínus
- Hammingova vzdialenosť
- Manhattan Distance
- Čebyševská vzdialenosť
- Euklidovská vzdialenosť
Kosinusová podobnosť
Kosinusová podobnosť meria podobnosť medzi dvoma vektormi meraním kosínusovej hodnoty uhla medzi nimi. Kosínusová hodnota 0-stupňového uhla je 1, zatiaľ čo kosínusová hodnota akéhokoľvek iného uhla nie je väčšia ako 1; A jeho minimálna hodnota je -1. Takže kosínusová hodnota uhla medzi dvoma vektormi určuje, či oba vektory ukazujú približne rovnakým smerom. Keď majú dva vektory rovnaké smerovanie, hodnota kosínusovej podobnosti je 1; Keď je uhol medzi dvoma vektormi 90°, hodnota kosínusovej podobnosti je 0. Keď dva vektory smerujú opačnými smermi, hodnota kosínusovej podobnosti je -1. Tento výsledok je nezávislý od dĺžky vektora, iba od smeru jeho smerovania. Kosinusová podobnosť sa zvyčajne používa v kladných priestoroch, takže hodnota je medzi -1 a 1.
Kosinusová podobnosť používa kosínusovú hodnotu uhla medzi dvoma vektormi vo vektorovom priestore ako veľkosť rozdielu medzi dvoma jednotlivcami. Čím bližšie je hodnota kosínu k 1, tým bližšie je uhol k nule stupňov, teda tým podobnejšie sú oba vektory, čo sa nazýva "kosínusová podobnosť".
Pearsonov korelačný koeficient
Ak máme dve náhodné premenné X a Y, Pearsonov korelačný koeficient možno použiť na meranie ich korelácie pomocou nasledujúceho vzorca:
Jaccardov koeficient
Predpokladajme, že existujú dve množiny X a Y (všimnite si, že tu nie sú vektory), vzorec na výpočet je:
Skalárny súčin
Kvantitatívny súčin, známy aj ako skalárny súčin a skalárny súčin, sa v euklidovskom priestore nazýva skalárny súčin, pričom príslušné prvky sa násobia a sčítajú, výsledkom je skalárna veličina (t. j. číslo). Označuje binárnu operáciu, ktorá prijíma dva vektory na reálnom čísle R a vracia reálny numerický skalár. Je to štandardný skalárny súčin euklidovského priestoru.
Bežné vzdialenosti
Minkowskiho vzdialenosť
Minkowski Distane je zobecnený výraz viacerých vzorcov na meranie vzdialeností, keď p=1, Minkowski Distane je Manhattanova vzdialenosť; Keď p=2, Minkowskiho Distane je euklidovská vzdialenosť; Minkowskiho distane má formu limity Čebyševovej vzdialenosti.
Manhattan Distance
Euklidovská vzdialenosť
Čebyševská vzdialenosť
Hammingova vzdialenosť
V teórii informácií je Hemmingova vzdialenosť medzi dvoma rovnakými reťazcami počet znakov na rôznych pozíciách zodpovedajúcich týmto dvom reťazcom. Predpokladajme, že existujú dva reťazce: x=[x1,x2,...,xn] a y=[y1,y2,...,yn], potom vzdialenosť medzi nimi je:
kde II predstavuje indikatívnu funkciu, obe sú 1 pre rovnakú funkciu, inak je to 0.
KL Divergencia
Ak máme náhodnú premennú X a dve pravdepodobnostné rozdelenia P a Q, možno KL divergenciu použiť na meranie rozdielu medzi dvoma rozdeleniami pomocou nasledujúceho vzorca:
súhrn
Pipový súčin, vzdialenosť a kosínusová podobnosť sa často používajú na meranie podobnosti vo vektorových alebo textových údajoch。 Hlavne sa používa na meranie vektorovej podobnosti, ako je podobnosť dokumentov pri dolovaní textu a spracovaní prirodzeného jazyka, alebo na vyhľadávanie informácií, odporúčacích systémov a ďalších oblastiach. Ak používate moderný model vkladania ako Sentence-BERT alebo iné predtrénované modely, predvolený výstup je zvyčajne normalizovaný, takže "Akumulácia bodovJe to preferovaná možnosť.
Referencia:
Prihlásenie na hypertextový odkaz je viditeľné.
Prihlásenie na hypertextový odkaz je viditeľné.
Prihlásenie na hypertextový odkaz je viditeľné.
Prihlásenie na hypertextový odkaz je viditeľné. |