[AI] (13) Stručný úvod do vektorové podobnosti a vzdálenosti

Malý hajzl · Zveřejněno 21.03.2025 13:37:09

Požadavky: Když jsem naposledy psal článek o výběru modelu vkládání a získání vektoru, který algoritmus by měl být použit k výpočtu podobnosti vektorů po vyvolání modelu vložení, aby se získala vektorová hodnota a uložila do vektorové databáze?

vektor

V lineární algebře jsou vektory často definovány v abstraktnějším vektorovém prostoru (také známém jako lineární prostor). Vektory jsou základními stavebními kameny ve vektorovém prostoru.

(Mnoho šipek představuje mnoho vektorů)

Vektorová podobnost

Některé metody výpočtu podobnosti vektorů:

Eukleidovská vzdálenost
Kosinusová podobnost
Pearsonův korelacní koeficient (Pearson)
Upravený kosinus
Hammingova vzdálenost
Manhattan Distance
Čebyševská vzdálenost
Eukleidovská vzdálenost

Kosinusová podobnost

Kosinusová podobnost měří podobnost mezi dvěma vektory měřením kosinové hodnoty úhlu mezi nimi. Kosinusová hodnota úhlu 0 stupňů je 1, zatímco kosinusová hodnota jakéhokoli jiného úhlu není větší než 1; A jeho minimální hodnota je -1. Kosinusová hodnota úhlu mezi těmito dvěma vektory tedy určuje, zda oba vektory směřují přibližně stejným směrem. Když mají dva vektory stejné směrování, hodnota kosinové podobnosti je 1; Když je úhel mezi dvěma vektory 90°, hodnota kosinusové podobnosti je 0. Když dva vektory směřují opačnými směry, hodnota kosinusové podobnosti je -1. Tento výsledek je nezávislý na délce vektoru, pouze na směru jeho směrování. Kosinusová podobnost se obvykle používá v kladných prostorech, takže daná hodnota je mezi -1 a 1.

Kosinusová podobnost používá kosinovou hodnotu úhlu mezi dvěma vektory ve vektorovém prostoru jako velikost rozdílu mezi dvěma jedinci. Čím blíže je hodnota kosiny k 1, tím blíže je úhel k nule stupňů, tedy tím podobnější jsou oba vektory, což se nazývá "kosinová podobnost".

Pearsonův korelační koeficient

Pro dvě náhodné veličiny X a Y lze použít Pearsonův korelační koeficient k měření jejich korelace pomocí následujícího vzorce:

Jaccardův koeficient

Předpokládejme, že existují dvě množiny X a Y (všimněte si, že zde nejsou vektory), vzorec pro výpočet je:

Skalární součin

Kvantitativní součin, známý také jako skalární součin a skalární součin, se v eukleidovském prostoru nazývá skalární součin, odpovídající prvky se násobí a sčítají, čímž vzniká skalární veličina (tj. číslo). Označuje binární operaci, která přijímá dva vektory na reálném čísle R a vrací reálný numerický skalár. Je to standardní skalární součin eukleidovského prostoru.

Běžné vzdálenosti

Minkowskiho vzdálenost

Minkowski Distane je zobecněný výraz vzorců pro měření více vzdáleností, kdy p=1, Minkowski Distane je Manhattanova vzdálenost; Když p=2, Minkowskiho distane je eukleidovská vzdálenost; Minkowski Distane má podobu limity Čebyševovy vzdálenosti.

Manhattan Distance

Eukleidovská vzdálenost

Čebyševská vzdálenost

Hammingova vzdálenost

V teorii informace je Hemmingova vzdálenost mezi dvěma stejnými řetězci počet znaků na různých pozicích odpovídajících těmto dvěma řetězcům. Předpokládejme, že existují dva řetězce: x=[x1,x2,...,xn] a y=[y1,y2,...,yn], pak vzdálenost mezi nimi je:

kde II představuje indikativní funkci, obě jsou 1 pro stejnou hodnotu, jinak je to 0.

KL Divergence

Pro danou náhodnou veličinu X a dvě pravděpodobnostní rozdělení P a Q lze KL divergenci použít k měření rozdílu mezi těmito dvěma rozděleními pomocí následujícího vzorce:

shrnutí

Vzdálenost v součinu pipů a kosinusová podobnost se často používají k měření podobnosti vektorových nebo textových dat。 Používá se hlavně k měření vektorové podobnosti, například podobnosti dokumentů při dolování textu a zpracování přirozeného jazyka, nebo k vyhledávání informací, doporučovacích systémů a dalších oborů. Pokud používáte moderní embedding model jako Sentence-BERT nebo jiné předtrénované modely, výchozí výstup je obvykle normalizovaný, takže "Hromadění tečekJe to preferovaná možnost.

Odkaz:

Přihlášení k hypertextovému odkazu je viditelné.
Přihlášení k hypertextovému odkazu je viditelné.
Přihlášení k hypertextovému odkazu je viditelné.
Přihlášení k hypertextovému odkazu je viditelné.

[AI] (13) Stručný úvod do vektorové podobnosti a vzdálenosti

Související příspěvky

Prohlížené sekce