Požadavky: Když jsem naposledy psal článek o výběru modelu vkládání a získání vektoru, který algoritmus by měl být použit k výpočtu podobnosti vektorů po vyvolání modelu vložení, aby se získala vektorová hodnota a uložila do vektorové databáze?
vektor
V lineární algebře jsou vektory často definovány v abstraktnějším vektorovém prostoru (také známém jako lineární prostor). Vektory jsou základními stavebními kameny ve vektorovém prostoru.
(Mnoho šipek představuje mnoho vektorů)
Vektorová podobnost
Některé metody výpočtu podobnosti vektorů:
- Eukleidovská vzdálenost
- Kosinusová podobnost
- Pearsonův korelacní koeficient (Pearson)
- Upravený kosinus
- Hammingova vzdálenost
- Manhattan Distance
- Čebyševská vzdálenost
- Eukleidovská vzdálenost
Kosinusová podobnost
Kosinusová podobnost měří podobnost mezi dvěma vektory měřením kosinové hodnoty úhlu mezi nimi. Kosinusová hodnota úhlu 0 stupňů je 1, zatímco kosinusová hodnota jakéhokoli jiného úhlu není větší než 1; A jeho minimální hodnota je -1. Kosinusová hodnota úhlu mezi těmito dvěma vektory tedy určuje, zda oba vektory směřují přibližně stejným směrem. Když mají dva vektory stejné směrování, hodnota kosinové podobnosti je 1; Když je úhel mezi dvěma vektory 90°, hodnota kosinusové podobnosti je 0. Když dva vektory směřují opačnými směry, hodnota kosinusové podobnosti je -1. Tento výsledek je nezávislý na délce vektoru, pouze na směru jeho směrování. Kosinusová podobnost se obvykle používá v kladných prostorech, takže daná hodnota je mezi -1 a 1.
Kosinusová podobnost používá kosinovou hodnotu úhlu mezi dvěma vektory ve vektorovém prostoru jako velikost rozdílu mezi dvěma jedinci. Čím blíže je hodnota kosiny k 1, tím blíže je úhel k nule stupňů, tedy tím podobnější jsou oba vektory, což se nazývá "kosinová podobnost".
Pearsonův korelační koeficient
Pro dvě náhodné veličiny X a Y lze použít Pearsonův korelační koeficient k měření jejich korelace pomocí následujícího vzorce:
Jaccardův koeficient
Předpokládejme, že existují dvě množiny X a Y (všimněte si, že zde nejsou vektory), vzorec pro výpočet je:
Skalární součin
Kvantitativní součin, známý také jako skalární součin a skalární součin, se v eukleidovském prostoru nazývá skalární součin, odpovídající prvky se násobí a sčítají, čímž vzniká skalární veličina (tj. číslo). Označuje binární operaci, která přijímá dva vektory na reálném čísle R a vrací reálný numerický skalár. Je to standardní skalární součin eukleidovského prostoru.
Běžné vzdálenosti
Minkowskiho vzdálenost
Minkowski Distane je zobecněný výraz vzorců pro měření více vzdáleností, kdy p=1, Minkowski Distane je Manhattanova vzdálenost; Když p=2, Minkowskiho distane je eukleidovská vzdálenost; Minkowski Distane má podobu limity Čebyševovy vzdálenosti.
Manhattan Distance
Eukleidovská vzdálenost
Čebyševská vzdálenost
Hammingova vzdálenost
V teorii informace je Hemmingova vzdálenost mezi dvěma stejnými řetězci počet znaků na různých pozicích odpovídajících těmto dvěma řetězcům. Předpokládejme, že existují dva řetězce: x=[x1,x2,...,xn] a y=[y1,y2,...,yn], pak vzdálenost mezi nimi je:
kde II představuje indikativní funkci, obě jsou 1 pro stejnou hodnotu, jinak je to 0.
KL Divergence
Pro danou náhodnou veličinu X a dvě pravděpodobnostní rozdělení P a Q lze KL divergenci použít k měření rozdílu mezi těmito dvěma rozděleními pomocí následujícího vzorce:
shrnutí
Vzdálenost v součinu pipů a kosinusová podobnost se často používají k měření podobnosti vektorových nebo textových dat。 Používá se hlavně k měření vektorové podobnosti, například podobnosti dokumentů při dolování textu a zpracování přirozeného jazyka, nebo k vyhledávání informací, doporučovacích systémů a dalších oborů. Pokud používáte moderní embedding model jako Sentence-BERT nebo jiné předtrénované modely, výchozí výstup je obvykle normalizovaný, takže "Hromadění tečekJe to preferovaná možnost.
Odkaz:
Přihlášení k hypertextovému odkazu je viditelné.
Přihlášení k hypertextovému odkazu je viditelné.
Přihlášení k hypertextovému odkazu je viditelné.
Přihlášení k hypertextovému odkazu je viditelné. |