Tento článek je zrcadlovým článkem o strojovém překladu, klikněte zde pro přechod na původní článek.

Pohled: 1009|Odpověď: 0

[AI] (13) Stručný úvod do vektorové podobnosti a vzdálenosti

[Kopírovat odkaz]
Zveřejněno 2025-3-21 13:37:09 | | | |
Požadavky: Když jsem naposledy psal článek o výběru modelu vkládání a získání vektoru, který algoritmus by měl být použit k výpočtu podobnosti vektorů po vyvolání modelu vložení, aby se získala vektorová hodnota a uložila do vektorové databáze?

vektor

V lineární algebře jsou vektory často definovány v abstraktnějším vektorovém prostoru (také známém jako lineární prostor). Vektory jsou základními stavebními kameny ve vektorovém prostoru.


(Mnoho šipek představuje mnoho vektorů)

Vektorová podobnost

Některé metody výpočtu podobnosti vektorů:

  • Eukleidovská vzdálenost
  • Kosinusová podobnost
  • Pearsonův korelacní koeficient (Pearson)
  • Upravený kosinus
  • Hammingova vzdálenost
  • Manhattan Distance
  • Čebyševská vzdálenost
  • Eukleidovská vzdálenost


Kosinusová podobnost

Kosinusová podobnost měří podobnost mezi dvěma vektory měřením kosinové hodnoty úhlu mezi nimi. Kosinusová hodnota úhlu 0 stupňů je 1, zatímco kosinusová hodnota jakéhokoli jiného úhlu není větší než 1; A jeho minimální hodnota je -1. Kosinusová hodnota úhlu mezi těmito dvěma vektory tedy určuje, zda oba vektory směřují přibližně stejným směrem. Když mají dva vektory stejné směrování, hodnota kosinové podobnosti je 1; Když je úhel mezi dvěma vektory 90°, hodnota kosinusové podobnosti je 0. Když dva vektory směřují opačnými směry, hodnota kosinusové podobnosti je -1. Tento výsledek je nezávislý na délce vektoru, pouze na směru jeho směrování. Kosinusová podobnost se obvykle používá v kladných prostorech, takže daná hodnota je mezi -1 a 1.

Kosinusová podobnost používá kosinovou hodnotu úhlu mezi dvěma vektory ve vektorovém prostoru jako velikost rozdílu mezi dvěma jedinci. Čím blíže je hodnota kosiny k 1, tím blíže je úhel k nule stupňů, tedy tím podobnější jsou oba vektory, což se nazývá "kosinová podobnost".



Pearsonův korelační koeficient

Pro dvě náhodné veličiny X a Y lze použít Pearsonův korelační koeficient k měření jejich korelace pomocí následujícího vzorce:



Jaccardův koeficient

Předpokládejme, že existují dvě množiny X a Y (všimněte si, že zde nejsou vektory), vzorec pro výpočet je:



Skalární součin

Kvantitativní součin, známý také jako skalární součin a skalární součin, se v eukleidovském prostoru nazývá skalární součin, odpovídající prvky se násobí a sčítají, čímž vzniká skalární veličina (tj. číslo). Označuje binární operaci, která přijímá dva vektory na reálném čísle R a vrací reálný numerický skalár. Je to standardní skalární součin eukleidovského prostoru.

Běžné vzdálenosti

Minkowskiho vzdálenost

Minkowski Distane je zobecněný výraz vzorců pro měření více vzdáleností, kdy p=1, Minkowski Distane je Manhattanova vzdálenost; Když p=2, Minkowskiho distane je eukleidovská vzdálenost; Minkowski Distane má podobu limity Čebyševovy vzdálenosti.



Manhattan Distance



Eukleidovská vzdálenost



Čebyševská vzdálenost



Hammingova vzdálenost

V teorii informace je Hemmingova vzdálenost mezi dvěma stejnými řetězci počet znaků na různých pozicích odpovídajících těmto dvěma řetězcům. Předpokládejme, že existují dva řetězce: x=[x1,x2,...,xn] a y=[y1,y2,...,yn], pak vzdálenost mezi nimi je:



kde II představuje indikativní funkci, obě jsou 1 pro stejnou hodnotu, jinak je to 0.

KL Divergence

Pro danou náhodnou veličinu X a dvě pravděpodobnostní rozdělení P a Q lze KL divergenci použít k měření rozdílu mezi těmito dvěma rozděleními pomocí následujícího vzorce:




shrnutí

Vzdálenost v součinu pipů a kosinusová podobnost se často používají k měření podobnosti vektorových nebo textových dat。 Používá se hlavně k měření vektorové podobnosti, například podobnosti dokumentů při dolování textu a zpracování přirozeného jazyka, nebo k vyhledávání informací, doporučovacích systémů a dalších oborů. Pokud používáte moderní embedding model jako Sentence-BERT nebo jiné předtrénované modely, výchozí výstup je obvykle normalizovaný, takže "Hromadění tečekJe to preferovaná možnost.

Odkaz:

Přihlášení k hypertextovému odkazu je viditelné.
Přihlášení k hypertextovému odkazu je viditelné.
Přihlášení k hypertextovému odkazu je viditelné.
Přihlášení k hypertextovému odkazu je viditelné.




Předchozí:Vytvořte jednoduchý projekt pro konzoli Maven
Další:【AI】(14) Stručný úvod do open source vektorových databází
Zřeknutí se:
Veškerý software, programovací materiály nebo články publikované organizací Code Farmer Network slouží pouze k učení a výzkumu; Výše uvedený obsah nesmí být používán pro komerční ani nelegální účely, jinak nesou všechny důsledky uživatelé. Informace na tomto webu pocházejí z internetu a spory o autorská práva s tímto webem nesouvisí. Musíte výše uvedený obsah ze svého počítače zcela smazat do 24 hodin od stažení. Pokud se vám program líbí, podporujte prosím originální software, kupte si registraci a získejte lepší skutečné služby. Pokud dojde k jakémukoli porušení, kontaktujte nás prosím e-mailem.

Mail To:help@itsvse.com