Tento článok je zrkadlovým článkom o strojovom preklade, kliknite sem pre prechod na pôvodný článok.

Pohľad: 1009|Odpoveď: 0

[AI] (13) Krátky úvod do vektorovej podobnosti a vzdialenosti

[Kopírovať odkaz]
Zverejnené 2025-3-21 13:37:09 | | | |
Požiadavky: Naposledy, keď som písal článok o výbere modelu vkladania a získaní vektora, ktorý algoritmus by sa mal použiť na výpočet podobnosti vektorov po zavolaní modelu vkladania na získanie vektorovej hodnoty a uloženie do vektorovej databázy?

vektor

V lineárnej algebre sú vektory často definované v abstraktnejšom vektorovom priestore (známom aj ako lineárny priestor). Vektory sú základnými stavebnými kameňmi vo vektorovom priestore.


(Mnoho šípok predstavuje mnoho vektorov)

Vektorová podobnosť

Niektoré metódy výpočtu podobnosti vektorov:

  • Euklidovská vzdialenosť
  • Kosinusová podobnosť
  • Pearsonov korelačný koeficient (Pearson)
  • Upravený kosínus
  • Hammingova vzdialenosť
  • Manhattan Distance
  • Čebyševská vzdialenosť
  • Euklidovská vzdialenosť


Kosinusová podobnosť

Kosinusová podobnosť meria podobnosť medzi dvoma vektormi meraním kosínusovej hodnoty uhla medzi nimi. Kosínusová hodnota 0-stupňového uhla je 1, zatiaľ čo kosínusová hodnota akéhokoľvek iného uhla nie je väčšia ako 1; A jeho minimálna hodnota je -1. Takže kosínusová hodnota uhla medzi dvoma vektormi určuje, či oba vektory ukazujú približne rovnakým smerom. Keď majú dva vektory rovnaké smerovanie, hodnota kosínusovej podobnosti je 1; Keď je uhol medzi dvoma vektormi 90°, hodnota kosínusovej podobnosti je 0. Keď dva vektory smerujú opačnými smermi, hodnota kosínusovej podobnosti je -1. Tento výsledok je nezávislý od dĺžky vektora, iba od smeru jeho smerovania. Kosinusová podobnosť sa zvyčajne používa v kladných priestoroch, takže hodnota je medzi -1 a 1.

Kosinusová podobnosť používa kosínusovú hodnotu uhla medzi dvoma vektormi vo vektorovom priestore ako veľkosť rozdielu medzi dvoma jednotlivcami. Čím bližšie je hodnota kosínu k 1, tým bližšie je uhol k nule stupňov, teda tým podobnejšie sú oba vektory, čo sa nazýva "kosínusová podobnosť".



Pearsonov korelačný koeficient

Ak máme dve náhodné premenné X a Y, Pearsonov korelačný koeficient možno použiť na meranie ich korelácie pomocou nasledujúceho vzorca:



Jaccardov koeficient

Predpokladajme, že existujú dve množiny X a Y (všimnite si, že tu nie sú vektory), vzorec na výpočet je:



Skalárny súčin

Kvantitatívny súčin, známy aj ako skalárny súčin a skalárny súčin, sa v euklidovskom priestore nazýva skalárny súčin, pričom príslušné prvky sa násobia a sčítajú, výsledkom je skalárna veličina (t. j. číslo). Označuje binárnu operáciu, ktorá prijíma dva vektory na reálnom čísle R a vracia reálny numerický skalár. Je to štandardný skalárny súčin euklidovského priestoru.

Bežné vzdialenosti

Minkowskiho vzdialenosť

Minkowski Distane je zobecnený výraz viacerých vzorcov na meranie vzdialeností, keď p=1, Minkowski Distane je Manhattanova vzdialenosť; Keď p=2, Minkowskiho Distane je euklidovská vzdialenosť; Minkowskiho distane má formu limity Čebyševovej vzdialenosti.



Manhattan Distance



Euklidovská vzdialenosť



Čebyševská vzdialenosť



Hammingova vzdialenosť

V teórii informácií je Hemmingova vzdialenosť medzi dvoma rovnakými reťazcami počet znakov na rôznych pozíciách zodpovedajúcich týmto dvom reťazcom. Predpokladajme, že existujú dva reťazce: x=[x1,x2,...,xn] a y=[y1,y2,...,yn], potom vzdialenosť medzi nimi je:



kde II predstavuje indikatívnu funkciu, obe sú 1 pre rovnakú funkciu, inak je to 0.

KL Divergencia

Ak máme náhodnú premennú X a dve pravdepodobnostné rozdelenia P a Q, možno KL divergenciu použiť na meranie rozdielu medzi dvoma rozdeleniami pomocou nasledujúceho vzorca:




súhrn

Pipový súčin, vzdialenosť a kosínusová podobnosť sa často používajú na meranie podobnosti vo vektorových alebo textových údajoch。 Hlavne sa používa na meranie vektorovej podobnosti, ako je podobnosť dokumentov pri dolovaní textu a spracovaní prirodzeného jazyka, alebo na vyhľadávanie informácií, odporúčacích systémov a ďalších oblastiach. Ak používate moderný model vkladania ako Sentence-BERT alebo iné predtrénované modely, predvolený výstup je zvyčajne normalizovaný, takže "Akumulácia bodovJe to preferovaná možnosť.

Referencia:

Prihlásenie na hypertextový odkaz je viditeľné.
Prihlásenie na hypertextový odkaz je viditeľné.
Prihlásenie na hypertextový odkaz je viditeľné.
Prihlásenie na hypertextový odkaz je viditeľné.




Predchádzajúci:Vytvorte jednoduchý Maven konzolový projekt
Budúci:【AI】(14) Stručný úvod do open source vektorových databáz
Vyhlásenie:
Všetok softvér, programovacie materiály alebo články publikované spoločnosťou Code Farmer Network slúžia len na vzdelávacie a výskumné účely; Vyššie uvedený obsah nesmie byť použitý na komerčné alebo nezákonné účely, inak nesú všetky následky používateľmi. Informácie na tejto stránke pochádzajú z internetu a spory o autorské práva s touto stránkou nesúvisia. Musíte úplne vymazať vyššie uvedený obsah zo svojho počítača do 24 hodín od stiahnutia. Ak sa vám program páči, podporte originálny softvér, zakúpte si registráciu a získajte lepšie originálne služby. Ak dôjde k akémukoľvek porušeniu, kontaktujte nás prosím e-mailom.

Mail To:help@itsvse.com