[AI] (13) Lyhyt johdanto vektorien samankaltaisuuteen ja etäisyyteen

Pikku roisto · Julkaistu 21.3.2025 13.37.09

Vaatimukset: Viimeksi kun kirjoitin artikkelin upotusmallin valinnasta ja vektorin saamisesta, mitä algoritmia tulisi käyttää vektorien samankaltaisuuden laskemiseen upotusmallin kutsumisen jälkeen, jotta saadaan vektoriarvo ja tallennetaan se vektoritietokantaan?

vektori

Lineaarialgebrassa vektorit määritellään usein abstraktimmassa vektoriavaruudessa (tunnetaan myös nimellä lineaarinen avaruus). Vektorit ovat vektoriavaruuden perusrakennuspalikoita.

(Monet nuolet edustavat monia vektoreita)

Vektorien samankaltaisuus

Joitakin menetelmiä vektorien samankaltaisuuden laskemiseen:

Euklidinen etäisyys
Kosini samankaltaisuus
Pearsonin korrelaatiokerroin (Pearson)
Säädetty kosini
Hamming-etäisyys
Manhattan Distance
Chebyshevin etäisyys
Euklidinen etäisyys

Kosini samankaltaisuus

Kosini-samankaltaisuus mittaa kahden vektorin välisen samankaltaisuuden mittaamalla niiden välisen kulman kosiniarvon. 0-asteen kulman kosiniarvo on 1, kun taas minkä tahansa muun kulman kosiniarvo ei ole suurempi kuin 1; Ja sen minimiarvo on -1. Näin ollen kahden vektorin välisen kulman kosiniarvo määrittää, osoittavatko vektorit suunnilleen samaan suuntaan. Kun kahdella vektorilla on sama osoitus, kosini-samankaltaisuuden arvo on 1; Kun kahden vektorin välinen kulma on 90°, kosini-samankaltaisuuden arvo on 0. Kun kaksi vektoria osoittaa vastakkaisiin suuntiin, kosini-samankaltaisuuden arvo on -1. Tämä tulos on riippumaton vektorin pituudesta, vain vektorin suuntaa. Kosini-samankaltaisuutta käytetään yleensä positiivisissa avaruuksissa, joten annettu arvo on välillä -1 ja 1.

Kosini-samankaltaisuus käyttää kahden vektorin välisen kulman kosiniarvoa vektoriavaruudessa kahden yksilön välisen eron suuruutena. Mitä lähempänä kosiniarvo on 1, sitä lähempänä kulma on 0 astetta, eli sitä samankaltaisempia kaksi vektoria ovat, mitä kutsutaan "kosini-samankaltaisuudeksi".

Pearsonin korrelaatiokerroin

Kun on kaksi satunnaismuuttujaa, X ja Y, Pearsonin korrelaatiokerrointa voidaan käyttää mittaamaan näiden korreloimista seuraavalla kaavalla:

Jaccard-kerroin

Oletetaan, että on kaksi joukkoa X ja Y (huomaa, että nämä kaksi eivät ole vektoreita), laskentakaava on:

Sisätulo

Kvantitatiivinen tulo, joka tunnetaan myös nimillä skalaaritulo ja pistetulo, kutsutaan sisätuloksi euklidisessa avaruudessa, ja vastaavat alkiot kerrotaan ja yhteen, jolloin tuloksena on skalaarisuure (eli luku). Se viittaa binääriseen operaatioon, joka hyväksyy kaksi vektoria reaaliluvulla R ja palauttaa reaalisen numeerisen skalaarin. Se on euklidisen tilan standardi sisätulo.

Yleiset etäisyydet

Minkowskin etäisyys

Minkowski Distane on yleistetty lauseke useista etäisyyden mittauskaavoista, kun p=1, Minkowski Distane on Manhattanin etäisyys; Kun p=2, Minkowski Distane on euklidinen etäisyys; Minkowski Distane ilmenee Chebyshevin etäisyyden rajana.

Manhattan Distance

Euklidinen etäisyys

Chebyshevin etäisyys

Hamming-etäisyys

Informaatioteoriassa kahden yhtä suuren langan välinen Hemmingin etäisyys on eri paikoissa olevien merkkien lukumäärä, jotka vastaavat kahta merkkiä. Oletetaan, että on kaksi merkkijonoa: x=[x1,x2,...,xn] ja y=[y1,y2,...,yn], niin etäisyys näiden välillä on:

missä II edustaa indikatiivista funktiota, molemmat ovat 1 samalle, muuten se on 0.

KL:n poikkeama

Kun satunnaismuuttuja X ja kaksi todennäköisyysjakaumaa P ja Q, KL-divergenssin avulla voidaan mitata erotus näiden kahden jakauman välillä seuraavalla kaavalla:

yhteenveto

Pip-tulon etäisyys ja kosini-samankaltaisuus ovat usein käytössä samankaltaisuuden mittaamiseen vektori- tai tekstidatassa。 Sitä käytetään pääasiassa vektorien samankaltaisuuden mittaamiseen, kuten dokumenttien samankaltaisuuteen tekstin louhinnassa ja luonnollisen kielen käsittelyssä, tiedonhaussa, suositusjärjestelmissä ja muilla aloilla. Jos käytät modernia upotusmallia kuten Sentence-BERT tai muita esikoulutettuja malleja, oletustulos on yleensä normalisoitu, joten "PistekertymäSe on suosituin vaihtoehto.

Viittaus:

Hyperlinkin kirjautuminen on näkyvissä.
Hyperlinkin kirjautuminen on näkyvissä.
Hyperlinkin kirjautuminen on näkyvissä.
Hyperlinkin kirjautuminen on näkyvissä.

[AI] (13) Lyhyt johdanto vektorien samankaltaisuuteen ja etäisyyteen

Aiheeseen liittyvät julkaisut

Katsotut osuudet