Vaatimukset: Viimeksi kun kirjoitin artikkelin upotusmallin valinnasta ja vektorin saamisesta, mitä algoritmia tulisi käyttää vektorien samankaltaisuuden laskemiseen upotusmallin kutsumisen jälkeen, jotta saadaan vektoriarvo ja tallennetaan se vektoritietokantaan?
vektori
Lineaarialgebrassa vektorit määritellään usein abstraktimmassa vektoriavaruudessa (tunnetaan myös nimellä lineaarinen avaruus). Vektorit ovat vektoriavaruuden perusrakennuspalikoita.
(Monet nuolet edustavat monia vektoreita)
Vektorien samankaltaisuus
Joitakin menetelmiä vektorien samankaltaisuuden laskemiseen:
- Euklidinen etäisyys
- Kosini samankaltaisuus
- Pearsonin korrelaatiokerroin (Pearson)
- Säädetty kosini
- Hamming-etäisyys
- Manhattan Distance
- Chebyshevin etäisyys
- Euklidinen etäisyys
Kosini samankaltaisuus
Kosini-samankaltaisuus mittaa kahden vektorin välisen samankaltaisuuden mittaamalla niiden välisen kulman kosiniarvon. 0-asteen kulman kosiniarvo on 1, kun taas minkä tahansa muun kulman kosiniarvo ei ole suurempi kuin 1; Ja sen minimiarvo on -1. Näin ollen kahden vektorin välisen kulman kosiniarvo määrittää, osoittavatko vektorit suunnilleen samaan suuntaan. Kun kahdella vektorilla on sama osoitus, kosini-samankaltaisuuden arvo on 1; Kun kahden vektorin välinen kulma on 90°, kosini-samankaltaisuuden arvo on 0. Kun kaksi vektoria osoittaa vastakkaisiin suuntiin, kosini-samankaltaisuuden arvo on -1. Tämä tulos on riippumaton vektorin pituudesta, vain vektorin suuntaa. Kosini-samankaltaisuutta käytetään yleensä positiivisissa avaruuksissa, joten annettu arvo on välillä -1 ja 1.
Kosini-samankaltaisuus käyttää kahden vektorin välisen kulman kosiniarvoa vektoriavaruudessa kahden yksilön välisen eron suuruutena. Mitä lähempänä kosiniarvo on 1, sitä lähempänä kulma on 0 astetta, eli sitä samankaltaisempia kaksi vektoria ovat, mitä kutsutaan "kosini-samankaltaisuudeksi".
Pearsonin korrelaatiokerroin
Kun on kaksi satunnaismuuttujaa, X ja Y, Pearsonin korrelaatiokerrointa voidaan käyttää mittaamaan näiden korreloimista seuraavalla kaavalla:
Jaccard-kerroin
Oletetaan, että on kaksi joukkoa X ja Y (huomaa, että nämä kaksi eivät ole vektoreita), laskentakaava on:
Sisätulo
Kvantitatiivinen tulo, joka tunnetaan myös nimillä skalaaritulo ja pistetulo, kutsutaan sisätuloksi euklidisessa avaruudessa, ja vastaavat alkiot kerrotaan ja yhteen, jolloin tuloksena on skalaarisuure (eli luku). Se viittaa binääriseen operaatioon, joka hyväksyy kaksi vektoria reaaliluvulla R ja palauttaa reaalisen numeerisen skalaarin. Se on euklidisen tilan standardi sisätulo.
Yleiset etäisyydet
Minkowskin etäisyys
Minkowski Distane on yleistetty lauseke useista etäisyyden mittauskaavoista, kun p=1, Minkowski Distane on Manhattanin etäisyys; Kun p=2, Minkowski Distane on euklidinen etäisyys; Minkowski Distane ilmenee Chebyshevin etäisyyden rajana.
Manhattan Distance
Euklidinen etäisyys
Chebyshevin etäisyys
Hamming-etäisyys
Informaatioteoriassa kahden yhtä suuren langan välinen Hemmingin etäisyys on eri paikoissa olevien merkkien lukumäärä, jotka vastaavat kahta merkkiä. Oletetaan, että on kaksi merkkijonoa: x=[x1,x2,...,xn] ja y=[y1,y2,...,yn], niin etäisyys näiden välillä on:
missä II edustaa indikatiivista funktiota, molemmat ovat 1 samalle, muuten se on 0.
KL:n poikkeama
Kun satunnaismuuttuja X ja kaksi todennäköisyysjakaumaa P ja Q, KL-divergenssin avulla voidaan mitata erotus näiden kahden jakauman välillä seuraavalla kaavalla:
yhteenveto
Pip-tulon etäisyys ja kosini-samankaltaisuus ovat usein käytössä samankaltaisuuden mittaamiseen vektori- tai tekstidatassa。 Sitä käytetään pääasiassa vektorien samankaltaisuuden mittaamiseen, kuten dokumenttien samankaltaisuuteen tekstin louhinnassa ja luonnollisen kielen käsittelyssä, tiedonhaussa, suositusjärjestelmissä ja muilla aloilla. Jos käytät modernia upotusmallia kuten Sentence-BERT tai muita esikoulutettuja malleja, oletustulos on yleensä normalisoitu, joten "PistekertymäSe on suosituin vaihtoehto.
Viittaus:
Hyperlinkin kirjautuminen on näkyvissä.
Hyperlinkin kirjautuminen on näkyvissä.
Hyperlinkin kirjautuminen on näkyvissä.
Hyperlinkin kirjautuminen on näkyvissä. |