Tämä artikkeli on konekäännöksen peiliartikkeli, klikkaa tästä siirtyäksesi alkuperäiseen artikkeliin.

Näkymä: 1009|Vastaus: 0

[AI] (13) Lyhyt johdanto vektorien samankaltaisuuteen ja etäisyyteen

[Kopioi linkki]
Julkaistu 2025-3-21 13:37:09 | | | |
Vaatimukset: Viimeksi kun kirjoitin artikkelin upotusmallin valinnasta ja vektorin saamisesta, mitä algoritmia tulisi käyttää vektorien samankaltaisuuden laskemiseen upotusmallin kutsumisen jälkeen, jotta saadaan vektoriarvo ja tallennetaan se vektoritietokantaan?

vektori

Lineaarialgebrassa vektorit määritellään usein abstraktimmassa vektoriavaruudessa (tunnetaan myös nimellä lineaarinen avaruus). Vektorit ovat vektoriavaruuden perusrakennuspalikoita.


(Monet nuolet edustavat monia vektoreita)

Vektorien samankaltaisuus

Joitakin menetelmiä vektorien samankaltaisuuden laskemiseen:

  • Euklidinen etäisyys
  • Kosini samankaltaisuus
  • Pearsonin korrelaatiokerroin (Pearson)
  • Säädetty kosini
  • Hamming-etäisyys
  • Manhattan Distance
  • Chebyshevin etäisyys
  • Euklidinen etäisyys


Kosini samankaltaisuus

Kosini-samankaltaisuus mittaa kahden vektorin välisen samankaltaisuuden mittaamalla niiden välisen kulman kosiniarvon. 0-asteen kulman kosiniarvo on 1, kun taas minkä tahansa muun kulman kosiniarvo ei ole suurempi kuin 1; Ja sen minimiarvo on -1. Näin ollen kahden vektorin välisen kulman kosiniarvo määrittää, osoittavatko vektorit suunnilleen samaan suuntaan. Kun kahdella vektorilla on sama osoitus, kosini-samankaltaisuuden arvo on 1; Kun kahden vektorin välinen kulma on 90°, kosini-samankaltaisuuden arvo on 0. Kun kaksi vektoria osoittaa vastakkaisiin suuntiin, kosini-samankaltaisuuden arvo on -1. Tämä tulos on riippumaton vektorin pituudesta, vain vektorin suuntaa. Kosini-samankaltaisuutta käytetään yleensä positiivisissa avaruuksissa, joten annettu arvo on välillä -1 ja 1.

Kosini-samankaltaisuus käyttää kahden vektorin välisen kulman kosiniarvoa vektoriavaruudessa kahden yksilön välisen eron suuruutena. Mitä lähempänä kosiniarvo on 1, sitä lähempänä kulma on 0 astetta, eli sitä samankaltaisempia kaksi vektoria ovat, mitä kutsutaan "kosini-samankaltaisuudeksi".



Pearsonin korrelaatiokerroin

Kun on kaksi satunnaismuuttujaa, X ja Y, Pearsonin korrelaatiokerrointa voidaan käyttää mittaamaan näiden korreloimista seuraavalla kaavalla:



Jaccard-kerroin

Oletetaan, että on kaksi joukkoa X ja Y (huomaa, että nämä kaksi eivät ole vektoreita), laskentakaava on:



Sisätulo

Kvantitatiivinen tulo, joka tunnetaan myös nimillä skalaaritulo ja pistetulo, kutsutaan sisätuloksi euklidisessa avaruudessa, ja vastaavat alkiot kerrotaan ja yhteen, jolloin tuloksena on skalaarisuure (eli luku). Se viittaa binääriseen operaatioon, joka hyväksyy kaksi vektoria reaaliluvulla R ja palauttaa reaalisen numeerisen skalaarin. Se on euklidisen tilan standardi sisätulo.

Yleiset etäisyydet

Minkowskin etäisyys

Minkowski Distane on yleistetty lauseke useista etäisyyden mittauskaavoista, kun p=1, Minkowski Distane on Manhattanin etäisyys; Kun p=2, Minkowski Distane on euklidinen etäisyys; Minkowski Distane ilmenee Chebyshevin etäisyyden rajana.



Manhattan Distance



Euklidinen etäisyys



Chebyshevin etäisyys



Hamming-etäisyys

Informaatioteoriassa kahden yhtä suuren langan välinen Hemmingin etäisyys on eri paikoissa olevien merkkien lukumäärä, jotka vastaavat kahta merkkiä. Oletetaan, että on kaksi merkkijonoa: x=[x1,x2,...,xn] ja y=[y1,y2,...,yn], niin etäisyys näiden välillä on:



missä II edustaa indikatiivista funktiota, molemmat ovat 1 samalle, muuten se on 0.

KL:n poikkeama

Kun satunnaismuuttuja X ja kaksi todennäköisyysjakaumaa P ja Q, KL-divergenssin avulla voidaan mitata erotus näiden kahden jakauman välillä seuraavalla kaavalla:




yhteenveto

Pip-tulon etäisyys ja kosini-samankaltaisuus ovat usein käytössä samankaltaisuuden mittaamiseen vektori- tai tekstidatassa。 Sitä käytetään pääasiassa vektorien samankaltaisuuden mittaamiseen, kuten dokumenttien samankaltaisuuteen tekstin louhinnassa ja luonnollisen kielen käsittelyssä, tiedonhaussa, suositusjärjestelmissä ja muilla aloilla. Jos käytät modernia upotusmallia kuten Sentence-BERT tai muita esikoulutettuja malleja, oletustulos on yleensä normalisoitu, joten "PistekertymäSe on suosituin vaihtoehto.

Viittaus:

Hyperlinkin kirjautuminen on näkyvissä.
Hyperlinkin kirjautuminen on näkyvissä.
Hyperlinkin kirjautuminen on näkyvissä.
Hyperlinkin kirjautuminen on näkyvissä.




Edellinen:Luo yksinkertainen Maven-konsoliprojekti
Seuraava:【AI】(14) Lyhyt johdatus avoimen lähdekoodin vektoritietokantoihin
Vastuuvapauslauseke:
Kaikki Code Farmer Networkin julkaisemat ohjelmistot, ohjelmamateriaalit tai artikkelit ovat tarkoitettu vain oppimis- ja tutkimustarkoituksiin; Yllä mainittua sisältöä ei saa käyttää kaupallisiin tai laittomiin tarkoituksiin, muuten käyttäjät joutuvat kantamaan kaikki seuraukset. Tämän sivuston tiedot ovat peräisin internetistä, eikä tekijänoikeuskiistat liity tähän sivustoon. Sinun tulee poistaa yllä oleva sisältö kokonaan tietokoneeltasi 24 tunnin kuluessa lataamisesta. Jos pidät ohjelmasta, tue aitoa ohjelmistoa, osta rekisteröityminen ja hanki parempia aitoja palveluita. Jos rikkomuksia ilmenee, ota meihin yhteyttä sähköpostitse.

Mail To:help@itsvse.com