Dit artikel is een spiegelartikel van machinevertaling, klik hier om naar het oorspronkelijke artikel te gaan.

Bekijken: 1009|Antwoord: 0

[AI] (13) Een korte introductie tot vectorgelijkenis en afstand

[Link kopiëren]
Geplaatst op 21-3-2025 13:37:09 | | | |
Eisen: De laatste keer dat ik een artikel schreef over het selecteren van een embeddingmodel en het verkrijgen van een vector, welk algoritme moet worden gebruikt om de vectorgelijkenis te berekenen na het aanroepen van het embeddingmodel om de vectorwaarde te verkrijgen en op te slaan in de vectordatabase?

vector

In lineaire algebra worden vectoren vaak gedefinieerd in een meer abstracte vectorruimte (ook wel lineaire ruimte genoemd). Vectoren zijn de basisbouwstenen in vectorruimte.


(Veel pijlen vertegenwoordigen veel vectoren)

Vectorgelijkenis

Enkele methoden voor vectorgelijkenisberekening:

  • Euclidische Afstand
  • Cosinusgelijkenis
  • Pearson-correlatiecoëfficiënt (Pearson)
  • Aangepaste cosinus
  • Hamming-afstand
  • Manhattan-afstand
  • Chebyshev-afstand
  • Euclidische Afstand


Cosinusgelijkenis

Cosinusgelijkenis meet de gelijkenis tussen twee vectoren door de cosinuswaarde van de hoek tussen hen te meten. De cosinuswaarde van de 0-graden hoek is 1, terwijl de cosinuswaarde van elke andere hoek niet groter is dan 1; En de minimale waarde is -1. Dus bepaalt de cosinuswaarde van de hoek tussen de twee vectoren of de twee vectoren ongeveer in dezelfde richting wijzen. Wanneer twee vectoren dezelfde aanwijzing hebben, is de waarde van cosinusgelijkenis 1; Wanneer de hoek tussen de twee vectoren 90° is, is de waarde van cosinusgelijkenis 0. Wanneer twee vectoren in tegengestelde richtingen wijzen, is de waarde van cosinusgelijkenis -1. Dit resultaat is onafhankelijk van de lengte van de vector, alleen van de richting van de vector. Cosinusgelijkenis wordt meestal gebruikt in positieve ruimten, dus de gegeven waarde ligt tussen -1 en 1.

Cosinusgelijkenis gebruikt de cosinuswaarde van de hoek tussen twee vectoren in de vectorruimte als de grootte van het verschil tussen twee individuen. Hoe dichter de cosinuswaarde bij 1 is, hoe dichter de hoek bij 0 graden is, dat wil zeggen, hoe gelijkender de twee vectoren zijn, wat "cosinusgelijkenis" wordt genoemd.



Pearson-correlatiecoëfficiënt

Gegeven twee willekeurige variabelen X en Y, kan de Pearson-correlatiecoëfficiënt worden gebruikt om te meten hoe gecorreleerd de twee zijn, met behulp van de volgende formule:



Jaccard-coëfficiënt

Stel dat er twee verzamelingen X en Y zijn (let op dat de twee hier geen vectoren zijn), de formule voor berekening is:



Stipproduct

Het kwantitatieve product, ook wel scalair product en inwendig product genoemd, wordt het inwendige product in de Euclidische ruimte genoemd, en de overeenkomstige elementen worden vermenigvuldigd en opgeteld, en het resultaat is een scalaire grootheid (d.w.z. een getal). Het verwijst naar een binaire bewerking die twee vectoren op het reële getal R accepteert en een reële numerieke scalar teruggeeft. Het is het standaard inwendig product van de Euclidische ruimte.

Gemeenschappelijke afstanden

Minkowski-afstand

Minkowski Distane is een gegeneraliseerde uitdrukking van meervoudige afstandsmeetformules, waarbij p=1, Minkowski Distane de Manhattan-afstand is; Wanneer p=2 is, is Minkowski Distane de Euclidische afstand; Minkowski Distane neemt de vorm aan van de limiet van de Chebyshev-afstand.



Manhattan-afstand



Euclidische afstand



Chebyshev-afstand



Hamming-afstand

In de informatietheorie is de Hemming-afstand tussen twee gelijke strings het aantal tekens op verschillende posities dat overeenkomt met de twee strings. Stel dat er twee strings zijn: x=[x1,x2,...,xn] en y=[y1,y2,...,yn], dan is de afstand tussen de twee:



waarbij II de indicatieve functie vertegenwoordigt, beide zijn 1 voor hetzelfde, anders is het 0.

KL-afwijking

Gegeven de stokastische variabele X en de twee kansverdelingen P en Q, kan de KL-divergentie worden gebruikt om het verschil tussen de twee verdelingen te meten met de volgende formule:




samenvatting

Pipproductafstand en cosinusgelijkenis worden vaak gebruikt om gelijkenis in vector- of tekstdata te meten。 Het wordt voornamelijk gebruikt om vectorgelijkenis te meten, zoals documentgelijkenis bij tekstmining en natuurlijke taalverwerking, of informatieopvraging, aanbevelingssystemen en andere vakgebieden. Als je een modern embeddingmodel gebruikt zoals Sentence-BERT of andere vooraf getrainde modellen, is de standaardoutput meestal genormaliseerd, dus "Stip-accumulatieHet is de voorkeursoptie.

Referentie:

De hyperlink-login is zichtbaar.
De hyperlink-login is zichtbaar.
De hyperlink-login is zichtbaar.
De hyperlink-login is zichtbaar.




Vorig:Maak een eenvoudig Maven-consoleproject
Volgend:【AI】(14) Een korte introductie tot open source vectordatabases
Disclaimer:
Alle software, programmeermaterialen of artikelen die door Code Farmer Network worden gepubliceerd, zijn uitsluitend bedoeld voor leer- en onderzoeksdoeleinden; De bovenstaande inhoud mag niet worden gebruikt voor commerciële of illegale doeleinden, anders dragen gebruikers alle gevolgen. De informatie op deze site komt van het internet, en auteursrechtconflicten hebben niets met deze site te maken. Je moet bovenstaande inhoud volledig van je computer verwijderen binnen 24 uur na het downloaden. Als je het programma leuk vindt, steun dan de echte software, koop registratie en krijg betere echte diensten. Als er sprake is van een inbreuk, neem dan contact met ons op via e-mail.

Mail To:help@itsvse.com