Questo articolo è un articolo speculare di traduzione automatica, clicca qui per saltare all'articolo originale.

Vista: 1009|Risposta: 0

[AI] (13) Una breve introduzione alla similarità vettoriale e alla distanza

[Copiato link]
Pubblicato il 21-03-2025 13:37:09 | | | |
Requisiti: L'ultima volta che ho scritto un articolo sulla selezione di un modello di embedding e l'ottenimento di un vettore, quale algoritmo dovrebbe essere usato per calcolare la somiglianza vettoriale dopo aver chiamato il modello di embedding per ottenere il valore vettoriale e memorizzarlo nel database vettoriale?

vettore

In algebra lineare, i vettori sono spesso definiti in uno spazio vettoriale più astratto (noto anche come spazio lineare). I vettori sono i mattoni fondamentali nello spazio vettoriale.


(Molte frecce rappresentano molti vettori)

Somiglianza vettoriale

Alcuni metodi per il calcolo della similarità vettoriale:

  • Distanza euclidea
  • Somiglianza coseno
  • Coefficiente di correlazione di Pearson (Pearson)
  • Coseno Regolato
  • Distanza di Hamming
  • Distanza di Manhattan
  • Distanza di Chebyshev
  • Distanza euclidea


Somiglianza coseno

La somiglianza coseno misura la somiglianza tra due vettori misurando il valore coseno dell'angolo tra essi. Il valore del coseno dell'angolo a 0 gradi è 1, mentre il valore del coseno di qualsiasi altro angolo non è maggiore di 1; E il suo valore minimo è -1. Quindi il valore coseno dell'angolo tra i due vettori determina se i due vettori puntano approssimativamente nella stessa direzione. Quando due vettori hanno lo stesso puntamento, il valore di somiglianza coseno è 1; Quando l'angolo tra i due vettori è 90°, il valore di coseno è 0. Quando due vettori puntano in direzioni opposte, il valore della somiglianza coseno è -1. Questo risultato è indipendente dalla lunghezza del vettore, ma solo dalla direzione di puntamento del vettore. La similarità coseno è solitamente usata negli spazi positivi, quindi il valore dato è compreso tra -1 e 1.

La similarità coseno utilizza il valore coseno dell'angolo tra due vettori nello spazio vettoriale come grandezza della differenza tra due individui. Più il valore del coseno è vicino a 1, più vicino è l'angolo a 0 gradi, cioè più sono simili i due vettori, cosa che si chiama "similarità coseno".



Coefficiente di Correlazione di Pearson

Date due variabili casuali X e Y, il coefficiente di correlazione di Pearson può essere usato per misurare quanto siano correlati i due, usando la seguente formula:



Coefficiente di Jaccard

Supponiamo che esistano due insiemi X e Y (nota che i due qui non sono vettori), la formula per il calcolo è:



Prodotto scalare

Il prodotto quantitativo, noto anche come prodotto scalare e prodotto scalare, è chiamato prodotto scalare nello spazio euclideo, e gli elementi corrispondenti vengono moltiplicati e sommati, e il risultato è una grandezza scalare (cioè un numero). Si riferisce a un'operazione binaria che accetta due vettori sul numero reale R e restituisce uno scalare numerico reale. È il prodotto scalare standard dello spazio euclideo.

Distanze comuni

Distanza di Minkowski

La Distana di Minkowski è un'espressione generalizzata di formule di misurazione della distanza multiple, quando p=1, la Distana di Minkowski è la distanza di Manhattan; Quando p=2, la Distana di Minkowski è la distanza euclidea; La Distana di Minkowski assume la forma del limite della distanza di Chebyshev.



Distanza di Manhattan



Distanza euclidea



Distanza di Chebyshev



Distanza di Hamming

Nella teoria dell'informazione, la distanza di Hemming tra due stringhe uguali è il numero di caratteri in posizioni diverse corrispondenti alle due stringhe. Supponiamo che ci siano due stringhe: x=[x1,x2,...,xn] e y=[y1,y2,...,yn], allora la distanza tra le due è:



dove II rappresenta la funzione indicativa, entrambe sono 1 per la stessa, altrimenti è 0.

Divergenza KL

Data la variabile casuale X e le due distribuzioni di probabilità P e Q, la divergenza KL può essere usata per misurare la differenza tra le due distribuzioni usando la seguente formula:




sommario

La distanza del prodotto Pip e la similarità coseno sono spesso usate per misurare la somiglianza nei dati vettoriali o testuali。 Viene utilizzato principalmente per misurare la similarità vettoriale, come la similarità documentale nel text mining e nell'elaborazione del linguaggio naturale, o nel recupero delle informazioni, nei sistemi di raccomandazione e in altri campi. Se usi un modello di embedding moderno come Sentence-BERT o altri modelli pre-addestrati, l'output predefinito è solitamente normalizzato, quindi "Accumulo di puntiÈ l'opzione preferita.

Riferimento:

Il login del link ipertestuale è visibile.
Il login del link ipertestuale è visibile.
Il login del link ipertestuale è visibile.
Il login del link ipertestuale è visibile.




Precedente:Crea un semplice progetto per console Maven
Prossimo:【AI】(14) Breve introduzione ai database vettoriali open source
Disconoscimento:
Tutto il software, i materiali di programmazione o gli articoli pubblicati dalla Code Farmer Network sono destinati esclusivamente all'apprendimento e alla ricerca; I contenuti sopra elencati non devono essere utilizzati per scopi commerciali o illegali, altrimenti gli utenti dovranno sostenere tutte le conseguenze. Le informazioni su questo sito provengono da Internet, e le controversie sul copyright non hanno nulla a che fare con questo sito. Devi eliminare completamente i contenuti sopra elencati dal tuo computer entro 24 ore dal download. Se ti piace il programma, ti preghiamo di supportare software autentico, acquistare la registrazione e ottenere servizi autentici migliori. In caso di violazione, vi preghiamo di contattarci via email.

Mail To:help@itsvse.com