Requisiti: L'ultima volta che ho scritto un articolo sulla selezione di un modello di embedding e l'ottenimento di un vettore, quale algoritmo dovrebbe essere usato per calcolare la somiglianza vettoriale dopo aver chiamato il modello di embedding per ottenere il valore vettoriale e memorizzarlo nel database vettoriale?
vettore
In algebra lineare, i vettori sono spesso definiti in uno spazio vettoriale più astratto (noto anche come spazio lineare). I vettori sono i mattoni fondamentali nello spazio vettoriale.
(Molte frecce rappresentano molti vettori)
Somiglianza vettoriale
Alcuni metodi per il calcolo della similarità vettoriale:
- Distanza euclidea
- Somiglianza coseno
- Coefficiente di correlazione di Pearson (Pearson)
- Coseno Regolato
- Distanza di Hamming
- Distanza di Manhattan
- Distanza di Chebyshev
- Distanza euclidea
Somiglianza coseno
La somiglianza coseno misura la somiglianza tra due vettori misurando il valore coseno dell'angolo tra essi. Il valore del coseno dell'angolo a 0 gradi è 1, mentre il valore del coseno di qualsiasi altro angolo non è maggiore di 1; E il suo valore minimo è -1. Quindi il valore coseno dell'angolo tra i due vettori determina se i due vettori puntano approssimativamente nella stessa direzione. Quando due vettori hanno lo stesso puntamento, il valore di somiglianza coseno è 1; Quando l'angolo tra i due vettori è 90°, il valore di coseno è 0. Quando due vettori puntano in direzioni opposte, il valore della somiglianza coseno è -1. Questo risultato è indipendente dalla lunghezza del vettore, ma solo dalla direzione di puntamento del vettore. La similarità coseno è solitamente usata negli spazi positivi, quindi il valore dato è compreso tra -1 e 1.
La similarità coseno utilizza il valore coseno dell'angolo tra due vettori nello spazio vettoriale come grandezza della differenza tra due individui. Più il valore del coseno è vicino a 1, più vicino è l'angolo a 0 gradi, cioè più sono simili i due vettori, cosa che si chiama "similarità coseno".
Coefficiente di Correlazione di Pearson
Date due variabili casuali X e Y, il coefficiente di correlazione di Pearson può essere usato per misurare quanto siano correlati i due, usando la seguente formula:
Coefficiente di Jaccard
Supponiamo che esistano due insiemi X e Y (nota che i due qui non sono vettori), la formula per il calcolo è:
Prodotto scalare
Il prodotto quantitativo, noto anche come prodotto scalare e prodotto scalare, è chiamato prodotto scalare nello spazio euclideo, e gli elementi corrispondenti vengono moltiplicati e sommati, e il risultato è una grandezza scalare (cioè un numero). Si riferisce a un'operazione binaria che accetta due vettori sul numero reale R e restituisce uno scalare numerico reale. È il prodotto scalare standard dello spazio euclideo.
Distanze comuni
Distanza di Minkowski
La Distana di Minkowski è un'espressione generalizzata di formule di misurazione della distanza multiple, quando p=1, la Distana di Minkowski è la distanza di Manhattan; Quando p=2, la Distana di Minkowski è la distanza euclidea; La Distana di Minkowski assume la forma del limite della distanza di Chebyshev.
Distanza di Manhattan
Distanza euclidea
Distanza di Chebyshev
Distanza di Hamming
Nella teoria dell'informazione, la distanza di Hemming tra due stringhe uguali è il numero di caratteri in posizioni diverse corrispondenti alle due stringhe. Supponiamo che ci siano due stringhe: x=[x1,x2,...,xn] e y=[y1,y2,...,yn], allora la distanza tra le due è:
dove II rappresenta la funzione indicativa, entrambe sono 1 per la stessa, altrimenti è 0.
Divergenza KL
Data la variabile casuale X e le due distribuzioni di probabilità P e Q, la divergenza KL può essere usata per misurare la differenza tra le due distribuzioni usando la seguente formula:
sommario
La distanza del prodotto Pip e la similarità coseno sono spesso usate per misurare la somiglianza nei dati vettoriali o testuali。 Viene utilizzato principalmente per misurare la similarità vettoriale, come la similarità documentale nel text mining e nell'elaborazione del linguaggio naturale, o nel recupero delle informazioni, nei sistemi di raccomandazione e in altri campi. Se usi un modello di embedding moderno come Sentence-BERT o altri modelli pre-addestrati, l'output predefinito è solitamente normalizzato, quindi "Accumulo di puntiÈ l'opzione preferita.
Riferimento:
Il login del link ipertestuale è visibile.
Il login del link ipertestuale è visibile.
Il login del link ipertestuale è visibile.
Il login del link ipertestuale è visibile. |