Wymagania: Ostatnim razem, gdy pisałem artykuł o wyborze modelu osadzenia i uzyskaniu wektora, jaki algorytm powinien być użyty do obliczenia podobieństwa wektora po wywołaniu modelu osadzenia, aby uzyskać wartość wektora i zapisać ją w bazie wektorów?
wektor
W algebrze liniowej wektory są często definiowane w bardziej abstrakcyjnej przestrzeni wektorowej (znanej również jako przestrzeń liniowa). Wektory są podstawowymi elementami budulcowymi w przestrzeni wektorowej.
(Wiele strzałek reprezentuje wiele wektorów)
Podobieństwo wektorowe
Niektóre metody obliczania podobieństwa wektorowego:
- Odległość euklidesowa
- Podobieństwo cosinusowe
- Współczynnik korelacji Pearsona (Pearson)
- Skorygowany kosinus
- Odległość Hamminga
- Manhattan Distance
- Dystans Czebyszewa
- Odległość euklidesowa
Podobieństwo cosinusowe
Podobieństwo cosinusowe mierzy podobieństwo między dwoma wektorami poprzez pomiar wartości cosinusowej kąta między nimi. Wartość kosinusowa kąta 0-stopniowego wynosi 1, natomiast wartość cosinusowa dowolnego innego kąta nie przekracza 1; A jej minimalna wartość to -1. W ten sposób wartość cosinusowa kąta między dwoma wektorami decyduje, czy oba wektory wskazują mniej więcej w tym samym kierunku. Gdy dwa wektory mają takie samo wskazanie, wartość podobieństwa cosinusowego wynosi 1; Gdy kąt między tymi dwoma wektorami wynosi 90°, wartość podobieństwa cosinusowego wynosi 0. Gdy dwa wektory wskazują w przeciwnych kierunkach, wartość podobieństwa cosinusowego wynosi -1. Ten wynik jest niezależny od długości wektora, a jedynie od kierunku jego wskazowania. Podobieństwo cosinusowe jest zwykle stosowane w przestrzeniach dodatnich, więc podana wartość mieści się między -1 a 1.
Podobieństwo kosinusowe wykorzystuje wartość cosinusową kąta między dwoma wektorami w przestrzeni wektorowej jako wartość różnicy między dwoma osobnikami. Im bliżej wartości cosinus jest 1, tym bliższy jest kąt do 0 stopni, czyli tym bardziej podobne są oba wektory, co nazywa się "podobieństwem kosinusowym".
Współczynnik korelacji Pearsona
Dla dwóch zmiennych losowych X i Y współczynnik korelacji Pearsona można wykorzystać do pomiaru, jak bardzo są skorelowane, stosując następujący wzór:
Współczynnik Jaccarda
Załóżmy, że istnieją dwa zbiory X i Y (zauważ, że oba tutaj nie są wektorami), wzór na obliczenie jest następujący:
Iloczyn skalarny
Iloczyn ilościowy, znany również jako iloczyn skalarny i iloczyn skalarny, nazywany jest iloczynem skalarnym w przestrzeni euklidesowej, a odpowiadające im elementy są mnożone i dodawane, co daje wielkość skalarną (czyli liczbę). Odnosi się do operacji binarnej, która przyjmuje dwa wektory na liczbie rzeczywistej R i zwraca rzeczywisty skalar liczbowy. Jest to standardowy iloczyn skalarny przestrzeni euklidesowej.
Typowe odległości
Dystans Minkowskiego
Minkowski Distane to uogólnione wyrażenie wzorów na pomiar wielu odległości, gdy p=1, Minkowski Distane to odległość Manhattan; Gdy p=2, dystanem Minkowskiego jest dystans euklidesowy; Dystana Minkowskiego przyjmuje postać granicy dystansu Czebyszewa.
Manhattan Distance
Odległość euklidesowa
Dystans Czebyszewa
Odległość Hamminga
W teorii informacji odległość Hemminga między dwoma równymi ciągami to liczba znaków na różnych pozycjach odpowiadających tym dwóm ciągom. Załóżmy, że istnieją dwa ciągi znaków: x=[x1,x2,...,xn] i y=[y1,y2,...,yn], to odległość między nimi wynosi:
gdzie II oznacza funkcję wskazującą, obie są równe 1 dla tej samej wartości, w przeciwnym razie jest to 0.
Rozbieżność KL
Dla zmiennej losowej X oraz dwóch rozkładów prawdopodobieństwa P i Q, dywergencja KL może być użyta do pomiaru różnicy między tymi dwoma rozkładami za pomocą następującego wzoru:
streszczenie
Odległość i podobieństwo kosinusowe są często używane do pomiaru podobieństwa w danych wektorowych lub tekstowych。 Jest głównie używany do pomiaru podobieństwa wektorowego, takiego jak podobieństwo dokumentów w eksploracji tekstów i przetwarzaniu języka naturalnego, czy do wyszukiwania informacji, systemów rekomendacji i innych dziedzin. Jeśli używasz nowoczesnego modelu osadzania, takiego jak Sentence-lub innych pretrenowanych modeli, domyślny wynik jest zwykle znormalizowany, więc "Gromadzenie punktówTo preferowana opcja.
Odniesienie:
Logowanie do linku jest widoczne.
Logowanie do linku jest widoczne.
Logowanie do linku jest widoczne.
Logowanie do linku jest widoczne. |