[AI] (13) Krótkie wprowadzenie do podobieństwa wektorowego i odległości

Mały śmiecie · Opublikowano 21.03.2025 13:37:09

Wymagania: Ostatnim razem, gdy pisałem artykuł o wyborze modelu osadzenia i uzyskaniu wektora, jaki algorytm powinien być użyty do obliczenia podobieństwa wektora po wywołaniu modelu osadzenia, aby uzyskać wartość wektora i zapisać ją w bazie wektorów?

wektor

W algebrze liniowej wektory są często definiowane w bardziej abstrakcyjnej przestrzeni wektorowej (znanej również jako przestrzeń liniowa). Wektory są podstawowymi elementami budulcowymi w przestrzeni wektorowej.

(Wiele strzałek reprezentuje wiele wektorów)

Podobieństwo wektorowe

Niektóre metody obliczania podobieństwa wektorowego:

Odległość euklidesowa
Podobieństwo cosinusowe
Współczynnik korelacji Pearsona (Pearson)
Skorygowany kosinus
Odległość Hamminga
Manhattan Distance
Dystans Czebyszewa
Odległość euklidesowa

Podobieństwo cosinusowe

Podobieństwo cosinusowe mierzy podobieństwo między dwoma wektorami poprzez pomiar wartości cosinusowej kąta między nimi. Wartość kosinusowa kąta 0-stopniowego wynosi 1, natomiast wartość cosinusowa dowolnego innego kąta nie przekracza 1; A jej minimalna wartość to -1. W ten sposób wartość cosinusowa kąta między dwoma wektorami decyduje, czy oba wektory wskazują mniej więcej w tym samym kierunku. Gdy dwa wektory mają takie samo wskazanie, wartość podobieństwa cosinusowego wynosi 1; Gdy kąt między tymi dwoma wektorami wynosi 90°, wartość podobieństwa cosinusowego wynosi 0. Gdy dwa wektory wskazują w przeciwnych kierunkach, wartość podobieństwa cosinusowego wynosi -1. Ten wynik jest niezależny od długości wektora, a jedynie od kierunku jego wskazowania. Podobieństwo cosinusowe jest zwykle stosowane w przestrzeniach dodatnich, więc podana wartość mieści się między -1 a 1.

Podobieństwo kosinusowe wykorzystuje wartość cosinusową kąta między dwoma wektorami w przestrzeni wektorowej jako wartość różnicy między dwoma osobnikami. Im bliżej wartości cosinus jest 1, tym bliższy jest kąt do 0 stopni, czyli tym bardziej podobne są oba wektory, co nazywa się "podobieństwem kosinusowym".

Współczynnik korelacji Pearsona

Dla dwóch zmiennych losowych X i Y współczynnik korelacji Pearsona można wykorzystać do pomiaru, jak bardzo są skorelowane, stosując następujący wzór:

Współczynnik Jaccarda

Załóżmy, że istnieją dwa zbiory X i Y (zauważ, że oba tutaj nie są wektorami), wzór na obliczenie jest następujący:

Iloczyn skalarny

Iloczyn ilościowy, znany również jako iloczyn skalarny i iloczyn skalarny, nazywany jest iloczynem skalarnym w przestrzeni euklidesowej, a odpowiadające im elementy są mnożone i dodawane, co daje wielkość skalarną (czyli liczbę). Odnosi się do operacji binarnej, która przyjmuje dwa wektory na liczbie rzeczywistej R i zwraca rzeczywisty skalar liczbowy. Jest to standardowy iloczyn skalarny przestrzeni euklidesowej.

Typowe odległości

Dystans Minkowskiego

Minkowski Distane to uogólnione wyrażenie wzorów na pomiar wielu odległości, gdy p=1, Minkowski Distane to odległość Manhattan; Gdy p=2, dystanem Minkowskiego jest dystans euklidesowy; Dystana Minkowskiego przyjmuje postać granicy dystansu Czebyszewa.

Manhattan Distance

Odległość euklidesowa

Dystans Czebyszewa

Odległość Hamminga

W teorii informacji odległość Hemminga między dwoma równymi ciągami to liczba znaków na różnych pozycjach odpowiadających tym dwóm ciągom. Załóżmy, że istnieją dwa ciągi znaków: x=[x1,x2,...,xn] i y=[y1,y2,...,yn], to odległość między nimi wynosi:

gdzie II oznacza funkcję wskazującą, obie są równe 1 dla tej samej wartości, w przeciwnym razie jest to 0.

Rozbieżność KL

Dla zmiennej losowej X oraz dwóch rozkładów prawdopodobieństwa P i Q, dywergencja KL może być użyta do pomiaru różnicy między tymi dwoma rozkładami za pomocą następującego wzoru:

streszczenie

Odległość i podobieństwo kosinusowe są często używane do pomiaru podobieństwa w danych wektorowych lub tekstowych。 Jest głównie używany do pomiaru podobieństwa wektorowego, takiego jak podobieństwo dokumentów w eksploracji tekstów i przetwarzaniu języka naturalnego, czy do wyszukiwania informacji, systemów rekomendacji i innych dziedzin. Jeśli używasz nowoczesnego modelu osadzania, takiego jak Sentence-lub innych pretrenowanych modeli, domyślny wynik jest zwykle znormalizowany, więc "Gromadzenie punktówTo preferowana opcja.

Odniesienie:

Logowanie do linku jest widoczne.
Logowanie do linku jest widoczne.
Logowanie do linku jest widoczne.
Logowanie do linku jest widoczne.

[AI] (13) Krótkie wprowadzenie do podobieństwa wektorowego i odległości

Powiązane wpisy

Oglądane sekcje