Ten artykuł jest lustrzanym artykułem tłumaczenia maszynowego, kliknij tutaj, aby przejść do oryginalnego artykułu.

Widok: 1009|Odpowiedź: 0

[AI] (13) Krótkie wprowadzenie do podobieństwa wektorowego i odległości

[Skopiuj link]
Opublikowano 2025-3-21 13:37:09 | | | |
Wymagania: Ostatnim razem, gdy pisałem artykuł o wyborze modelu osadzenia i uzyskaniu wektora, jaki algorytm powinien być użyty do obliczenia podobieństwa wektora po wywołaniu modelu osadzenia, aby uzyskać wartość wektora i zapisać ją w bazie wektorów?

wektor

W algebrze liniowej wektory są często definiowane w bardziej abstrakcyjnej przestrzeni wektorowej (znanej również jako przestrzeń liniowa). Wektory są podstawowymi elementami budulcowymi w przestrzeni wektorowej.


(Wiele strzałek reprezentuje wiele wektorów)

Podobieństwo wektorowe

Niektóre metody obliczania podobieństwa wektorowego:

  • Odległość euklidesowa
  • Podobieństwo cosinusowe
  • Współczynnik korelacji Pearsona (Pearson)
  • Skorygowany kosinus
  • Odległość Hamminga
  • Manhattan Distance
  • Dystans Czebyszewa
  • Odległość euklidesowa


Podobieństwo cosinusowe

Podobieństwo cosinusowe mierzy podobieństwo między dwoma wektorami poprzez pomiar wartości cosinusowej kąta między nimi. Wartość kosinusowa kąta 0-stopniowego wynosi 1, natomiast wartość cosinusowa dowolnego innego kąta nie przekracza 1; A jej minimalna wartość to -1. W ten sposób wartość cosinusowa kąta między dwoma wektorami decyduje, czy oba wektory wskazują mniej więcej w tym samym kierunku. Gdy dwa wektory mają takie samo wskazanie, wartość podobieństwa cosinusowego wynosi 1; Gdy kąt między tymi dwoma wektorami wynosi 90°, wartość podobieństwa cosinusowego wynosi 0. Gdy dwa wektory wskazują w przeciwnych kierunkach, wartość podobieństwa cosinusowego wynosi -1. Ten wynik jest niezależny od długości wektora, a jedynie od kierunku jego wskazowania. Podobieństwo cosinusowe jest zwykle stosowane w przestrzeniach dodatnich, więc podana wartość mieści się między -1 a 1.

Podobieństwo kosinusowe wykorzystuje wartość cosinusową kąta między dwoma wektorami w przestrzeni wektorowej jako wartość różnicy między dwoma osobnikami. Im bliżej wartości cosinus jest 1, tym bliższy jest kąt do 0 stopni, czyli tym bardziej podobne są oba wektory, co nazywa się "podobieństwem kosinusowym".



Współczynnik korelacji Pearsona

Dla dwóch zmiennych losowych X i Y współczynnik korelacji Pearsona można wykorzystać do pomiaru, jak bardzo są skorelowane, stosując następujący wzór:



Współczynnik Jaccarda

Załóżmy, że istnieją dwa zbiory X i Y (zauważ, że oba tutaj nie są wektorami), wzór na obliczenie jest następujący:



Iloczyn skalarny

Iloczyn ilościowy, znany również jako iloczyn skalarny i iloczyn skalarny, nazywany jest iloczynem skalarnym w przestrzeni euklidesowej, a odpowiadające im elementy są mnożone i dodawane, co daje wielkość skalarną (czyli liczbę). Odnosi się do operacji binarnej, która przyjmuje dwa wektory na liczbie rzeczywistej R i zwraca rzeczywisty skalar liczbowy. Jest to standardowy iloczyn skalarny przestrzeni euklidesowej.

Typowe odległości

Dystans Minkowskiego

Minkowski Distane to uogólnione wyrażenie wzorów na pomiar wielu odległości, gdy p=1, Minkowski Distane to odległość Manhattan; Gdy p=2, dystanem Minkowskiego jest dystans euklidesowy; Dystana Minkowskiego przyjmuje postać granicy dystansu Czebyszewa.



Manhattan Distance



Odległość euklidesowa



Dystans Czebyszewa



Odległość Hamminga

W teorii informacji odległość Hemminga między dwoma równymi ciągami to liczba znaków na różnych pozycjach odpowiadających tym dwóm ciągom. Załóżmy, że istnieją dwa ciągi znaków: x=[x1,x2,...,xn] i y=[y1,y2,...,yn], to odległość między nimi wynosi:



gdzie II oznacza funkcję wskazującą, obie są równe 1 dla tej samej wartości, w przeciwnym razie jest to 0.

Rozbieżność KL

Dla zmiennej losowej X oraz dwóch rozkładów prawdopodobieństwa P i Q, dywergencja KL może być użyta do pomiaru różnicy między tymi dwoma rozkładami za pomocą następującego wzoru:




streszczenie

Odległość i podobieństwo kosinusowe są często używane do pomiaru podobieństwa w danych wektorowych lub tekstowych。 Jest głównie używany do pomiaru podobieństwa wektorowego, takiego jak podobieństwo dokumentów w eksploracji tekstów i przetwarzaniu języka naturalnego, czy do wyszukiwania informacji, systemów rekomendacji i innych dziedzin. Jeśli używasz nowoczesnego modelu osadzania, takiego jak Sentence-lub innych pretrenowanych modeli, domyślny wynik jest zwykle znormalizowany, więc "Gromadzenie punktówTo preferowana opcja.

Odniesienie:

Logowanie do linku jest widoczne.
Logowanie do linku jest widoczne.
Logowanie do linku jest widoczne.
Logowanie do linku jest widoczne.




Poprzedni:Stwórz prosty projekt konsolowy Maven
Następny:【AI】(14) Krótkie wprowadzenie do open source baz danych wektorowych
Zrzeczenie się:
Całe oprogramowanie, materiały programistyczne lub artykuły publikowane przez Code Farmer Network służą wyłącznie celom edukacyjnym i badawczym; Powyższe treści nie mogą być wykorzystywane do celów komercyjnych ani nielegalnych, w przeciwnym razie użytkownicy ponoszą wszelkie konsekwencje. Informacje na tej stronie pochodzą z Internetu, a spory dotyczące praw autorskich nie mają z nią nic wspólnego. Musisz całkowicie usunąć powyższą zawartość z komputera w ciągu 24 godzin od pobrania. Jeśli spodoba Ci się program, wspieraj oryginalne oprogramowanie, kup rejestrację i korzystaj z lepszych, autentycznych usług. W przypadku naruszenia praw prosimy o kontakt mailowy.

Mail To:help@itsvse.com