[AI] (13) Vektör benzerliği ve mesafesine kısa bir giriş

Küçük · Yayınlandı 21.03.2025 13:37:09

Gereksinimler: Son zamanlar bir gömüme modeli seçip vektör elde etme hakkında bir makale yazdığımda, gömülü modeli çağrıldıktan sonra vektör benzerliğini hesaplamak için hangi algoritma kullanılmalı?

vektör

Doğrusal cebirde, vektörler genellikle daha soyut bir vektör alanında (doğrusal uzay olarak da bilinir) tanımlanır. Vektörler, vektör uzayındaki temel yapı taşlarıdır.

(Birçok ok birçok vektörü temsil eder)

Vektör benzerliği

Vektör benzerliği hesaplaması için bazı yöntemler:

Öklid Mesafesi
Kosinüs benzerliği
Pearson korelasyon katsayısı (Pearson)
Ayarlanmış Kosinüs
Hamming Mesafesi
Manhattan Mesafesi
Chebyshev Mesafesi
Öklid Mesafesi

Kosinüs benzerliği

Kosinüs benzerliği, iki vektör arasındaki benzerliği, aralarındaki açın kosinüs değerini ölçerek ölçür. 0 derecelik açın kosinüs değeri 1'dir, diğer herhangi bir açın kosinüs değeri ise 1'den büyük değildir; Ve minimum değeri -1'dir. Bu nedenle, iki vektör arasındaki açın kosinüs değeri, iki vektörün yaklaşık olarak aynı yöne işaret edip etmediğini belirler. İki vektör aynı işarete sahip olduğunda, kosinüs benzerliği değeri 1'dir; İki vektör arasındaki açı 90° olduğunda, kosinüs benzerliği değeri 0'dır. İki vektör zıt yönlere işaret ettiğinde, kosinüs benzerliği değeri -1'dir. Bu sonuç, vektörün uzunluğundan bağımsızdır, sadece vektörün yönünden bağımsızdır. Kosinüs benzerliği genellikle pozitif uzaylarda kullanılır, bu nedenle verilen değer -1 ile 1 arasındadır.

Kosinüs benzerliği, vektör uzayındaki iki vektör arasındaki açının kosinüs değerini, iki birey arasındaki farkın büyüklüğü olarak kullanır. Kosinüs değeri 1'e ne kadar yakınsa, açı 0 dereceye o kadar yakın olur, yani iki vektör o kadar benzerdir; buna "kosinüs benzerliği" denir.

Pearson Korelasyon Katsayısı

İki rastgele değişken X ve Y verildiğinde, Pearson korelasyon katsayısı aşağıdaki formül kullanılarak bu iki değişkenin ne kadar korelasyon olduğunu ölçmek için kullanılabilir:

Jaccard Katsayısı

İki küme olduğunu varsayalım ki X ve Y (buradaki ikisinin vektör olmadığını unutmayın), hesaplama formülü şöyledir:

Nokta Çarpımı

Nicel çarpım, aynı zamanda skaler çarpım ve nokta çarpımı olarak da bilinir, Öklid uzayında iç çarpım olarak adlandırılır ve ilgili elemanlar katlanır ve toplanır; sonuç skaler bir büyüklük (yani sayı) olur. Bu, gerçek sayı R üzerinde iki vektör kabul eden ve gerçek sayısal bir skaler döndüren ikili bir operasyonu ifade eder. Bu, Öklid uzayının standart iç çarpımıdır.

Yaygın mesafeler

Minkowski Mesafesi

Minkowski Distane, çoklu mesafe ölçüm formüllerinin genelleştirilmiş bir ifadesidir; p=1 olduğunda, Minkowski Distane Manhattan mesafesidir; p=2 olduğunda, Minkowski Distane Öklid mesafesidir; Minkowski Distane, Chebyshev mesafesinin sınırı şeklinde gelir.

Manhattan Mesafesi

Öklid mesafesi

Chebyshev Mesafesi

Hamming Mesafesi

Bilgi teorisinde, iki eşit szilim arasındaki Hemming mesafesi, iki sicime karşılık gelen farklı konumlardaki karakter sayısıdır. İki dizi varsayalalım: x=[x1,x2,...,xn] ve y=[y1,y2,...,yn], o zaman ikisi arasındaki mesafe şöyledir:

burada II, gösterge fonksiyonunu temsil eder, ikisi de aynı için 1'dir, aksi takdirde 0'dır.

KL Divergence

Rastgele değişken X ve iki olasılık dağılımı P ile Q verildiğinde, KL divergensi, iki dağılım arasındaki farkı aşağıdaki formülle ölçmek için kullanılabilir:

özet

Pip çarpım mesafesi ve kosinüs benzerliği, vektör veya metin verilerindeki benzerliği ölçmek için sıklıkla kullanılır。 Esas olarak vektör benzerliğini ölçmek için kullanılır; örneğin metin madenciliği ve doğal dil işleme alanlarında belge benzerliği, bilgi alımı, tavsiye sistemleri ve diğer alanlarda. Sentence-BERT veya diğer önceden eğitilmiş modeller gibi modern bir göme modeli kullanıyorsanız, varsayılan çıktı genellikle normalize edilir, yani "Nokta birikimiTercih edilen seçenek bu.

Referans:

Bağlantı girişi görünür.
Bağlantı girişi görünür.
Bağlantı girişi görünür.
Bağlantı girişi görünür.

[AI] (13) Vektör benzerliği ve mesafesine kısa bir giriş

İlgili Yazılar

Görüntülenen bölümler