Gereksinimler: Son zamanlar bir gömüme modeli seçip vektör elde etme hakkında bir makale yazdığımda, gömülü modeli çağrıldıktan sonra vektör benzerliğini hesaplamak için hangi algoritma kullanılmalı?
vektör
Doğrusal cebirde, vektörler genellikle daha soyut bir vektör alanında (doğrusal uzay olarak da bilinir) tanımlanır. Vektörler, vektör uzayındaki temel yapı taşlarıdır.
(Birçok ok birçok vektörü temsil eder)
Vektör benzerliği
Vektör benzerliği hesaplaması için bazı yöntemler:
- Öklid Mesafesi
- Kosinüs benzerliği
- Pearson korelasyon katsayısı (Pearson)
- Ayarlanmış Kosinüs
- Hamming Mesafesi
- Manhattan Mesafesi
- Chebyshev Mesafesi
- Öklid Mesafesi
Kosinüs benzerliği
Kosinüs benzerliği, iki vektör arasındaki benzerliği, aralarındaki açın kosinüs değerini ölçerek ölçür. 0 derecelik açın kosinüs değeri 1'dir, diğer herhangi bir açın kosinüs değeri ise 1'den büyük değildir; Ve minimum değeri -1'dir. Bu nedenle, iki vektör arasındaki açın kosinüs değeri, iki vektörün yaklaşık olarak aynı yöne işaret edip etmediğini belirler. İki vektör aynı işarete sahip olduğunda, kosinüs benzerliği değeri 1'dir; İki vektör arasındaki açı 90° olduğunda, kosinüs benzerliği değeri 0'dır. İki vektör zıt yönlere işaret ettiğinde, kosinüs benzerliği değeri -1'dir. Bu sonuç, vektörün uzunluğundan bağımsızdır, sadece vektörün yönünden bağımsızdır. Kosinüs benzerliği genellikle pozitif uzaylarda kullanılır, bu nedenle verilen değer -1 ile 1 arasındadır.
Kosinüs benzerliği, vektör uzayındaki iki vektör arasındaki açının kosinüs değerini, iki birey arasındaki farkın büyüklüğü olarak kullanır. Kosinüs değeri 1'e ne kadar yakınsa, açı 0 dereceye o kadar yakın olur, yani iki vektör o kadar benzerdir; buna "kosinüs benzerliği" denir.
Pearson Korelasyon Katsayısı
İki rastgele değişken X ve Y verildiğinde, Pearson korelasyon katsayısı aşağıdaki formül kullanılarak bu iki değişkenin ne kadar korelasyon olduğunu ölçmek için kullanılabilir:
Jaccard Katsayısı
İki küme olduğunu varsayalım ki X ve Y (buradaki ikisinin vektör olmadığını unutmayın), hesaplama formülü şöyledir:
Nokta Çarpımı
Nicel çarpım, aynı zamanda skaler çarpım ve nokta çarpımı olarak da bilinir, Öklid uzayında iç çarpım olarak adlandırılır ve ilgili elemanlar katlanır ve toplanır; sonuç skaler bir büyüklük (yani sayı) olur. Bu, gerçek sayı R üzerinde iki vektör kabul eden ve gerçek sayısal bir skaler döndüren ikili bir operasyonu ifade eder. Bu, Öklid uzayının standart iç çarpımıdır.
Yaygın mesafeler
Minkowski Mesafesi
Minkowski Distane, çoklu mesafe ölçüm formüllerinin genelleştirilmiş bir ifadesidir; p=1 olduğunda, Minkowski Distane Manhattan mesafesidir; p=2 olduğunda, Minkowski Distane Öklid mesafesidir; Minkowski Distane, Chebyshev mesafesinin sınırı şeklinde gelir.
Manhattan Mesafesi
Öklid mesafesi
Chebyshev Mesafesi
Hamming Mesafesi
Bilgi teorisinde, iki eşit szilim arasındaki Hemming mesafesi, iki sicime karşılık gelen farklı konumlardaki karakter sayısıdır. İki dizi varsayalalım: x=[x1,x2,...,xn] ve y=[y1,y2,...,yn], o zaman ikisi arasındaki mesafe şöyledir:
burada II, gösterge fonksiyonunu temsil eder, ikisi de aynı için 1'dir, aksi takdirde 0'dır.
KL Divergence
Rastgele değişken X ve iki olasılık dağılımı P ile Q verildiğinde, KL divergensi, iki dağılım arasındaki farkı aşağıdaki formülle ölçmek için kullanılabilir:
özet
Pip çarpım mesafesi ve kosinüs benzerliği, vektör veya metin verilerindeki benzerliği ölçmek için sıklıkla kullanılır。 Esas olarak vektör benzerliğini ölçmek için kullanılır; örneğin metin madenciliği ve doğal dil işleme alanlarında belge benzerliği, bilgi alımı, tavsiye sistemleri ve diğer alanlarda. Sentence-BERT veya diğer önceden eğitilmiş modeller gibi modern bir göme modeli kullanıyorsanız, varsayılan çıktı genellikle normalize edilir, yani "Nokta birikimiTercih edilen seçenek bu.
Referans:
Bağlantı girişi görünür.
Bağlantı girişi görünür.
Bağlantı girişi görünür.
Bağlantı girişi görünür. |