Απαιτήσεις: Την τελευταία φορά που έγραψα ένα άρθρο σχετικά με την επιλογή ενός μοντέλου ενσωμάτωσης και τη λήψη ενός διανύσματος, ποιος αλγόριθμος θα πρέπει να χρησιμοποιηθεί για τον υπολογισμό της ομοιότητας του διανύσματος αφού καλέσω το μοντέλο ενσωμάτωσης για να λάβω την τιμή του διανύσματος και να την αποθηκεύσω στη διανυσματική βάση δεδομένων;
διάνυσμα
Στη γραμμική άλγεβρα, τα διανύσματα ορίζονται συχνά σε έναν πιο αφηρημένο διανυσματικό χώρο (γνωστό και ως γραμμικός χώρος). Τα διανύσματα είναι τα βασικά δομικά στοιχεία στον διανυσματικό χώρο.
(Πολλά βέλη αντιπροσωπεύουν πολλά διανύσματα)
Διανυσματική ομοιότητα
Μερικές μέθοδοι για τον υπολογισμό της διανυσματικής ομοιότητας:
- Ευκλείδεια Απόσταση
- Ομοιότητα συνημιτόνου
- Συντελεστής συσχέτισης Pearson (Pearson)
- Προσαρμοσμένο συνημίτονο
- Απόσταση Hamming
- Απόσταση Μανχάταν
- Απόσταση Chebyshev
- Ευκλείδεια Απόσταση
Ομοιότητα συνημιτόνου
Η ομοιότητα συνημιτόνου μετρά την ομοιότητα μεταξύ δύο διανυσμάτων μετρώντας την τιμή του συνημιτόνου της μεταξύ τους γωνίας. Η τιμή συνημιτόνου της γωνίας 0 μοιρών είναι 1, ενώ η τιμή συνημιτόνου οποιασδήποτε άλλης γωνίας δεν είναι μεγαλύτερη από 1. Και η ελάχιστη τιμή του είναι -1. Έτσι, η τιμή συνημιτόνου της γωνίας μεταξύ των δύο διανυσμάτων καθορίζει εάν τα δύο διανύσματα δείχνουν περίπου στην ίδια κατεύθυνση. Όταν δύο διανύσματα έχουν την ίδια κατάδειξη, η τιμή της ομοιότητας του συνημιτόνου είναι 1. Όταν η γωνία μεταξύ των δύο διανυσμάτων είναι 90°, η τιμή της ομοιότητας συνημιτόνου είναι 0. Όταν δύο διανύσματα δείχνουν σε αντίθετες κατευθύνσεις, η τιμή της ομοιότητας συνημιτόνου είναι -1. Αυτό το αποτέλεσμα είναι ανεξάρτητο από το μήκος του διανύσματος, μόνο από την κατεύθυνση της κατάδειξης του διανύσματος. Η ομοιότητα συνημιτόνου χρησιμοποιείται συνήθως σε θετικούς χώρους, επομένως η τιμή που δίνεται είναι μεταξύ -1 και 1.
Η ομοιότητα συνημιτόνου χρησιμοποιεί την τιμή συνημιτόνου της γωνίας μεταξύ δύο διανυσμάτων στον διανυσματικό χώρο ως το μέγεθος της διαφοράς μεταξύ δύο ατόμων. Όσο πιο κοντά είναι η τιμή του συνημιτόνου στο 1, τόσο πιο κοντά είναι η γωνία στις 0 μοίρες, δηλαδή τόσο πιο παρόμοια είναι τα δύο διανύσματα, κάτι που ονομάζεται «ομοιότητα συνημιτόνου».
Συντελεστής συσχέτισης Pearson
Δεδομένων δύο τυχαίων μεταβλητών X και Y, ο συντελεστής συσχέτισης Pearson μπορεί να χρησιμοποιηθεί για να μετρήσει πόσο συσχετίζονται τα δύο, χρησιμοποιώντας τον ακόλουθο τύπο:
Συντελεστής Jaccard
Ας υποθέσουμε ότι υπάρχουν δύο σύνολα X και Y (σημειώστε ότι τα δύο εδώ δεν είναι διανύσματα), ο τύπος υπολογισμού είναι:
Προϊόν με κουκκίδες
Το ποσοτικό γινόμενο, γνωστό και ως βαθμωτό γινόμενο και γινόμενο κουκίδων, ονομάζεται εσωτερικό γινόμενο στον Ευκλείδειο χώρο και τα αντίστοιχα στοιχεία πολλαπλασιάζονται και προστίθενται και το αποτέλεσμα είναι μια βαθμωτή ποσότητα (δηλαδή ένας αριθμός). Αναφέρεται σε μια δυαδική πράξη που δέχεται δύο διανύσματα στον πραγματικό αριθμό R και επιστρέφει ένα πραγματικό αριθμητικό βαθμωτό. Είναι το τυπικό εσωτερικό γινόμενο του Ευκλείδειου χώρου.
Κοινόχρηστες αποστάσεις
Απόσταση Minkowski
Το Minkowski Distane είναι μια γενικευμένη έκφραση πολλαπλών τύπων μέτρησης απόστασης, όταν p=1, Minkowski Distane είναι η απόσταση του Μανχάταν. Όταν p=2, Minkowski Distane είναι η Ευκλείδεια απόσταση. Το Minkowski Distane παίρνει τη μορφή του ορίου της απόστασης Chebyshev.
Απόσταση Μανχάταν
Ευκλείδεια απόσταση
Απόσταση Chebyshev
Απόσταση Hamming
Στη θεωρία της πληροφορίας, η απόσταση Hemming μεταξύ δύο ίσων συμβολοσειρών είναι ο αριθμός των χαρακτήρων σε διαφορετικές θέσεις που αντιστοιχούν στις δύο συμβολοσειρές. Ας υποθέσουμε ότι υπάρχουν δύο συμβολοσειρές: x=[x1,x2,...,xn] και y=[y1,y2,...,yn], τότε η απόσταση μεταξύ των δύο είναι:
όπου το II αντιπροσωπεύει την ενδεικτική συνάρτηση, και οι δύο είναι 1 για το ίδιο, διαφορετικά είναι 0.
Απόκλιση KL
Δεδομένης της τυχαίας μεταβλητής X και των δύο κατανομών πιθανότητας P και Q, η απόκλιση KL μπορεί να χρησιμοποιηθεί για τη μέτρηση της διαφοράς μεταξύ των δύο κατανομών χρησιμοποιώντας τον ακόλουθο τύπο:
περίληψη
Η απόσταση του προϊόντος Pip και η ομοιότητα συνημιτόνου χρησιμοποιούνται συχνά για τη μέτρηση της ομοιότητας σε διανυσματικά δεδομένα ή δεδομένα κειμένου。 Χρησιμοποιείται κυρίως για τη μέτρηση της ομοιότητας διανυσμάτων, όπως η ομοιότητα εγγράφων στην εξόρυξη κειμένου και την επεξεργασία φυσικής γλώσσας ή η ανάκτηση πληροφοριών, τα συστήματα συστάσεων και άλλα πεδία. Εάν χρησιμοποιείτε ένα σύγχρονο μοντέλο ενσωμάτωσης όπως το Sentence-BERT ή άλλα προεκπαιδευμένα μοντέλα, η προεπιλεγμένη έξοδος είναι συνήθως κανονικοποιημένη, οπότε "Συσσώρευση κουκκίδωνΕίναι η προτιμώμενη επιλογή.
Αναφορά:
Η σύνδεση με υπερσύνδεσμο είναι ορατή.
Η σύνδεση με υπερσύνδεσμο είναι ορατή.
Η σύνδεση με υπερσύνδεσμο είναι ορατή.
Η σύνδεση με υπερσύνδεσμο είναι ορατή. |