Αυτό το άρθρο είναι ένα άρθρο καθρέφτη της αυτόματης μετάφρασης, κάντε κλικ εδώ για να μεταβείτε στο αρχικό άρθρο.

Άποψη: 1009|Απάντηση: 0

[AI] (13) Μια σύντομη εισαγωγή στη διανυσματική ομοιότητα και απόσταση

[Αντιγραφή συνδέσμου]
Δημοσιεύτηκε στις 2025-3-21 13:37:09 | | | |
Απαιτήσεις: Την τελευταία φορά που έγραψα ένα άρθρο σχετικά με την επιλογή ενός μοντέλου ενσωμάτωσης και τη λήψη ενός διανύσματος, ποιος αλγόριθμος θα πρέπει να χρησιμοποιηθεί για τον υπολογισμό της ομοιότητας του διανύσματος αφού καλέσω το μοντέλο ενσωμάτωσης για να λάβω την τιμή του διανύσματος και να την αποθηκεύσω στη διανυσματική βάση δεδομένων;

διάνυσμα

Στη γραμμική άλγεβρα, τα διανύσματα ορίζονται συχνά σε έναν πιο αφηρημένο διανυσματικό χώρο (γνωστό και ως γραμμικός χώρος). Τα διανύσματα είναι τα βασικά δομικά στοιχεία στον διανυσματικό χώρο.


(Πολλά βέλη αντιπροσωπεύουν πολλά διανύσματα)

Διανυσματική ομοιότητα

Μερικές μέθοδοι για τον υπολογισμό της διανυσματικής ομοιότητας:

  • Ευκλείδεια Απόσταση
  • Ομοιότητα συνημιτόνου
  • Συντελεστής συσχέτισης Pearson (Pearson)
  • Προσαρμοσμένο συνημίτονο
  • Απόσταση Hamming
  • Απόσταση Μανχάταν
  • Απόσταση Chebyshev
  • Ευκλείδεια Απόσταση


Ομοιότητα συνημιτόνου

Η ομοιότητα συνημιτόνου μετρά την ομοιότητα μεταξύ δύο διανυσμάτων μετρώντας την τιμή του συνημιτόνου της μεταξύ τους γωνίας. Η τιμή συνημιτόνου της γωνίας 0 μοιρών είναι 1, ενώ η τιμή συνημιτόνου οποιασδήποτε άλλης γωνίας δεν είναι μεγαλύτερη από 1. Και η ελάχιστη τιμή του είναι -1. Έτσι, η τιμή συνημιτόνου της γωνίας μεταξύ των δύο διανυσμάτων καθορίζει εάν τα δύο διανύσματα δείχνουν περίπου στην ίδια κατεύθυνση. Όταν δύο διανύσματα έχουν την ίδια κατάδειξη, η τιμή της ομοιότητας του συνημιτόνου είναι 1. Όταν η γωνία μεταξύ των δύο διανυσμάτων είναι 90°, η τιμή της ομοιότητας συνημιτόνου είναι 0. Όταν δύο διανύσματα δείχνουν σε αντίθετες κατευθύνσεις, η τιμή της ομοιότητας συνημιτόνου είναι -1. Αυτό το αποτέλεσμα είναι ανεξάρτητο από το μήκος του διανύσματος, μόνο από την κατεύθυνση της κατάδειξης του διανύσματος. Η ομοιότητα συνημιτόνου χρησιμοποιείται συνήθως σε θετικούς χώρους, επομένως η τιμή που δίνεται είναι μεταξύ -1 και 1.

Η ομοιότητα συνημιτόνου χρησιμοποιεί την τιμή συνημιτόνου της γωνίας μεταξύ δύο διανυσμάτων στον διανυσματικό χώρο ως το μέγεθος της διαφοράς μεταξύ δύο ατόμων. Όσο πιο κοντά είναι η τιμή του συνημιτόνου στο 1, τόσο πιο κοντά είναι η γωνία στις 0 μοίρες, δηλαδή τόσο πιο παρόμοια είναι τα δύο διανύσματα, κάτι που ονομάζεται «ομοιότητα συνημιτόνου».



Συντελεστής συσχέτισης Pearson

Δεδομένων δύο τυχαίων μεταβλητών X και Y, ο συντελεστής συσχέτισης Pearson μπορεί να χρησιμοποιηθεί για να μετρήσει πόσο συσχετίζονται τα δύο, χρησιμοποιώντας τον ακόλουθο τύπο:



Συντελεστής Jaccard

Ας υποθέσουμε ότι υπάρχουν δύο σύνολα X και Y (σημειώστε ότι τα δύο εδώ δεν είναι διανύσματα), ο τύπος υπολογισμού είναι:



Προϊόν με κουκκίδες

Το ποσοτικό γινόμενο, γνωστό και ως βαθμωτό γινόμενο και γινόμενο κουκίδων, ονομάζεται εσωτερικό γινόμενο στον Ευκλείδειο χώρο και τα αντίστοιχα στοιχεία πολλαπλασιάζονται και προστίθενται και το αποτέλεσμα είναι μια βαθμωτή ποσότητα (δηλαδή ένας αριθμός). Αναφέρεται σε μια δυαδική πράξη που δέχεται δύο διανύσματα στον πραγματικό αριθμό R και επιστρέφει ένα πραγματικό αριθμητικό βαθμωτό. Είναι το τυπικό εσωτερικό γινόμενο του Ευκλείδειου χώρου.

Κοινόχρηστες αποστάσεις

Απόσταση Minkowski

Το Minkowski Distane είναι μια γενικευμένη έκφραση πολλαπλών τύπων μέτρησης απόστασης, όταν p=1, Minkowski Distane είναι η απόσταση του Μανχάταν. Όταν p=2, Minkowski Distane είναι η Ευκλείδεια απόσταση. Το Minkowski Distane παίρνει τη μορφή του ορίου της απόστασης Chebyshev.



Απόσταση Μανχάταν



Ευκλείδεια απόσταση



Απόσταση Chebyshev



Απόσταση Hamming

Στη θεωρία της πληροφορίας, η απόσταση Hemming μεταξύ δύο ίσων συμβολοσειρών είναι ο αριθμός των χαρακτήρων σε διαφορετικές θέσεις που αντιστοιχούν στις δύο συμβολοσειρές. Ας υποθέσουμε ότι υπάρχουν δύο συμβολοσειρές: x=[x1,x2,...,xn] και y=[y1,y2,...,yn], τότε η απόσταση μεταξύ των δύο είναι:



όπου το II αντιπροσωπεύει την ενδεικτική συνάρτηση, και οι δύο είναι 1 για το ίδιο, διαφορετικά είναι 0.

Απόκλιση KL

Δεδομένης της τυχαίας μεταβλητής X και των δύο κατανομών πιθανότητας P και Q, η απόκλιση KL μπορεί να χρησιμοποιηθεί για τη μέτρηση της διαφοράς μεταξύ των δύο κατανομών χρησιμοποιώντας τον ακόλουθο τύπο:




περίληψη

Η απόσταση του προϊόντος Pip και η ομοιότητα συνημιτόνου χρησιμοποιούνται συχνά για τη μέτρηση της ομοιότητας σε διανυσματικά δεδομένα ή δεδομένα κειμένου。 Χρησιμοποιείται κυρίως για τη μέτρηση της ομοιότητας διανυσμάτων, όπως η ομοιότητα εγγράφων στην εξόρυξη κειμένου και την επεξεργασία φυσικής γλώσσας ή η ανάκτηση πληροφοριών, τα συστήματα συστάσεων και άλλα πεδία. Εάν χρησιμοποιείτε ένα σύγχρονο μοντέλο ενσωμάτωσης όπως το Sentence-BERT ή άλλα προεκπαιδευμένα μοντέλα, η προεπιλεγμένη έξοδος είναι συνήθως κανονικοποιημένη, οπότε "Συσσώρευση κουκκίδωνΕίναι η προτιμώμενη επιλογή.

Αναφορά:

Η σύνδεση με υπερσύνδεσμο είναι ορατή.
Η σύνδεση με υπερσύνδεσμο είναι ορατή.
Η σύνδεση με υπερσύνδεσμο είναι ορατή.
Η σύνδεση με υπερσύνδεσμο είναι ορατή.




Προηγούμενος:Δημιουργήστε ένα απλό έργο κονσόλας Maven
Επόμενος:【AI】(14) Μια σύντομη εισαγωγή στις διανυσματικές βάσεις δεδομένων ανοιχτού κώδικα
Αποκήρυξη:
Όλο το λογισμικό, το υλικό προγραμματισμού ή τα άρθρα που δημοσιεύονται από το Code Farmer Network προορίζονται μόνο για μαθησιακούς και ερευνητικούς σκοπούς. Το παραπάνω περιεχόμενο δεν θα χρησιμοποιηθεί για εμπορικούς ή παράνομους σκοπούς, άλλως οι χρήστες θα υποστούν όλες τις συνέπειες. Οι πληροφορίες σε αυτόν τον ιστότοπο προέρχονται από το Διαδίκτυο και οι διαφορές πνευματικών δικαιωμάτων δεν έχουν καμία σχέση με αυτόν τον ιστότοπο. Πρέπει να διαγράψετε εντελώς το παραπάνω περιεχόμενο από τον υπολογιστή σας εντός 24 ωρών από τη λήψη. Εάν σας αρέσει το πρόγραμμα, υποστηρίξτε γνήσιο λογισμικό, αγοράστε εγγραφή και λάβετε καλύτερες γνήσιες υπηρεσίες. Εάν υπάρχει οποιαδήποτε παραβίαση, επικοινωνήστε μαζί μας μέσω email.

Mail To:help@itsvse.com