Αυτό το άρθρο είναι ένα άρθρο καθρέφτη της αυτόματης μετάφρασης, κάντε κλικ εδώ για να μεταβείτε στο αρχικό άρθρο.

Άποψη: 1262|Απάντηση: 3

AI (11) Επιλογή μοντέλου ενσωμάτωσης

[Αντιγραφή συνδέσμου]
Δημοσιεύτηκε στις 2025-3-14 23:01:35 | | | |
απαιτήσεις: Όταν οι επιχειρήσεις δημιουργούν μια βάση γνώσεων RAG, είναι σημαντικό να επιλέγουν το κατάλληλο μοντέλο ενσωμάτωσης ενσωμάτωσης, καθώς η απόδοση της ενσωμάτωσης καθορίζει την ακρίβεια της ανάκτησης και έμμεσα καθορίζει την αξιοπιστία της παραγωγής μεγάλων μοντέλων. Μοντέλα που χρησιμοποιούνται συνήθως: bge, m3e, nomic-embed-text, BCEmbedding (NetEase Youdao).

Γιατί πρέπει να ενσωματώσετε ένα μοντέλο;

Οι υπολογιστές μπορούν να χειριστούν μόνο αριθμητικές πράξεις και δεν μπορούν να κατανοήσουν άμεσα μη αριθμητικές μορφές δεδομένων όπως φυσική γλώσσα, κείμενο, εικόνες και ήχο. Επομένως, πρέπει να «διανυσματοποιήσουμε» για να μετατρέψουμε αυτά τα δεδομένα σε αριθμητικές μορφές που μπορούν να κατανοήσουν και να επεξεργαστούν οι υπολογιστές, δηλαδή να τα χαρτογραφήσουμε σε μαθηματικές διανυσματικές αναπαραστάσεις. Αυτή η διαδικασία επιτυγχάνεται συνήθως με τη βοήθεια μοντέλων ενσωμάτωσης, τα οποία μπορούν να συλλάβουν αποτελεσματικά σημασιολογικές πληροφορίες και εσωτερικές δομές στα δεδομένα.

Ο ρόλος της ενσωμάτωσης μοντέλων είναι ότι όχι μόνο μετατρέπουν διακριτά δεδομένα (όπως λέξεις, θραύσματα εικόνας ή θραύσματα ήχου) σε συνεχή διανύσματα χαμηλών διαστάσεων, αλλά διατηρούν επίσης τις σημασιολογικές σχέσεις μεταξύ των δεδομένων στον διανυσματικό χώρο. Για παράδειγμα, στην επεξεργασία φυσικής γλώσσας, τα μοντέλα ενσωμάτωσης μπορούν να δημιουργήσουν διανύσματα λέξεων, κάνοντας σημασιολογικά παρόμοιες λέξεις πιο κοντά μεταξύ τους στον διανυσματικό χώρο. Αυτή η αποτελεσματική αναπαράσταση επιτρέπει στους υπολογιστές να εκτελούν πολύπλοκους υπολογισμούς και αναλύσεις με βάση αυτά τα διανύσματα, κατανοώντας και επεξεργάζοντας έτσι καλύτερα πολύπλοκα δεδομένα όπως κείμενο, εικόνες ή ήχους.

Με την ενσωμάτωση της διανυσματοποίησης του μοντέλου, οι υπολογιστές μπορούν όχι μόνο να επεξεργάζονται αποτελεσματικά δεδομένα μεγάλης κλίμακας, αλλά και να επιδεικνύουν ισχυρότερες επιδόσεις και δυνατότητες γενίκευσης σε διάφορες εργασίες (όπως ταξινόμηση, ανάκτηση, παραγωγή κ.λπ.).

Αξιολόγηση μοντέλου ενσωμάτωσης

Για να κριθεί η ποιότητα ενός ενσωματωμένου μοντέλου, πρέπει να υπάρχει ένα σαφές σύνολο κριτηρίων. Το MTEB και το C-MTEB χρησιμοποιούνται συνήθως για συγκριτική αξιολόγηση.

ΜΤΕΒ

Το Huggingface διαθέτει ένα πρότυπο αξιολόγησης MTEB (Massive Multilingual Text Embedding Benchmark), το οποίο είναι ένα σχετικά αναγνωρισμένο πρότυπο στον κλάδο και μπορεί να χρησιμοποιηθεί ως αναφορά. Καλύπτει 8 εργασίες ενσωμάτωσης, συνολικά 58 σύνολα δεδομένων και 112 γλώσσες, καθιστώντας το το πιο ολοκληρωμένο σημείο αναφοράς ενσωμάτωσης κειμένου μέχρι σήμερα.



Λίστα:Η σύνδεση με υπερσύνδεσμο είναι ορατή.
Διεύθυνση GitHub:Η σύνδεση με υπερσύνδεσμο είναι ορατή.



Γ-MTEB

Το C-MTEB είναι το πιο ολοκληρωμένο σημείο αναφοράς αξιολόγησης σημασιολογικών διανυσμάτων της Κίνας, που καλύπτει 6 κατηγορίες εργασιών αξιολόγησης (ανάκτηση, ταξινόμηση, ομοιότητα προτάσεων, συλλογισμός, ταξινόμηση, ομαδοποίηση) και 35 σύνολα δεδομένων.

Έγγραφα C-MTEB:Η σύνδεση με υπερσύνδεσμο είναι ορατή.
Κωδικοί και βαθμολογικοί πίνακες:Η σύνδεση με υπερσύνδεσμο είναι ορατή.(Πολλές διευθύνσεις στο Διαδίκτυο είναι παλιές)





Προηγούμενος:Εντολές Linux sudo και apt αγγλικές συντομογραφίες λέξεων
Επόμενος:Το .NET/C# χρησιμοποιεί τον αλγόριθμο SM3 για τη δημιουργία υπογραφών
 Σπιτονοικοκύρης| Δημοσιεύτηκε στις 2025-3-17 08:55:55 |
Αρκτική ενσωμάτωση 2.0

Η Snowflake είναι ενθουσιασμένη που ανακοινώνει την κυκλοφορία του Arctic Embed L 2.0 και του Arctic Embed M 2.0, της επόμενης επανάληψης του πρωτοποριακού μοντέλου ενσωμάτωσης, τώρα με υποστήριξη για πολύγλωσση αναζήτηση.Η σύνδεση με υπερσύνδεσμο είναι ορατή.

Λήψη μοντέλου

Αρκτική Ενσωμάτωση L 2.0:Η σύνδεση με υπερσύνδεσμο είναι ορατή.
Αρκτική ενσωμάτωση M 2.0:Η σύνδεση με υπερσύνδεσμο είναι ορατή.

 Σπιτονοικοκύρης| Δημοσιεύτηκε στις 2025-3-17 16:30:21 |
Το BCEmbedding είναι μια βιβλιοθήκη μοντέλων δίγλωσσων και διαγλωσσικών αλγορίθμων σημασιολογικής αναπαράστασης που αναπτύχθηκε από τη NetEase Youdao, συμπεριλαμβανομένων δύο τύπων βασικών μοντέλων: EmbeddingModel και RerankerModel. Το EmbeddingModel έχει σχεδιαστεί ειδικά για τη δημιουργία σημασιολογικών διανυσμάτων και παίζει καθοριστικό ρόλο στη σημασιολογική αναζήτηση και τις ερωτήσεις και απαντήσεις, ενώ το RerankerModel υπερέχει στη βελτιστοποίηση των αποτελεσμάτων σημασιολογικής αναζήτησης και της σημασιολογικής αλληλουχίας.

Το GitHub:Η σύνδεση με υπερσύνδεσμο είναι ορατή.

ΕνσωμάτωσηΜοντέλο:Η σύνδεση με υπερσύνδεσμο είναι ορατή.
Μοντέλο Reranker:Η σύνδεση με υπερσύνδεσμο είναι ορατή.

 Σπιτονοικοκύρης| Δημοσιεύτηκε στις 2025-3-18 10:07:55 |
Όνομα μοντέλουεκδοχήΟργανισμός/ΆτομοδιεύθυνσηΜήκος ενσωμάτωσηςΜέγιστο μήκος εισόδου
GTEgte-μεγάλο-zhΑκαδημία Ντάρμα AlibabaΗ σύνδεση με υπερσύνδεσμο είναι ορατή.1024512
ΒΓΕBGE-Μεγάλο-ZH-V1.5Ερευνητικό Ινστιτούτο Τεχνητής Νοημοσύνης Zhiyuan του ΠεκίνουΗ σύνδεση με υπερσύνδεσμο είναι ορατή.1024512
Μ3ΕΒάση M3EΜόκαΗ σύνδεση με υπερσύνδεσμο είναι ορατή.768512
tao8ktao8kΤο Huggingface αναπτύσσεται και είναι ανοιχτού κώδικα από την amuΗ σύνδεση με υπερσύνδεσμο είναι ορατή.1024512

Αποκήρυξη:
Όλο το λογισμικό, το υλικό προγραμματισμού ή τα άρθρα που δημοσιεύονται από το Code Farmer Network προορίζονται μόνο για μαθησιακούς και ερευνητικούς σκοπούς. Το παραπάνω περιεχόμενο δεν θα χρησιμοποιηθεί για εμπορικούς ή παράνομους σκοπούς, άλλως οι χρήστες θα υποστούν όλες τις συνέπειες. Οι πληροφορίες σε αυτόν τον ιστότοπο προέρχονται από το Διαδίκτυο και οι διαφορές πνευματικών δικαιωμάτων δεν έχουν καμία σχέση με αυτόν τον ιστότοπο. Πρέπει να διαγράψετε εντελώς το παραπάνω περιεχόμενο από τον υπολογιστή σας εντός 24 ωρών από τη λήψη. Εάν σας αρέσει το πρόγραμμα, υποστηρίξτε γνήσιο λογισμικό, αγοράστε εγγραφή και λάβετε καλύτερες γνήσιες υπηρεσίες. Εάν υπάρχει οποιαδήποτε παραβίαση, επικοινωνήστε μαζί μας μέσω email.

Mail To:help@itsvse.com