[AI] (1) Μεγάλες κατατάξεις μοντέλων ανοιχτού κώδικα

Μικρά αποβράσματα · *Δημοσιεύτηκε στις 28/12/2024 10:03:05 π.μ.* | | | |

Chatbot Arena LLMΛίστα:Η σύνδεση με υπερσύνδεσμο είναι ορατή.

Το Chatbot Arena είναι μια ανοιχτή πλατφόρμα για crowdsourcing AI benchmarking, που αναπτύχθηκε από ερευνητές στο SkyLab και στο LMArena στο Πανεπιστήμιο της Καλιφόρνια στο Μπέρκλεϋ. Με περισσότερες από 1,000,000 ψήφους χρηστών, η πλατφόρμα χρησιμοποιεί το μοντέλο Bradley-Terry για να δημιουργήσει βαθμολογικούς πίνακες σε πραγματικό χρόνο που κατατάσσουν τα καλύτερα LLM και chatbot AI. Για τεχνικές λεπτομέρειες, ανατρέξτε στο έγγραφό μας.

Ζωντανός πάγκος：Η σύνδεση με υπερσύνδεσμο είναι ορατή.

Σημεία αναφοράς σχεδιασμένα ειδικά για LLM, σχεδιασμένα με γνώμονα τη μόλυνση του συνόλου δοκιμών και την αντικειμενική αξιολόγηση.

SuperCLUEΣυνολικός πίνακας κατάταξης:Η σύνδεση με υπερσύνδεσμο είναι ορατή.

Τοποθέτηση ενδείξεων: Προκειμένου να εξυπηρετηθεί καλύτερα η κατανόηση της κινεζικής γλώσσας, οι εργασίες και η βιομηχανία, ως συμπλήρωμα στη γενική αξιολόγηση γλωσσικών μοντέλων, να βελτιωθεί η υποδομή συλλέγοντας, ταξινομώντας και δημοσιεύοντας κινεζικές εργασίες και τυποποιημένες αξιολογήσεις και τελικά να προωθηθεί η ανάπτυξη του κινεζικού NLP.

Ανοίξτε το LLM Leaderboard：Η σύνδεση με υπερσύνδεσμο είναι ορατή.

Συγκρίνετε μεγάλα γλωσσικά μοντέλα με ανοιχτό και επαναλαμβανόμενο τρόπο

Σύγκριση σημείων αναφοράς και επιδόσεων αξιολόγησης μεγάλων μοντέλων：Η σύνδεση με υπερσύνδεσμο είναι ορατή.

Αυτή η σελίδα δείχνει την απόδοση πολλών βασικών μεγάλων μοντέλων σε διάφορα σημεία αναφοράς αξιολόγησης, συμπεριλαμβανομένων των MMLU, GSM8K, HumanEval και άλλων τυπικών συνόλων δεδομένων. Βοηθάμε τους προγραμματιστές και τους ερευνητές να κατανοήσουν την απόδοση διαφορετικών μεγάλων μοντέλων σε διάφορες εργασίες μέσω ενημερωμένων αποτελεσμάτων αξιολόγησης σε πραγματικό χρόνο. Οι χρήστες μπορούν να επιλέξουν να συγκρίνουν προσαρμοσμένα μοντέλα με σημεία αναφοράς αξιολόγησης για να αποκτήσουν γρήγορα τα πλεονεκτήματα και τα μειονεκτήματα διαφορετικών μοντέλων σε πρακτικές εφαρμογές.

Μικρά αποβράσματα

Το Qwen είναι μια σειρά από μεγάλα γλωσσικά μοντέλα και μεγάλα πολυτροπικά μοντέλα που αναπτύχθηκαν από την ομάδα Qwen του Ομίλου Alibaba.
Κουέν2,5：Η σύνδεση με υπερσύνδεσμο είναι ορατή.

Το DeepSeek-V3 είναι ένα μοντέλο MoE που αναπτύχθηκε μόνος του με παραμέτρους 671B, ενεργοποιημένα 37B και προεκπαιδευμένα σε μάρκες 14.8T.
DeepSeek-V3：Η σύνδεση με υπερσύνδεσμο είναι ορατή.

Η Zhipu είναι μια εταιρεία που μεταμορφώθηκε από τα τεχνολογικά επιτεύγματα του Τμήματος Επιστήμης Υπολογιστών του Πανεπιστημίου Tsinghua
GLM-4-9Β：Η σύνδεση με υπερσύνδεσμο είναι ορατή.

[AI] (1) Μεγάλες κατατάξεις μοντέλων ανοιχτού κώδικα

σχετικές αναρτήσεις

Ενότητες που προβλήθηκαν