Διπλή ακρίβεια (FP64), Μονή ακρίβεια (P32, TF32), Μισή ακρίβεια (FP16, BF16)

Μικρά αποβράσματα · Δημοσιεύτηκε στις 10/3/2025 2:22:34 μ.μ.

Η εκπαίδευση και η συλλογιστική μεγάλων μοντέλων συχνά περιλαμβάνουν την έννοια της ακρίβειας, και υπάρχουν πολλοί τύποι, και χωρίζονται επίσης σε διαφορετικές μορφές στο ίδιο επίπεδο ακρίβειας. Επιπλέον, υπάρχουν επίσης οι έννοιες της πολλαπλής ακρίβειας και της μικτής ακρίβειας σε σενάρια πρακτικής χρήσης.

Κοινή ακρίβεια

Ακρίβεια κινητής υποδιαστολής: διπλή ακρίβεια (FP64), μονή ακρίβεια (FP32, TF32), μισή ακρίβεια (FP16, BF16), ακρίβεια 8 bit (FP8), ακρίβεια 4 bit (FP4, NF4)
Ακρίβεια ποσοτικοποίησης: INT8, INT4 (επίσης INT3/INT5/INT6)

Ένας αριθμός κινητής υποδιαστολής αποτελείται από τρία μέρη: πρόσημο, εκθετικό και bit mantissa. Όσο μεγαλύτερο είναι το εκθετικό bit, τόσο μεγαλύτερο είναι το εύρος των αριθμών που μπορούν να αναπαρασταθούν. Όσο μεγαλύτερο είναι το ψηφίο της μάντισσας, τόσο μεγαλύτερη είναι η ακρίβεια του αριθμού.

Ο πίνακας το συνοψίζει ως εξής

Μορφή	Bit συμβόλου	Εκθετικό bit	Δεκαδικό ψηφίο	Σύνολο ψηφίων
ΠΠ64	1	11	52	64
ΠΠ32	1	8	23	32
ΤΦ32	1	8	10	19
ΒΖ16	1	8	7	16
ΠΠ16	1	5	10	16
FP8 Ε4Μ3	1	4	3	8
FP8 E5M2	1	5	2	8
ΠΠ4	1	2	1	4

FP32: Αριθμός κινητής υποδιαστολής 32 bit, 4 byte ανά δεδομένα
TF32: Αριθμός κινητής υποδιαστολής 19 bit, κάθε δεδομένο είναι 2 byte
FP16: Αριθμός κινητής υποδιαστολής 16 bit, 2 byte ανά δεδομένα
BF16: αριθμός κινητής υποδιαστολής 16 bit, κάθε δεδομένα είναι 2 byte
Int8: Ακέραιος αριθμός 8-bit, κάθε δεδομένο αντιστοιχεί σε 1 byte
Int4: Ακέραιοι αριθμοί 4-bit, κάθε δεδομένο είναι 0,5 byte

Γιατί τόση ακρίβεια

Λόγω κόστους και ακρίβειας. Όλοι γνωρίζουμε ότι η υψηλή ακρίβεια είναι σίγουρα πιο ακριβής, αλλά θα επιφέρει επίσης υψηλότερο κόστος υπολογιστών και αποθήκευσης. Η χαμηλότερη ακρίβεια μειώνει την ακρίβεια υπολογισμού, αλλά μπορεί να βελτιώσει την υπολογιστική απόδοση και απόδοση. Έτσι, μια ποικιλία διαφορετικών ακριβειών σάς επιτρέπει να επιλέξετε την καταλληλότερη σε διαφορετικές καταστάσεις.
Η διπλή ακρίβεια είναι πιο ακριβής από την έκφραση μονής ακρίβειας, αλλά καταλαμβάνει διπλάσιο χώρο αποθήκευσης και χρειάζεται περισσότερο χρόνο για να υπολογιστεί.

Γιατί τα μεγάλα μοντέλα πρέπει να ποσοτικοποιηθούν;

1. Μειώστε τη χρήση μνήμης
Τα μεγάλα μοντέλα χρησιμοποιούν συνήθως αριθμούς κινητής υποδιαστολής 32 bit (FP32) ή αριθμούς κινητής υποδιαστολής 16 bit (FP16) για να αναπαραστήσουν βάρη και τιμές ενεργοποίησης. Με την κβαντοποίηση, αυτές οι τιμές υψηλής ακρίβειας μπορούν να μετατραπούν σε αναπαραστάσεις χαμηλότερης ακρίβειας (π.χ. ακέραιοι αριθμοί 8-bit, INT8), μειώνοντας σημαντικά τον αποθηκευτικό χώρο του μοντέλου. Αυτό είναι σημαντικό για την ανάπτυξη σε συσκευές περιορισμένων πόρων, όπως κινητές συσκευές, ενσωματωμένα συστήματα κ.λπ.

2. Επιταχύνετε την ταχύτητα συλλογισμού
Τα κβαντισμένα μοντέλα μπορούν να λειτουργούν πιο αποτελεσματικά σε υλικό. Πολλά σύγχρονα υλικά (όπως GPU, TPU, NPU, κ.λπ.) διαθέτουν εξειδικευμένη υποστήριξη βελτιστοποίησης για υπολογιστές χαμηλής ακρίβειας, επιτρέποντας ταχύτερες λειτουργίες κβαντισμού. Επιπλέον, οι υπολογισμοί χαμηλής ακρίβειας συχνά περιλαμβάνουν λιγότερες λειτουργίες bit, μειώνοντας την υπολογιστική πολυπλοκότητα και επιταχύνοντας έτσι τα συμπεράσματα.

3. Μειώστε την κατανάλωση ενέργειας
Το κβαντισμένο μοντέλο όχι μόνο μειώνει την ανάγκη για υπολογιστικούς πόρους αλλά μειώνει και την κατανάλωση ενέργειας. Αυτό είναι ιδιαίτερα σημαντικό για συσκευές που τροφοδοτούνται με μπαταρίες, όπως smartphone, συσκευές IoT κ.λπ., όπου η χαμηλή κατανάλωση ενέργειας σημαίνει μεγαλύτερη διάρκεια ζωής της μπαταρίας.

4. Εύκολη ανάπτυξη συσκευών αιχμής
Πολλά μεγάλα μοντέλα εκπαιδεύτηκαν και αναπτύχθηκαν αρχικά στο cloud, αλλά με την ανάπτυξη του edge computing, όλο και περισσότερα σενάρια εφαρμογών απαιτούν την ανάπτυξη μοντέλων σε συσκευές αιχμής. Με περιορισμένη υπολογιστική ισχύ και πόρους αποθήκευσης σε συσκευές αιχμής, η κβαντοποίηση μπορεί να βοηθήσει αυτά τα μοντέλα να λειτουργούν πιο αποτελεσματικά σε συσκευές αιχμής.

5. Μειώστε τις απαιτήσεις εύρους ζώνης
Κατά τη διαδικασία κατανεμημένων συμπερασμάτων ή ενημερώσεων μοντέλου, η κβαντοποίηση μπορεί να μειώσει το εύρος ζώνης που απαιτείται για τη μεταφορά μοντέλου. Αυτό είναι χρήσιμο για περιβάλλοντα με περιορισμένο εύρος ζώνης δικτύου, όπως συσκευές IoT σε απομακρυσμένες περιοχές.

6. Διατηρήστε την απόδοση του μοντέλου
Αν και η κβαντοποίηση εισάγει μια ορισμένη απώλεια ακρίβειας, η αρχική απόδοση του μοντέλου μπορεί να διατηρηθεί σε μεγάλο βαθμό μέσω κατάλληλων μεθόδων κβαντοποίησης (όπως κβαντοποίηση μικτής ακρίβειας, κβαντοποίηση μετά την εκπαίδευση, εκπαίδευση ποσοτικής αντίληψης κ.λπ.). Επομένως, σε πρακτικές εφαρμογές, η ποσοτικοποίηση μπορεί να επιτύχει μια καλή ισορροπία μεταξύ απόδοσης και αποδοτικότητας.

Αναφορά μνήμης

δακτυλογραφώ	Κάθε δισεκατομμύριο παράμετροι πρέπει να καταλαμβάνουν μνήμη
επίπλευση32	4Ζ
ΠΠ16/ΒΔ16	2Ζ
ιντ8	1Ζ
ΙΝΤ4	0,5 γρ

FP64 (Διπλή ακρίβεια)

Η κινητή υποδιαστολή 64-bit, συνήθως μια δυαδική μορφή κινητής υποδιαστολής διπλής ακρίβειας που ορίζεται από το IEEE 754, έχει:

Σύμβολο 1 ψηφίου
11ψήφιο ευρετήριο
52 δεκαδικά ψηφία

Εύρος: ~2.23e-308 ... ~1.80e308 με πλήρη δεκαδική ακρίβεια 15-17.

Χρήση:

Αυτή η μορφή χρησιμοποιείται για επιστημονικούς υπολογισμούς που απαιτούν υψηλή ακρίβεια.
Συνήθως δεν χρησιμοποιείται για υπολογισμούς βαθιάς μάθησης.
Υποστήριξη λογισμικού:
Αντιπροσωπεύει τον διπλό τύπο στα περισσότερα συστήματα C/C++.
Υποστηρίζεται σε TensorFlow (π.χ. tf.float64) / PyTorch (π.χ. torch.float64 ή torch.double).
Υποστήριξη υλικού:
Συνήθως υποστηρίζεται σε επεξεργαστές x86.
Οι περισσότερες GPU, ειδικά οι GPU παιχνιδιών, συμπεριλαμβανομένης της σειράς RTX, είναι σοβαρά περιορισμένες στην απόδοση του FP64 (συνήθως το 1/32 της απόδοσης του FP32 αντί για το 1/2).
Οι πρόσφατες απεριόριστες GPU που υποστηρίζονται από το FP64 περιλαμβάνουν GP100/100/102/104 σε Tesla P40/P4 και Quadro GP100, GV100 σε Tesla V100/Quadro GV100/Titan V και το πρόσφατα ανακοινωθέν GA100 στο A100 (είναι ενδιαφέρον ότι η νέα αρχιτεκτονική Ampere έχει τρίτη γενιά) σε σύγκριση με τους πυρήνες Tensor με δυνατότητα FP64 Περιλαμβάνεται πλέον η νέα επεξεργασία FP64 συμβατή με IEEE, η οποία προσφέρει 2,5 φορές την απόδοση FP64 του V100.

FP32 (Πλήρης ακρίβεια)

Αυτή η μορφή είναι εδώ και καιρό ένα άλογο εργασίας για βαθιά μάθηση. Μια άλλη μορφή IEEE 754, κινητής υποδιαστολής μονής ακρίβειας έχει:

Σύμβολο 1 ψηφίου
8ψήφιο ευρετήριο
23 δεκαδικά ψηφία
Στην ιδανική περίπτωση, τόσο η εκπαίδευση όσο και η εξαγωγή συμπερασμάτων θα πρέπει να γίνονται στο FP32, αλλά το FP32 είναι δύο φορές πιο αργό από το FP16/BF16, επομένως στην πράξη χρησιμοποιούνται συχνά μέθοδοι μικτής ακρίβειας, όπου τα βάρη FP32 χρησιμοποιούνται ως το ακριβές «κύριο βάρος», τα βάρη FP16/BF16 χρησιμοποιούνται για υπολογισμούς διάδοσης προς τα εμπρός και προς τα πίσω για τη βελτίωση της ταχύτητας προπόνησης και, τέλος, τα κυρίαρχα βάρη FP32 ενημερώνονται με διαβαθμίσεις FP16/BF16 στη φάση ενημέρωσης κλίσης.

Κατά τη διάρκεια της προπόνησης, το κυρίαρχο βάρος είναι πάντα FP32. Στην πράξη, τα βάρη μισής ακρίβειας παρέχουν συχνά παρόμοια ακρίβεια με το FP32 κατά την εξαγωγή συμπερασμάτων - επειδή τα ακριβή βάρη FP32 χρειάζονται μόνο όταν ενημερώνεται η κλίση του μοντέλου. Αυτό σημαίνει ότι μπορούμε να χρησιμοποιήσουμε βάρη μισής ακρίβειας κατά την εξαγωγή συμπερασμάτων, ώστε να έχουμε το ίδιο αποτέλεσμα μόνο με τη μισή μνήμη GPU.

Εύρος: ~1.18e-38 ... ~3.40e38 με ακρίβεια 6-9 σημαντικών δεκαδικών ψηφίων.

Χρήση:

Ο τυπικός τύπος υπολογιστών νευρωνικών δικτύων για μεγάλο χρονικό διάστημα. Τα βάρη, οι ενεργοποιήσεις και άλλες τιμές στα νευρωνικά δίκτυα έχουν από καιρό προεπιλεγεί στο FP32.
Για πολλούς επιστημονικούς υπολογισμούς, ειδικά επαναληπτικούς, η ακρίβεια δεν είναι αρκετή, οδηγώντας σε συσσώρευση σφαλμάτων.
Υποστήριξη λογισμικού:
Αντιπροσωπεύει τον τύπο πλωτήρα στα περισσότερα συστήματα C/C++.
Υποστηρίζεται σε TensorFlow (π.χ. tf.float32) / PyTorch (π.χ. torch.float32 ή torch.float).
Υποστήριξη υλικού:
Συνήθως υποστηρίζεται σε επεξεργαστές x86.
Συνήθως υποστηρίζεται από GPU NVIDIA/AMD.

FP16 (Μισή ακρίβεια)

Ομοίως, η τυπική μορφή IEEE 754, η μορφή κινητής υποδιαστολής μισής ακρίβειας έχει:

Σύμβολο 1 ψηφίου
5ψήφιο ευρετήριο
10 δεκαδικά ψηφία
Ο αριθμός FP16 έχει πολύ χαμηλότερο αριθμητικό εύρος από το FP32. Ως εκ τούτου, το ΠΠ16 διατρέχει κίνδυνο υπερχείλισης (όταν χρησιμοποιείται για την αναπαράσταση πολύ μεγάλων αριθμών) και υποχείλισης (όταν χρησιμοποιείται για την αναπαράσταση πολύ μικρών αριθμών). Για παράδειγμα, όταν κάνετε 10k * 10k, το τελικό αποτέλεσμα θα πρέπει να είναι 100M, το οποίο το FP16 δεν μπορεί να αναπαραστήσει επειδή ο μέγιστος αριθμός που μπορεί να αντιπροσωπεύει το FP16 είναι 64k. Έτσι καταλήγετε με NaN (Not a Number) στους υπολογισμούς νευρωνικών δικτύων, επειδή οι υπολογισμοί γίνονται με σειρά στρώσεων και παρτίδας, οπότε μόλις εμφανιστεί το NaN, όλοι οι προηγούμενοι υπολογισμοί καταστρέφονται. Γενικά, αυτό μπορεί να μετριαστεί με την κλιμάκωση των απωλειών, αλλά αυτή η προσέγγιση δεν λειτουργεί πάντα.

Εύρος: ~5.96e−8 (6.10e−5) ... 65504, με ακρίβεια 4 σημαντικών δεκαδικών ψηφίων.

Χρήση:

Η βαθιά μάθηση τείνει να χρησιμοποιεί το FP16 αντί για το FP32, καθώς οι υπολογισμοί χαμηλότερης ακρίβειας δεν φαίνεται να έχουν σημασία για τα νευρωνικά δίκτυα. Η επιπλέον ακρίβεια δεν κάνει τίποτα, και ταυτόχρονα είναι πιο αργή, απαιτώντας περισσότερη μνήμη και επιβραδύνοντας την επικοινωνία.
Μπορεί να χρησιμοποιηθεί για προπόνηση, συνήθως χρησιμοποιώντας προπόνηση μικτής ακρίβειας (TensorFlow/PyTorch).
Μπορεί να χρησιμοποιηθεί για κβαντοποίηση μετά την προπόνηση για την επιτάχυνση της εξαγωγής συμπερασμάτων (TensorFlow Lite). Άλλες μορφές που χρησιμοποιούνται για την κβαντοποίηση μετά την εκπαίδευση περιλαμβάνουν τους ακέραιους αριθμούς INT8 (ακέραιοι 8-bit), INT4 (4-bit) και ακόμη και INT1 (δυαδικές τιμές).
Υποστήριξη λογισμικού:
Δεν είναι προς το παρόν στο πρότυπο C/C++ (αλλά υπάρχει μια πρόταση short float). Ορισμένα συστήματα C/C++ υποστηρίζουν __fp16 τύπους. Διαφορετικά, μπορεί να χρησιμοποιηθεί με ειδικές βιβλιοθήκες.
Υποστηρίζεται σε TensorFlow (π.χ. tf.float16) / PyTorch (π.χ. torch.float16 ή torch.half).
Υποστήριξη υλικού:
Οι επεξεργαστές x86 δεν υποστηρίζονται (ως μοναδικός τύπος).
Η υποστήριξη σε παλαιότερες GPU παιχνιδιών είναι κακή (απόδοση 32/1 για το FP64, δείτε την ανάρτηση για τις GPU για περισσότερες λεπτομέρειες). Αυτή τη στιγμή υποστηρίζεται καλά σε σύγχρονες GPU, όπως η σειρά NVIDIA RTX.

BFLOAT16 (Μισή ακρίβεια)

Μια άλλη μορφή 16-bit που αναπτύχθηκε αρχικά από την Google ονομάζεται "Brain Floating Point Format" ή "bfloat16" για συντομία. Το όνομα προέρχεται από το Google Brain.

Το αρχικό IEEE FP16 σχεδιάστηκε χωρίς να λαμβάνονται υπόψη οι εφαρμογές βαθιάς μάθησης και το δυναμικό του εύρος ήταν πολύ στενό. BFLOAT16 λύνει αυτό το πρόβλημα, παρέχοντας το ίδιο δυναμικό εύρος με το FP32.

Επομένως, BFLOAT16 έχετε:

Σύμβολο 1 ψηφίου
8ψήφιο ευρετήριο
7 δεκαδικά ψηφία

Η μορφή bfloat16 περικόπτεται σε IEEE 754 FP32, επιτρέποντας τη γρήγορη μετατροπή από και προς το IEEE 754 FP32. Κατά τη μετατροπή σε μορφή bfloat16, τα εκθετικά bit διατηρούνται, ενώ τα πεδία mantissa μπορούν να μειωθούν με περικοπή.

Εύρος: ~1.18e-38 ... ~3.40e38 με 3 σημαντικά δεκαδικά ψηφία.
Χρήση:

Τώρα φαίνεται να αντικαθιστά το FP16. Σε αντίθεση με το FP16, το οποίο συχνά απαιτεί ειδική επεξεργασία μέσω τεχνικών όπως η κλιμάκωση απωλειών, το BF16 είναι σχεδόν μια άμεση αντικατάσταση του FP32 κατά την εκπαίδευση και τη λειτουργία βαθιών νευρωνικών δικτύων.
Υποστήριξη λογισμικού:
Όχι στο πρότυπο C/C++. Μπορεί να χρησιμοποιηθεί με ειδικές βιβλιοθήκες.
Υποστηρίζεται σε TensorFlow (π.χ. tf.bfloat16) / PyTorch (π.χ. torch.bfloat16).

ΤΦ32

Το TensorFloat-32 ή TF32 είναι η νέα μαθηματική λειτουργία στις GPU NVIDIA A100.

Χρησιμοποιώντας τα ίδια μάντισσα 10-bit με τα μαθηματικά μισής ακρίβειας (FP16), το TF32 αποδεικνύεται ότι έχει αρκετό χώρο για να καλύψει τις απαιτήσεις ακρίβειας του φόρτου εργασίας AI. Και το TF32 χρησιμοποιεί το ίδιο ευρετήριο 8-bit με το FP32, ώστε να μπορεί να υποστηρίξει το ίδιο αριθμητικό εύρος.

Τεχνικά, είναι μια μορφή 19-bit. Σκεφτείτε το ως μια εκτεταμένη BFLOAT16 ακρίβειας, όπως το "BFLOAT19" ή μια μειωμένη ακρίβεια όπως το FP32.

Έτσι, το TF32 έχει:

Σύμβολο 1 ψηφίου
8ψήφιο ευρετήριο
10 δεκαδικά ψηφία
Το πλεονέκτημα του TF32 είναι ότι έχει την ίδια μορφή με το FP32. Κατά τον υπολογισμό του εσωτερικού γινομένου με TF32, η μάντισσα του τελεστέου εισόδου στρογγυλοποιείται από 23 σε 10 bit. Οι τελεστέοι στρογγυλοποίησης πολλαπλασιάζονται ακριβώς και συσσωρεύονται στο κανονικό FP32.

Το TF32 Tensor Core εκτελείται σε εισόδους FP32 και παράγει αποτελέσματα στο FP32 χωρίς αλλαγές κώδικα. Οι πράξεις εκτός μήτρας εξακολουθούν να χρησιμοποιούν το ΠΠ32. Αυτό παρέχει έναν εύκολο τρόπο επιτάχυνσης των δεδομένων εισόδου/εξόδου του FP32 σε πλαίσια βαθιάς μάθησης και HPC.

Εύρος: ~1.18e-38 ... ~3.40e38 με ακρίβεια 4 σημαντικών δεκαδικών ψηφίων.
Χρήση:

Ένα από τα σπουδαία πράγματα για το TF32 είναι ότι χρειάζεται υποστήριξη μεταγλωττιστή μόνο στο βαθύτερο επίπεδο, δηλαδή μέσα στον μεταγλωττιστή CUDA. Ο υπόλοιπος κώδικας βλέπει απλώς το FP32 με λιγότερη ακρίβεια, αλλά το ίδιο δυναμικό εύρος. Η χρήση του TF32 είναι κυρίως για να πραγματοποιείτε κλήσεις στη βιβλιοθήκη για να δείξετε εάν λειτουργεί σωστά. Η παρουσία του TF32 επιτρέπει γρήγορες προσθήκες, εκμεταλλευόμενοι την ταχύτητα των πυρήνων Tensor χωρίς πολλή δουλειά.
Μορφές όπως το FP16 και το BFLOAT16 απαιτούν περισσότερες τροποποιήσεις, καθώς περιλαμβάνουν διαφορετικές διατάξεις bit. Αλλά η χρήση αυτών των μορφών μειώνει το εύρος ζώνης της μνήμης, επιτρέποντας ταχύτερη εκτέλεση.
Για σύγκριση, η κορυφαία απόδοση του A100 είναι:

FP32 χωρίς πυρήνες τανυστή: 19,5 TFLOPS
Πυρήνες Tensor TF32: 156 TFLOPS (άρα η χρήση του TF32 αντί του FP32 διευκολύνει την αύξηση της ταχύτητας).
FP16/BF16 Tensor Cores: 312 TFLOPS (επομένως, μια λογική μετάβαση σε FP16/BF16 μπορεί να φέρει περισσότερα κέρδη ταχύτητας, αλλά με υψηλότερο κόστος).
Υποστήριξη λογισμικού:
Όχι στο πρότυπο C/C++.
Υποστηρίζεται το CUDA 11.
Υποστήριξη υλικού:
GPU: Το NVIDIA A100 είναι το πρώτο μοντέλο που υποστηρίζεται

ΠΠ8

Εισήχθη από την GPU H100 και επιτρέπει μεγαλύτερο πολλαπλασιασμό και συνέλιξη πινάκων, αλλά με χαμηλότερη ακρίβεια.

Οι τύποι δεδομένων FP100 που υποστηρίζονται από το H8 είναι στην πραγματικότητα 2 διαφορετικοί τύποι δεδομένων που μπορούν να χρησιμοποιηθούν για διαφορετικά μέρη της εκπαίδευσης νευρωνικών δικτύων:

E4M3 - αποτελείται από 1 συμβολικό bit, 4 εκθετικά bit και 3 δεκαδικά ψηφία. Μπορεί να αποθηκεύσει έως +/-448 και nan.
E5M2 - αποτελείται από 1 bit προσήμου, 5 εκθετικά bit και 2 δεκαδικά ψηφία. Μπορεί να αποθηκεύσει τιμές έως +/-57344, +/-inf και nan. Η αντιστάθμιση της αύξησης του δυναμικού εύρους είναι ότι οι αποθηκευμένες τιμές είναι λιγότερο ακριβείς.

Δομή τύπων δεδομένων κινητής υποδιαστολής. Όλες οι τιμές που εμφανίζονται (στα FP16, BF16, FP8 E4M3 και FP8 E5M2) είναι η πλησιέστερη αναπαράσταση της τιμής 0,3952.

Και οι δύο τύποι μπορούν να χρησιμοποιηθούν κατά την εκπαίδευση ενός νευρωνικού δικτύου. Γενικά, η ενεργοποίηση προς τα εμπρός και τα βάρη απαιτούν μεγαλύτερη ακρίβεια, επομένως είναι καλύτερο να χρησιμοποιείτε τον τύπο δεδομένων E4M3 κατά τη διέλευση προς τα εμπρός. Ωστόσο, στην οπίσθια διάδοση, η κλίση που ρέει μέσω του δικτύου είναι γενικά λιγότερο επιρρεπής σε απώλεια ακρίβειας, αλλά απαιτεί υψηλότερο δυναμικό εύρος. Επομένως, είναι καλύτερο να τα αποθηκεύσετε χρησιμοποιώντας τη μορφή δεδομένων E5M2. Το H100 TensorCore υποστηρίζει οποιονδήποτε συνδυασμό αυτών των τύπων ως είσοδο, επιτρέποντάς μας να αποθηκεύουμε κάθε τανυστήρα με την ακρίβεια που προτιμά.

Αναφορά:

Η σύνδεση με υπερσύνδεσμο είναι ορατή.
Η σύνδεση με υπερσύνδεσμο είναι ορατή.

Διπλή ακρίβεια (FP64), Μονή ακρίβεια (P32, TF32), Μισή ακρίβεια (FP16, BF16)

σχετικές αναρτήσεις

Ενότητες που προβλήθηκαν