[IA] (6) Brève introduction au format de fichier grand modèle GGUF

Petite ordure · Publié sur 07/02/2025 10:51:47

Introduction au format de fichier grand modèle GGUF

Des frameworks tels que PyTorch sont généralement utilisés pour le développement de grands modèles de langage, et leurs résultats de pré-entraînement sont généralement sauvegardés dans le format binaire correspondant, comme le fichier suffixe pt qui est généralement le résultat binaire de pré-entraînement sauvegardé par le framework PyTorch.

Cependant, un problème très important avec le stockage de grands modèles est que leurs fichiers modèles sont énormes, et la structure, les paramètres, etc. du modèle affectent également l’effet de raisonnement et les performances du modèle. Afin de rendre les grands modèles plus efficaces en stockage et en échange, il existe de gros fichiers de modèles dans différents formats. Parmi eux, GGUF est un format de fichier de grande taille très important.

GGUF signifie GPT-Generated Unified Format, qui est un format de fichier de grande taille défini et publié par Georgi Gerganov. Georgi Gerganov est le fondateur du célèbre projet open source llama.cpp.

GGUF est une spécification pour les fichiers au format binaire, et les résultats originaux de pré-entraînement des grands modèles sont convertis en format GGUF et peuvent être chargés et utilisés plus rapidement et consomment moins de ressources. La raison en est que GGUF utilise une variété de technologies pour préserver les résultats de pré-entraînement des grands modèles, notamment l’utilisation de formats d’encodage binaire compacts, de structures de données optimisées, de mappage mémoire, etc.

Différences entre GGUF, GGML, GGMF et GGJT

GGUF est un format binaire conçu pour charger et sauvegarder rapidement les modèles. C’est le format de fichier successeur de GGML, GGMF et GGJT, garantissant la clarté en incluant toutes les informations nécessaires au chargement du modèle. Il est également conçu pour être évolutif afin que de nouvelles informations puissent être ajoutées au modèle sans compromettre la compatibilité.

GGML (Pas de version) : Format de base sans versionnement ni alignement.
GGMF (versionné) : Identique à GGML, mais avec versionnement.
GGJT : Aligner les tenseurs pour permettre une utilisation avec des mmaps à aligner. V1, V2 et V3 sont identiques, mais les versions ultérieures utilisent des schémas de quantification différents qui ne sont pas compatibles avec les versions précédentes.

Pourquoi les grands fichiers de modèles au format GGUF fonctionnent bien

Le format de fichier GGUF peut charger les modèles plus rapidement grâce à plusieurs fonctionnalités clés :

Format binaire : GGUF, en tant que format binaire, peut être lu et analysé plus rapidement que les fichiers texte. Les binaires sont généralement plus compacts, réduisant les opérations d’E/S et le temps de traitement nécessaires à la lecture et à l’analyse syntatique.

Structures de données optimisées : GGUF peut utiliser des structures de données spécialement optimisées qui permettent un accès et un chargement rapides des données du modèle. Par exemple, les données peuvent être organisées selon les besoins pour le chargement de la mémoire afin de réduire le traitement en charge.

Compatibilité du mappage mémoire (mmap) : Si GGUF supporte le mmap mémoire (mmap), cela permet de mapper directement les données du disque vers l’espace d’adressage mémoire, ce qui permet un chargement plus rapide des données. De cette façon, les données peuvent être accessibles sans charger réellement tout le fichier, ce qui est particulièrement efficace pour les grands modèles.

Sérialisation et désérialisation efficaces : GGUF peut utiliser des méthodes efficaces de sérialisation et de désérialisation, ce qui signifie que les données des modèles peuvent être rapidement converties en formats utilisables.

Peu de dépendances et références externes : Si le format GGUF est conçu pour être autonome, c’est-à-dire que toutes les informations requises sont stockées dans un seul fichier, cela réduira les opérations de recherche et de lecture externes requises lors de l’analyse et du chargement du modèle.

Compression des données : Le format GGUF peut employer des techniques efficaces de compression des données, réduisant la taille des fichiers et accélérant ainsi le processus de lecture.

Indexation et mécanismes d’accès optimisés : Les mécanismes d’indexation et d’accès aux données dans les fichiers peuvent être optimisés pour accélérer la recherche et le chargement de fragments de données spécifiques.

En résumé, GGUF permet un chargement rapide des modèles grâce à diverses méthodes d’optimisation, ce qui est particulièrement important pour les scénarios nécessitant des chargements fréquents de différents modèles.

Modèles courants pour l’apprentissage profond (.pt, . onnx)
https://www.itsvse.com/thread-10929-1-1.html

Fichier d’exemple GGUF :La connexion hyperlientérée est visible.
llama.cpp Adresse du projet :La connexion hyperlientérée est visible.

[IA] (6) Brève introduction au format de fichier grand modèle GGUF

Articles connexes