[IA] (6) Una breve introducción al formato de archivo de modelo grande GGUF

Pequeña basura · Publicado en 7/2/2025 10:51:47

Introducción al formato de archivo de modelo grande GGUF

Frameworks como PyTorch suelen usarse para el desarrollo de grandes modelos de lenguaje, y sus resultados previos al entrenamiento suelen guardarse en el formato binario correspondiente, como el archivo sufijo pt que suele ser el resultado binario de pre-entrenamiento guardado por el framework PyTorch.

Sin embargo, un problema muy importante con el almacenamiento de modelos grandes es que sus archivos de modelo son enormes, y la estructura, los parámetros, etc. del modelo también afectan al efecto de razonamiento y al rendimiento del modelo. Para hacer que los modelos grandes sean más eficientes en el almacenamiento y el intercambio, existen archivos de modelo grandes en diferentes formatos. Entre ellas, GGUF es un formato de archivo de modelo grande muy importante.

GGUF significa GPT-Generated Unified Format, que es un formato de archivo de gran tamaño definido y publicado por Georgi Gerganov. Georgi Gerganov es el fundador del famoso proyecto de código abierto llama.cpp.

GGUF es una especificación para archivos en formato binario, y los resultados originales de preentrenamiento de modelos grandes se convierten en formato GGUF y pueden cargarse y usarse más rápido y consumir menos recursos. La razón es que GGUF utiliza una variedad de tecnologías para preservar los resultados previos al entrenamiento de grandes modelos, incluyendo el uso de formatos de codificación binaria compacta, estructuras de datos optimizadas, mapeo de memoria, etc.

Diferencias entre GGUF, GGML, GGMF y GGJT

GGUF es un formato binario diseñado para cargar y guardar modelos rápidamente. Es el formato sucesor de GGML, GGMF y GGJT, asegurando claridad al incluir toda la información necesaria para cargar el modelo. También está diseñado para ser escalable y así añadir nueva información al modelo sin romper la compatibilidad.

GGML (Sin versión): Formato base sin versionado ni alineación.
GGMF (versionado): Igual que GGML, pero con versionado.
GGJT: Alinear tensores para permitir su uso con mmaps que necesitan ser alineados. V1, V2 y V3 son iguales, pero las versiones posteriores utilizan esquemas de cuantización diferentes que no son compatibles con versiones anteriores.

Por qué los archivos de modelos grandes en formato GGUF funcionan bien

El formato de archivo GGUF puede cargar modelos más rápido gracias a varias características clave:

Formato binario: GGUF, como formato binario, puede leerse y analizarse más rápido que los archivos de texto. Los binarios suelen ser más compactos, reduciendo las operaciones de E/S y el tiempo de procesamiento necesarios para la lectura y el análisis sintáctico.

Estructuras de datos optimizadas: GGUF puede emplear estructuras de datos especialmente optimizadas que permiten el acceso y carga rápida de los datos del modelo. Por ejemplo, los datos pueden organizarse según sea necesario para la carga de memoria y así reducir el procesamiento al cargar.

Compatibilidad con el mapeo de memoria (mmap): Si GGUF soporta mapeo de memoria (mmap), esto permite que los datos se mapeen directamente del espacio de direcciones del disco al espacio de direcciones de memoria, lo que resulta en una carga de datos más rápida. De este modo, se puede acceder a los datos sin necesidad de cargar realmente todo el archivo, lo cual es especialmente efectivo para modelos grandes.

Serialización y deserialización eficientes: GGUF puede utilizar métodos eficientes de serialización y deserialización, lo que significa que los datos de modelos pueden convertirse rápidamente en formatos utilizables.

Pocas dependencias y referencias externas: Si el formato GGUF está diseñado para ser autónomo, es decir, toda la información requerida se almacena en un solo archivo, esto reducirá las operaciones de búsqueda y lectura externas requeridas al analizar y cargar el modelo.

Compresión de datos: El formato GGUF puede emplear técnicas efectivas de compresión de datos, reduciendo el tamaño de los archivos y acelerando así el proceso de lectura.

Mecanismos de indexación y acceso optimizados: Los mecanismos de indexación y acceso a los datos en archivos pueden optimizarse para que sea necesario encontrar y cargar fragmentos de datos específicos más rápido.

En resumen, GGUF logra una carga rápida de modelos mediante diversos métodos de optimización, lo cual es especialmente importante para escenarios que requieren cargas frecuentes de diferentes modelos.

Modelos comunes para el aprendizaje profundo (.pt, . onnx)
https://www.itsvse.com/thread-10929-1-1.html

Archivo de ejemplo GGUF:El inicio de sesión del hipervínculo es visible.
llama.cpp Dirección del proyecto:El inicio de sesión del hipervínculo es visible.

[IA] (6) Una breve introducción al formato de archivo de modelo grande GGUF

Publicaciones relacionadas