[IA] (6) Uma breve introdução ao formato de arquivo de modelo grande GGUF

Pequeno · Publicado em 07/02/2025 10:51:47

Introdução ao formato de arquivo de grande modelo GGUF

Frameworks como o PyTorch são geralmente usados para o desenvolvimento de grandes modelos de linguagem, e seus resultados pré-treinamento geralmente são salvos no formato binário correspondente, como o arquivo de sufixo pt geralmente é o resultado binário pré-treinamento salvo pelo framework PyTorch.

No entanto, um problema muito importante com o armazenamento de grandes modelos é que seus arquivos de modelo são enormes, e a estrutura, os parâmetros, etc. do modelo também afetam o efeito de raciocínio e o desempenho do modelo. Para tornar modelos grandes mais eficientes em armazenamento e troca, existem arquivos de modelos grandes em diferentes formatos. Entre eles, o GGUF é um formato de arquivo de modelo grande muito importante.

GGUF significa GPT-Generated Unified Format, que é um formato de arquivo de grande formato definido e lançado por Georgi Gerganov. Georgi Gerganov é o fundador do famoso projeto open source llama.cpp.

GGUF é uma especificação para arquivos em formato binário, e os resultados originais de pré-treinamento de grandes modelos são convertidos para o formato GGUF e podem ser carregados e usados mais rapidamente, consumindo menos recursos. A razão é que o GGUF utiliza uma variedade de tecnologias para preservar os resultados pré-treinamento de grandes modelos, incluindo o uso de formatos de codificação binária compacta, estruturas de dados otimizadas, mapeamento de memória, etc.

Diferenças entre GGUF, GGML, GGMF e GGJT

GGUF é um formato binário projetado para carregar e salvar modelos rapidamente. É o formato de arquivo sucessor do GGML, GGMF e GGJT, garantindo clareza ao incluir todas as informações necessárias para carregar o modelo. Também foi projetado para ser escalável, permitindo que novas informações possam ser adicionadas ao modelo sem quebrar a compatibilidade.

GGML (Sem Versão): Formato base sem versionamento ou alinhamento.
GGMF (Versionado): Igual ao GGML, mas com versionamento.
GGJT: Alinhar tensores para permitir o uso com mmaps que precisam ser alinhados. v1, v2 e v3 são os mesmos, mas versões posteriores usam esquemas de quantização diferentes que não são compatíveis com versões anteriores.

Por que os arquivos de modelos grandes no formato GGUF têm bom desempenho

O formato de arquivo GGUF consegue carregar modelos mais rápido devido a várias características-chave:

Formato binário: O GGUF, como formato binário, pode ser lido e analisado mais rapidamente que arquivos de texto. Binários geralmente são mais compactos, reduzindo as operações de E/S e o tempo de processamento necessários para leitura e análise sintática.

Estruturas de Dados Otimizadas: O GGUF pode empregar estruturas de dados especialmente otimizadas que suportam acesso rápido e carregamento dos dados do modelo. Por exemplo, os dados podem ser organizados conforme necessário para o carregamento da memória, reduzindo o processamento durante a carga.

Compatibilidade com Mapeamento de Memória (mmap): Se o GGUF suportar mapeamento de memória (mmap), isso permite que os dados sejam mapeados diretamente do espaço de endereço do disco para o espaço de endereços de memória, resultando em carregamento de dados mais rápido. Dessa forma, os dados podem ser acessados sem carregar o arquivo inteiro, o que é especialmente eficaz para modelos grandes.

Serialização e Deserialização Eficiente: O GGUF pode usar métodos eficientes de serialização e desserialização, o que significa que os dados do modelo podem ser rapidamente convertidos em formatos utilizáveis.

Poucas dependências e referências externas: Se o formato GGUF for projetado para ser autônomo, ou seja, todas as informações necessárias estiverem armazenadas em um único arquivo, isso reduzirá as operações de busca e leitura externas exigidas ao analisar e carregar o modelo.

Compressão de dados: O formato GGUF pode empregar técnicas eficazes de compressão de dados, reduzindo o tamanho dos arquivos e, assim, acelerando o processo de leitura.

Mecanismos de Indexação e Acesso Otimizados: Os mecanismos de indexação e acesso aos dados em arquivos podem ser otimizados para tornar a busca e carregamento de fragmentos específicos mais rápidos.

Em resumo, o GGUF alcança carregamento rápido de modelos por meio de vários métodos de otimização, o que é particularmente importante para cenários que exigem carregamento frequente de diferentes modelos.

Modelos comuns para deep learning (.pt, . onnx)
https://www.itsvse.com/thread-10929-1-1.html

Arquivo de exemplo GGUF:O login do hiperlink está visível.
llama.cpp Endereço do Projeto:O login do hiperlink está visível.

[IA] (6) Uma breve introdução ao formato de arquivo de modelo grande GGUF

Posts Relacionados