[AI] (6) Een korte introductie tot het grote modelbestandsformaat GGUF

Klein tuig · Geplaatst op 07-02-2025 10:51:47

Introductie tot het GGUF grote modelbestandsformaat

Frameworks zoals PyTorch worden meestal gebruikt voor de ontwikkeling van grote taalmodellen, en hun pre-trainingsresultaten worden meestal opgeslagen in het bijbehorende binaire formaat, zoals het pt-achtervoegselbestand meestal het binaire pre-training resultaat is dat door het PyTorch-framework wordt opgeslagen.

Een zeer belangrijk probleem met het opslaan van grote modellen is echter dat hun modelbestanden enorm zijn, en de structuur, parameters, enzovoort van het model ook het redeneereffect en de prestaties van het model beïnvloeden. Om grote modellen efficiënter te maken in opslag en uitwisseling, zijn er grote modelbestanden in verschillende formaten. Onder hen is GGUF een zeer belangrijk bestandsformaat voor grote modellen.

GGUF-bestand staat voor GPT-Generated Unified Format, een groot modelbestandsformaat dat is gedefinieerd en uitgebracht door Georgi Gerganov. Georgi Gerganov is de oprichter van het beroemde open source-project llama.cpp.

GGUF is een specificatie voor bestanden in binair formaat, en de oorspronkelijke pre-training resultaten van het grote model worden omgezet naar GGUF-formaat en kunnen sneller worden geladen en gebruikt en kosten minder middelen. De reden hiervoor is dat GGUF verschillende technologieën gebruikt om de pre-training resultaten van grote modellen te behouden, waaronder het gebruik van compacte binaire coderingsformaten, geoptimaliseerde datastructuren, geheugenmapping, enzovoort.

GGUF, GGML, GGMF en GGJT verschillen

GGUF is een binair formaat dat is ontworpen om modellen snel te laden en op te slaan. Het is het opvolgerbestandsformaat van GGML, GGMF en GGJT, en zorgt voor duidelijkheid door alle informatie op te nemen die nodig is om het model te laden. Het is ook zo ontworpen dat het schaalbaar is, zodat nieuwe informatie aan het model kan worden toegevoegd zonder de compatibiliteit te verbreken.

GGML (Geen Versie): Basisformaat zonder versiewijziging of uitlijning.
GGMF (Versieed): Hetzelfde als GGML, maar dan met versiebeheersing.
GGJT: Tensoren uitlijnen om gebruik mogelijk te maken met mmaps die uitgelijnd moeten worden. V1, V2 en V3 zijn hetzelfde, maar latere versies gebruiken andere kwantisatieschema's die niet compatibel zijn met eerdere versies.

Waarom GGUF-formaat grote modelbestanden goed presteren

Het GGUF-bestandsformaat kan modellen sneller laden dankzij verschillende belangrijke functies:

Binair formaat: GGUF kan als binair formaat sneller worden gelezen en geanalyseerd dan tekstbestanden. Binaire bestanden zijn over het algemeen compacter, waardoor de I/O-bewerkingen en verwerkingstijd die nodig zijn voor lezen en parsen worden verminderd.

Geoptimaliseerde datastructuren: GGUF kan speciaal geoptimaliseerde datastructuren gebruiken die snelle toegang en laadmogelijkheden voor modelgegevens ondersteunen. Gegevens kunnen bijvoorbeeld worden georganiseerd wanneer nodig voor geheugenbelasting om de verwerking bij belasting te verminderen.

Geheugentoewijzing (mmap) compatibiliteit: Als GGUF geheugentoewijzing (mmap) ondersteunt, maakt dit het mogelijk om gegevens direct van schijf naar geheugenadresruimte te koppelen, wat resulteert in snellere gegevensbelasting. Op deze manier kan de data worden benaderd zonder het hele bestand daadwerkelijk te laden, wat vooral effectief is voor grote modellen.

Efficiënte serialisatie en deserialisatie: GGUF kan efficiënte serialisatie- en deserialisatiemethoden gebruiken, wat betekent dat modeldata snel kan worden omgezet in bruikbare formaten.

Enkele afhankelijkheden en externe referenties: Als het GGUF-formaat is ontworpen om zelfstandig te zijn, dat wil zeggen dat alle benodigde informatie in één bestand wordt opgeslagen, vermindert dit de externe bestandsopzoeking en leesbewerkingen die nodig zijn bij het parsen en laden van het model.

Datacompressie: Het GGUF-formaat kan effectieve datacompressietechnieken gebruiken, waardoor de bestandsgroottes worden verminderd en het leesproces zo wordt versneld.

Geoptimaliseerde indexerings- en toegangsmechanismen: De indexerings- en toegangsmechanismen voor data in bestanden kunnen worden geoptimaliseerd om het vinden en laden van specifieke datafragmenten sneller te maken.

Samenvattend bereikt GGUF snelle modelbelasting via verschillende optimalisatiemethoden, wat vooral belangrijk is voor scenario's die frequente belasting van verschillende modellen vereisen.

Veelgebruikte modellen voor deep learning (.pt, . onnx) bestandsformaat
https://www.itsvse.com/thread-10929-1-1.html

GGUF voorbeeldbestand:De hyperlink-login is zichtbaar.
llama.cpp Projectadres:De hyperlink-login is zichtbaar.

[AI] (6) Een korte introductie tot het grote modelbestandsformaat GGUF

Gerelateerde berichten