[AI] (6) O scurtă introducere în formatul de fișier model mare GGUF

Mică mizerie · Postat pe 07.02.2025 10:51:47

Introducere în formatul de fișier GGUF pentru modele mari

Framework-uri precum PyTorch sunt de obicei folosite pentru dezvoltarea modelelor lingvistice mari, iar rezultatele lor de pre-antrenare sunt de obicei salvate în formatul binar corespunzător, cum ar fi fișierul cu sufixul pt care este de obicei rezultatul binar de pre-antrenare salvat de cadrul PyTorch.

Totuși, o problemă foarte importantă legată de stocarea modelelor mari este că fișierele lor sunt uriașe, iar structura, parametrii etc. modelului vor afecta, de asemenea, efectul de raționament și performanța modelului. Pentru a face modelele mari mai eficiente în stocare și schimb, există fișiere de modele mari în formate diferite. Dintre acestea, GGUF este un format de fișier de modele mari foarte important.

Fișierul GGUF înseamnă GPT-Generated Unified Format, care este un format de fișier model mare definit și lansat de Georgi Gerganov. Georgi Gerganov este fondatorul faimosului proiect open source llama.cpp.

GGUF este o specificație pentru fișiere în format binar, iar rezultatele originale de pre-antrenare ale modelelor mari sunt convertite în format GGUF și pot fi încărcate și folosite mai rapid, consumând resurse mai mici. Motivul este că GGUF folosește o varietate de tehnologii pentru a păstra rezultatele pre-antrenament ale modelelor mari, inclusiv utilizarea formatelor compacte de codificare binară, structuri de date optimizate, mapare a memoriei etc.

Diferențe între GGUF, GGML, GGMF și GGJT

GGUF este un format binar conceput pentru a încărca și salva modele rapid. Este formatul succesor al GGML, GGMF și GGJT, asigurând claritate prin includerea tuturor informațiilor necesare pentru încărcarea modelului. De asemenea, este proiectat să fie scalabil, astfel încât să poată fi adăugate informații noi modelului fără a încălca compatibilitatea.

GGML (Fără versiune): Format de bază fără versiune sau aliniere.
GGMF (Versioned): La fel ca GGML, dar cu versionare.
GGJT: Aliniază tensorii pentru a permite utilizarea cu mmap-uri care trebuie aliniate. v1, v2 și v3 sunt aceleași, dar versiunile ulterioare folosesc scheme de cuantizare diferite, care nu sunt compatibile cu versiunile anterioare.

De ce fișierele de modele mari în format GGUF funcționează bine

Formatul de fișier GGUF poate încărca modelele mai rapid datorită mai multor caracteristici cheie:

Format binar: GGUF, ca format binar, poate fi citit și analizat mai rapid decât fișierele text. Binarele sunt în general mai compacte, reducând operațiunile de I/O și timpul de procesare necesar pentru citire și analiză.

Structuri de date optimizate: GGUF poate folosi structuri de date special optimizate care susțin accesul rapid și încărcarea datelor modelului. De exemplu, datele pot fi organizate după necesitate pentru încărcarea memoriei pentru a reduce procesarea la încărcare.

Compatibilitatea cu Memory Mapping (mmap): Dacă GGUF suportă memory mapping (mmap), acest lucru permite maparea datelor direct de pe disc în spațiul de adrese al memoriei, rezultând o încărcare mai rapidă a datelor. Astfel, datele pot fi accesate fără a încărca efectiv întregul fișier, ceea ce este deosebit de eficient pentru modele mari.

Serializare și deserializare eficientă: GGUF poate folosi metode eficiente de serializare și deserializare, ceea ce înseamnă că datele modelului pot fi rapid convertite în formate utilizabile.

Puține dependențe și referințe externe: Dacă formatul GGUF este proiectat să fie autonom, adică toate informațiile necesare sunt stocate într-un singur fișier, acest lucru va reduce operațiunile externe de căutare și citire a fișierelor necesare la analizarea și încărcarea modelului.

Compresia datelor: Formatul GGUF poate folosi tehnici eficiente de compresie a datelor, reducând dimensiunile fișierelor și accelerând astfel procesul de citire.

Indexare optimizată și mecanisme de acces: Mecanismele de indexare și acces pentru datele din fișiere pot fi optimizate pentru a face mai rapidă găsirea și încărcarea fragmentelor specifice de date.

În concluzie, GGUF realizează încărcarea rapidă a modelelor prin diverse metode de optimizare, ceea ce este deosebit de important pentru scenarii care necesită încărcarea frecventă a diferitelor modele.

Modele comune pentru învățarea profundă (.pt, . onnx)
https://www.itsvse.com/thread-10929-1-1.html

Fișier exemplu GGUF:Autentificarea cu hyperlink este vizibilă.
llama.cpp Adresa proiectului:Autentificarea cu hyperlink este vizibilă.

[AI] (6) O scurtă introducere în formatul de fișier model mare GGUF

Postări conexe