[AI] (6) Кратко въведение в формат на голям модел GGUF

Малък боклук · Публикувано в 7.02.2025 г. 10:51:47 ч.

Въведение във формата на GGUF с голям модел

Фреймуъркове като PyTorch обикновено се използват за разработка на големи езикови модели, а техните резултати от предварителното обучение обикновено се запазват в съответния двоичен формат, като например pt суфиксът обикновено е двоичният резултат от предварителното обучение, запазен от PyTorch framework.

Въпреки това, много важен проблем при съхранението на големи модели е, че техните файлове са огромни, а структурата, параметрите и т.н. на модела също влияят на ефекта на разсъждение и производителността на модела. За да се направят големите модели по-ефективни при съхранение и обмен, има големи файлове с модели в различни формати. Сред тях GGUF е много важен формат за голям модел.

GGUF файлът означава GPT-генериран унифициран формат, който е голям модел на файлов формат, дефиниран и издаден от Георги Герганов. Георги Герганов е основател на известния open source проект llama.cpp.

GGUF е спецификация за файлове с двоичен формат, а резултатите от оригиналния голям модел се конвертират в GGUF формат и могат да се зареждат и използват по-бързо, като консумират по-малко ресурси. Причината е, че GGUF използва различни технологии за запазване на резултатите от предварителното обучение на големи модели, включително използването на компактни двоични кодирани формати, оптимизирани структури от данни, картографиране на паметта и др.

Разлики между GGUF, GGML, GGMF и GGJT

GGUF е двоичен формат, предназначен да зарежда и запазва модели бързо. Той е наследникът на файловия формат на GGML, GGMF и GGJT, като осигурява яснота чрез включване на цялата необходима информация за зареждане на модела. Също така е проектиран да бъде мащабируем, така че да може да се добавя нова информация към модела без нарушаване на съвместимостта.

GGML (без версия): Базов формат без версиониране или подравняване.
GGMF (Versioned): Същото като в GGML, но с версиониране.
GGJT: Подравнете тензорите, за да позволите използване с mmap-ове, които трябва да се подравнят. v1, v2 и v3 са едни и същи, но по-късните версии използват различни схеми за квантуване, които не са съвместими с предишните версии.

Защо GGUF форматират големи моделни файлове се представят добре

GGUF файловият формат може да зарежда модели по-бързо благодарение на няколко ключови функции:

Двоичен формат: GGUF, като двоичен формат, може да се чете и анализира по-бързо от текстовите файлове. Бинарните файлове обикновено са по-компактни, което намалява операциите за вход/изход и времето за обработка, необходими за четене и парсинг.

Оптимизирани структури от данни: GGUF може да използва специално оптимизирани структури от данни, които поддържат бърз достъп и зареждане на моделни данни. Например, данните могат да бъдат организирани според нуждите за зареждане на паметта, за да се намали обработката при зареждане.

Съвместимост с картографиране на паметта (mmap): Ако GGUF поддържа картографиране на паметта (mmap), това позволява директно картографиране на данни от диска към адресното пространство на паметта, което води до по-бързо зареждане на данни. По този начин данните могат да бъдат достъпвани без реално зареждане на целия файл, което е особено ефективно при големи модели.

Ефективна сериализация и десериализация: GGUF може да използва ефективни методи за сериализация и десериализация, което означава, че данните от модела могат бързо да се конвертират в използваеми формати.

Малко зависимости и външни препратки: Ако GGUF форматът е проектиран да бъде самостоятелен, т.е. цялата необходима информация се съхранява в един файл, това ще намали операциите по търсене и четене на външен файл при парсване и зареждане на модела.

Компресия на данни: GGUF форматът може да използва ефективни техники за компресия на данни, намалявайки размера на файловете и ускорявайки процеса на четене.

Оптимизирани механизми за индексиране и достъп: Механизмите за индексиране и достъп до данни във файловете могат да бъдат оптимизирани, за да улеснят намирането и зареждането на конкретни фрагменти от данни.

В обобщение, GGUF постига бързо зареждане на модела чрез различни методи за оптимизация, което е особено важно за сценарии, изискващи често зареждане на различни модели.

Често срещани модели за дълбоко обучение (.pt, . onnx) файлов формат
https://www.itsvse.com/thread-10929-1-1.html

Примерен файл на GGUF:Входът към хиперлинк е видим.
llama.cpp Адрес на проекта:Входът към хиперлинк е видим.

[AI] (6) Кратко въведение в формат на голям модел GGUF

Свързани публикации