llama.cpp Въведение
Inference LLaMA модела на Meta (и други), използвайки чист C/C++. Основната цел llama.cpp да се позволи LLM inference на различен хардуер (локално и в облака) с минимална настройка и най-съвременна производителност.
- Чиста C/C++ имплементация без зависимости
- Apple silicon е първокласен – оптимизиран с рамки ARM NEON, Accelerate и Metal
- AVX, AVX2, AVX512 и AMX поддържат x86 архитектури
- 1.5-битов, 2-битов, 3-битов, 4-битов, 5-битов, 6-битов и 8-битов целочислен квант за по-бърз извод и намалено използване на паметта
- Персонализирани CUDA ядра за стартиране на LLM на NVIDIA GPU (AMD GPU чрез HIP и Moore Threads MTT GPU чрез MUSA)
- Поддръжка на бекенд на Vulkan и SYCL
- CPU+GPU хибриден извод, частично ускоряващ модели, по-големи от общия капацитет на VRAM
Github адрес:Входът към хиперлинк е видим. Адрес за изтегляне:Входът към хиперлинк е видим.
Изтеглете llama.cpp
Първо, изтеглете съответната версия на софтуера llama.cpp според хардуерната конфигурация на компютъра ви, както е показано на фигурата по-долу:
AVX поддържа работа на ширина 256 бита. AVX2 също поддържа 256-битови операции, но добавя поддръжка за цели числа, както и някои допълнителни инструкции. AVX-512 поддържа операции с ширина от 512 бита, осигурявайки повишена паралелност и производителност, особено при работа с големи обеми данни или операции с плаваща запетая.
Компютърът ми работи изцяло на процесор и поддържа avx512 инструкции, така че изтегли версията "" и адресът за изтегляне:Входът към хиперлинк е видим.След като изтеглянето приключи, разархивирайте го вD:\llama-b4658-bin-win-avx512-x64Указател.
Изтеглете модела DeepSeek-R1
Адрес за изтегляне:Входът към хиперлинк е видим.Тази статия започва с "DeepSeek-R1-Distill-Qwen-1.5B-Q3_K_L.ggufНапример.
Просто го изтегли според собствената си конфигурация. Колкото по-високо е нивото на квантуване, толкова по-голям е файлът и толкова по-висока е точността на модела.
llama.cpp Внедряване на модела DeepSeek-R1
Изпълнете следната команда във файловата директория DeepSeek-R1-Distill-Qwen-1.5B-Q3_K_L.gguf:
Както е показано по-долу:
Отвори го с браузърhttp://127.0.0.1:8080/Адресът се тества, както е показано по-долу:
Прикачена е конфигурацията на текущия параметър:Входът към хиперлинк е видим.
|