[AI] (7) Използвайте llama.cpp за внедряване на модела DeepSeek-R1 на място

Малък боклук · Публикувано в 7.02.2025 г. 13:58:06 ч.

llama.cpp Въведение

Inference LLaMA модела на Meta (и други), използвайки чист C/C++. Основната цел llama.cpp да се позволи LLM inference на различен хардуер (локално и в облака) с минимална настройка и най-съвременна производителност.

Чиста C/C++ имплементация без зависимости
Apple silicon е първокласен – оптимизиран с рамки ARM NEON, Accelerate и Metal
AVX, AVX2, AVX512 и AMX поддържат x86 архитектури
1.5-битов, 2-битов, 3-битов, 4-битов, 5-битов, 6-битов и 8-битов целочислен квант за по-бърз извод и намалено използване на паметта
Персонализирани CUDA ядра за стартиране на LLM на NVIDIA GPU (AMD GPU чрез HIP и Moore Threads MTT GPU чрез MUSA)
Поддръжка на бекенд на Vulkan и SYCL
CPU+GPU хибриден извод, частично ускоряващ модели, по-големи от общия капацитет на VRAM

Github адрес:Входът към хиперлинк е видим.
Адрес за изтегляне:Входът към хиперлинк е видим.

Изтеглете llama.cpp

Първо, изтеглете съответната версия на софтуера llama.cpp според хардуерната конфигурация на компютъра ви, както е показано на фигурата по-долу:

AVX поддържа работа на ширина 256 бита.
AVX2 също поддържа 256-битови операции, но добавя поддръжка за цели числа, както и някои допълнителни инструкции.
AVX-512 поддържа операции с ширина от 512 бита, осигурявайки повишена паралелност и производителност, особено при работа с големи обеми данни или операции с плаваща запетая.

Компютърът ми работи изцяло на процесор и поддържа avx512 инструкции, така че изтегли версията "" и адресът за изтегляне:Входът към хиперлинк е видим.След като изтеглянето приключи, разархивирайте го вD:\llama-b4658-bin-win-avx512-x64Указател.

Изтеглете модела DeepSeek-R1

Адрес за изтегляне:Входът към хиперлинк е видим.Тази статия започва с "DeepSeek-R1-Distill-Qwen-1.5B-Q3_K_L.ggufНапример.

Просто го изтегли според собствената си конфигурация. Колкото по-високо е нивото на квантуване, толкова по-голям е файлът и толкова по-висока е точността на модела.

llama.cpp Внедряване на модела DeepSeek-R1

Изпълнете следната команда във файловата директория DeepSeek-R1-Distill-Qwen-1.5B-Q3_K_L.gguf:

Входът е видим.

Както е показано по-долу:

Отвори го с браузърhttp://127.0.0.1:8080/Адресът се тества, както е показано по-долу:

Прикачена е конфигурацията на текущия параметър:Входът към хиперлинк е видим.

Малък боклук · Публикувано в 5.03.2025 г. 10:48:53 ч.

Общност за AI модели

Официален уебсайт на Hugging Face:https://huggingface.co/
Огледало с прегръщащо лице: Домашно огледало:https://hf-mirror.com/
Моделоскоп за магическо съвпадение:https://www.modelscope.cn/

[AI] (7) Използвайте llama.cpp за внедряване на модела DeepSeek-R1 на място

Свързани публикации

Разгледани секции