[AI] (7) Використовуйте llama.cpp для розгортання моделі DeepSeek-R1 локально

Маленька покидька · Опубліковано 07.02.2025 13:58:06

llama.cpp Вступ

Inference Модель LLaMA від Meta (та інші) на чистому C/C++. Основна мета llama.cpp забезпечити виведення LLM на різному обладнанні (локально та в хмарі) з мінімальним налаштуванням і передовою продуктивністю.

Чиста реалізація на C/C++ без залежностей
Apple Silicon — це першокласний рівень — оптимізований з використанням фреймворків ARM NEON, Accelerate та Metal
AVX, AVX2, AVX512 та AMX підтримують архітектури x86
1,5-бітна, 2-бітна, 3-бітна, 4-бітна, 5-бітна, 6-бітна та 8-бітна цілочисельна квантування для швидшого виведення та зменшення використання пам'яті
Кастомні ядра CUDA для запуску LLM на NVIDIA GPU (AMD GPU через HIP і Moore Threads MTT GPU через MUSA)
Підтримка бекенду Vulkan та SYCL
Інференція гібриду CPU+GPU, частково прискорюючи моделі більші за загальну потужність VRAM

Адреса на Github:Вхід за гіперпосиланням видно.
Завантажити адресу:Вхід за гіперпосиланням видно.

Завантажити llama.cpp

Спочатку завантажте відповідну версію програмного забезпечення llama.cpp відповідно до апаратної конфігурації вашого комп'ютера, як показано на рисунку нижче:

AVX підтримує роботу на ширині 256 біт.
AVX2 також підтримує операції на ширині 256 біт, але додає підтримку цілочисельних операцій, а також деякі додаткові інструкції.
AVX-512 підтримує операції шириною 512 біт, забезпечуючи підвищений паралелізм і продуктивність, особливо при роботі з великими обсягами даних або операцій з плаваючою комою.

Мій комп'ютер працює на чистому процесорі і підтримує набір інструкцій avx512, тому завантажте версію "" та адресу завантаження:Вхід за гіперпосиланням видно.Після завершення завантаження розпакуйте його наD:\llama-b4658-bin-win-avx512-x64Каталог.

Завантажити модель DeepSeek-R1

Завантажити адресу:Вхід за гіперпосиланням видно.Ця стаття починається зі с: «DeepSeek-R1-Distill-Qwen-1.5B-Q3_K_L.ggufНаприклад.

Просто завантажте його відповідно до власної конфігурації. Чим вищий рівень квантування, тим більший файл і тим вища точність моделі.

llama.cpp Впровадження моделі DeepSeek-R1

Виконайте наступну команду у файловій папці DeepSeek-R1-Distill-Qwen-1.5B-Q3_K_L.gguf:

Вхід видно.

Як показано нижче:

Відкрийте його за допомогою браузераhttp://127.0.0.1:8080/Адреса перевіряється, як показано нижче:

Додається конфігурація поточних параметрів:Вхід за гіперпосиланням видно.

Маленька покидька · Опубліковано 05.03.2025 10:48:53

Спільнота моделей ШІ

Офіційний сайт Hugging Face:https://huggingface.co/
Домашнє дзеркало з обіймами:https://hf-mirror.com/
Масштаб моделей Magic Matching:https://www.modelscope.cn/

[AI] (7) Використовуйте llama.cpp для розгортання моделі DeepSeek-R1 локально

Пов'язані дописи

Переглянуті розділи