Ця стаття є дзеркальною статтею машинного перекладу, будь ласка, натисніть тут, щоб перейти до оригінальної статті.

Вид: 2195|Відповідь: 1

[AI] (7) Використовуйте llama.cpp для розгортання моделі DeepSeek-R1 локально

[Копіювати посилання]
Опубліковано 2025-2-7 13:58:06 | | | |
llama.cpp Вступ

Inference Модель LLaMA від Meta (та інші) на чистому C/C++. Основна мета llama.cpp забезпечити виведення LLM на різному обладнанні (локально та в хмарі) з мінімальним налаштуванням і передовою продуктивністю.

  • Чиста реалізація на C/C++ без залежностей
  • Apple Silicon — це першокласний рівень — оптимізований з використанням фреймворків ARM NEON, Accelerate та Metal
  • AVX, AVX2, AVX512 та AMX підтримують архітектури x86
  • 1,5-бітна, 2-бітна, 3-бітна, 4-бітна, 5-бітна, 6-бітна та 8-бітна цілочисельна квантування для швидшого виведення та зменшення використання пам'яті
  • Кастомні ядра CUDA для запуску LLM на NVIDIA GPU (AMD GPU через HIP і Moore Threads MTT GPU через MUSA)
  • Підтримка бекенду Vulkan та SYCL
  • Інференція гібриду CPU+GPU, частково прискорюючи моделі більші за загальну потужність VRAM


Адреса на Github:Вхід за гіперпосиланням видно.
Завантажити адресу:Вхід за гіперпосиланням видно.

Завантажити llama.cpp

Спочатку завантажте відповідну версію програмного забезпечення llama.cpp відповідно до апаратної конфігурації вашого комп'ютера, як показано на рисунку нижче:



AVX підтримує роботу на ширині 256 біт.
AVX2 також підтримує операції на ширині 256 біт, але додає підтримку цілочисельних операцій, а також деякі додаткові інструкції.
AVX-512 підтримує операції шириною 512 біт, забезпечуючи підвищений паралелізм і продуктивність, особливо при роботі з великими обсягами даних або операцій з плаваючою комою.

Мій комп'ютер працює на чистому процесорі і підтримує набір інструкцій avx512, тому завантажте версію "" та адресу завантаження:Вхід за гіперпосиланням видно.Після завершення завантаження розпакуйте його наD:\llama-b4658-bin-win-avx512-x64Каталог.

Завантажити модель DeepSeek-R1

Завантажити адресу:Вхід за гіперпосиланням видно.Ця стаття починається зі с: «DeepSeek-R1-Distill-Qwen-1.5B-Q3_K_L.ggufНаприклад.

Просто завантажте його відповідно до власної конфігурації. Чим вищий рівень квантування, тим більший файл і тим вища точність моделі.

llama.cpp Впровадження моделі DeepSeek-R1

Виконайте наступну команду у файловій папці DeepSeek-R1-Distill-Qwen-1.5B-Q3_K_L.gguf:

Як показано нижче:



Відкрийте його за допомогою браузераhttp://127.0.0.1:8080/Адреса перевіряється, як показано нижче:



Додається конфігурація поточних параметрів:Вхід за гіперпосиланням видно.




Попередній:Фронтенд генерує .d.ts файл із .js файлу
Наступний:Як розв'язати задачу витягування моделі Оллами
 Орендодавець| Опубліковано 2025-3-5 10:48:53 |
Спільнота моделей ШІ

Офіційний сайт Hugging Face:https://huggingface.co/
Домашнє дзеркало з обіймами:https://hf-mirror.com/
Масштаб моделей Magic Matching:https://www.modelscope.cn/
Застереження:
Усе програмне забезпечення, програмні матеріали або статті, опубліковані Code Farmer Network, призначені лише для навчання та досліджень; Вищезазначений контент не повинен використовуватися в комерційних чи незаконних цілях, інакше користувачі несуть усі наслідки. Інформація на цьому сайті надходить з Інтернету, і спори щодо авторських прав не мають до цього сайту. Ви повинні повністю видалити вищезазначений контент зі свого комп'ютера протягом 24 годин після завантаження. Якщо вам подобається програма, будь ласка, підтримуйте справжнє програмне забезпечення, купуйте реєстрацію та отримайте кращі справжні послуги. Якщо є будь-яке порушення, будь ласка, зв'яжіться з нами електронною поштою.

Mail To:help@itsvse.com