llama.cpp Вступ
Inference Модель LLaMA від Meta (та інші) на чистому C/C++. Основна мета llama.cpp забезпечити виведення LLM на різному обладнанні (локально та в хмарі) з мінімальним налаштуванням і передовою продуктивністю.
- Чиста реалізація на C/C++ без залежностей
- Apple Silicon — це першокласний рівень — оптимізований з використанням фреймворків ARM NEON, Accelerate та Metal
- AVX, AVX2, AVX512 та AMX підтримують архітектури x86
- 1,5-бітна, 2-бітна, 3-бітна, 4-бітна, 5-бітна, 6-бітна та 8-бітна цілочисельна квантування для швидшого виведення та зменшення використання пам'яті
- Кастомні ядра CUDA для запуску LLM на NVIDIA GPU (AMD GPU через HIP і Moore Threads MTT GPU через MUSA)
- Підтримка бекенду Vulkan та SYCL
- Інференція гібриду CPU+GPU, частково прискорюючи моделі більші за загальну потужність VRAM
Адреса на Github:Вхід за гіперпосиланням видно. Завантажити адресу:Вхід за гіперпосиланням видно.
Завантажити llama.cpp
Спочатку завантажте відповідну версію програмного забезпечення llama.cpp відповідно до апаратної конфігурації вашого комп'ютера, як показано на рисунку нижче:
AVX підтримує роботу на ширині 256 біт. AVX2 також підтримує операції на ширині 256 біт, але додає підтримку цілочисельних операцій, а також деякі додаткові інструкції. AVX-512 підтримує операції шириною 512 біт, забезпечуючи підвищений паралелізм і продуктивність, особливо при роботі з великими обсягами даних або операцій з плаваючою комою.
Мій комп'ютер працює на чистому процесорі і підтримує набір інструкцій avx512, тому завантажте версію "" та адресу завантаження:Вхід за гіперпосиланням видно.Після завершення завантаження розпакуйте його наD:\llama-b4658-bin-win-avx512-x64Каталог.
Завантажити модель DeepSeek-R1
Завантажити адресу:Вхід за гіперпосиланням видно.Ця стаття починається зі с: «DeepSeek-R1-Distill-Qwen-1.5B-Q3_K_L.ggufНаприклад.
Просто завантажте його відповідно до власної конфігурації. Чим вищий рівень квантування, тим більший файл і тим вища точність моделі.
llama.cpp Впровадження моделі DeepSeek-R1
Виконайте наступну команду у файловій папці DeepSeek-R1-Distill-Qwen-1.5B-Q3_K_L.gguf:
Як показано нижче:
Відкрийте його за допомогою браузераhttp://127.0.0.1:8080/Адреса перевіряється, як показано нижче:
Додається конфігурація поточних параметрів:Вхід за гіперпосиланням видно.
|