[AI] (7) DeepSeek-R1 modelini yerel olarak dağıtmak için llama.cpp kullanın

Küçük · Yayınlandı 7.02.2025 13:58:06

llama.cpp Giriş

Çıkarım Meta'nın LLaMA modeli (ve diğerleri) saf C/C++ kullanıyor. Birincil amaç llama.cpp LLM çıkarımını çeşitli donanımlarda (yerel ve bulut içinde) minimum kurulum ve son teknoloji performansla mümkün kılmaktır.

Bağımlılık olmadan saf C/C++ uygulaması
Apple silikon üst düzey – ARM NEON, Accelerate ve Metal çerçevelerle optimize edilmiş
AVX, AVX2, AVX512 ve AMX x86 mimarileri destekler
Daha hızlı çıkarım ve azalmış bellek kullanımı için 1.5-bit, 2-bit, 3-bit, 4-bit, 5-bit, 6-bit ve 8-bit tam sayı kuantizasyonu
NVIDIA GPU'larda LLM'ler çalıştırmak için özel CUDA çekirdekleri (HIP üzerinden AMD GPU'lar ve MUSA üzerinden Moore Threads MTT GPU'lar)
Vulkan ve SYCL arka uç desteği
CPU+GPU hibrit çıkarımı, toplam VRAM kapasitesinden büyük modelleri kısmen hızlandırıyor

Github adresi:Bağlantı girişi görünür.
İndir Adresi:Bağlantı girişi görünür.

İndir llama.cpp

Öncelikle, bilgisayarınızın donanım konfigürasyonuna göre llama.cpp yazılımının ilgili sürümünü indirin, aşağıdaki şekilde gösterildiği gibi:

AVX, 256 bit genişliğinde çalışma desteğini destekler.
AVX2 ayrıca 256 bit genişliğinde işlemleri destekler, ancak tam sayı işlemleri ve bazı ek komutlar için de destek ekler.
AVX-512, 512-bit genişliğinde işlemleri destekler; özellikle büyük miktarda veri veya kayan nokta işlemleriyle ilgilenirken artan paralellik ve performans sağlar.

Bilgisayarım saf CPU ile çalışıyor ve avx512 komut setini destekliyor, bu yüzden "" sürümünü, indirme adresini indirin:Bağlantı girişi görünür.İndirme tamamlandıktan sonra onu şu adrese açınD:\llama-b4658-bin-win-avx512-x64Dizin.

DeepSeek-R1 modelini indirin

İndir Adresi:Bağlantı girişi görünür.Bu makale " ile başlıyor.DeepSeek-R1-Distill-Qwen-1.5B-Q3_K_L.ggufMesela.

Kendi yapılandırmanıza göre indirin. Kuantizasyon seviyesi ne kadar yüksekse, dosya o kadar büyük ve modelin doğruluğu o kadar yüksek olur.

llama.cpp DeepSeek-R1 modelini Dağıtın

DeepSeek-R1-Distill-Qwen-1.5B-Q3_K_L.gguf dosya dizininde aşağıdaki komutu çalıştırın:

Giriş görünür.

Aşağıda gösterildiği gibi:

Tarayıcı ile açhttp://127.0.0.1:8080/Adres aşağıda gösterildiği gibi test edilmiştir:

Eklenmiş olarak çalışan parametre yapılandırması da eklenmiştir:Bağlantı girişi görünür.

Küçük · Yayınlandı 5.03.2025 10:48:53

YZ model topluluğu

Hugging Face Resmi Web Sitesi:https://huggingface.co/
Yüz Sarılmak Ev Aynası:https://hf-mirror.com/
Magic Matching model scope:https://www.modelscope.cn/

[AI] (7) DeepSeek-R1 modelini yerel olarak dağıtmak için llama.cpp kullanın

İlgili Yazılar

Görüntülenen bölümler