|
|
2025-2-7 13:58:06 tarihinde yayınlandı
|
|
|
|

llama.cpp Giriş
Çıkarım Meta'nın LLaMA modeli (ve diğerleri) saf C/C++ kullanıyor. Birincil amaç llama.cpp LLM çıkarımını çeşitli donanımlarda (yerel ve bulut içinde) minimum kurulum ve son teknoloji performansla mümkün kılmaktır.
- Bağımlılık olmadan saf C/C++ uygulaması
- Apple silikon üst düzey – ARM NEON, Accelerate ve Metal çerçevelerle optimize edilmiş
- AVX, AVX2, AVX512 ve AMX x86 mimarileri destekler
- Daha hızlı çıkarım ve azalmış bellek kullanımı için 1.5-bit, 2-bit, 3-bit, 4-bit, 5-bit, 6-bit ve 8-bit tam sayı kuantizasyonu
- NVIDIA GPU'larda LLM'ler çalıştırmak için özel CUDA çekirdekleri (HIP üzerinden AMD GPU'lar ve MUSA üzerinden Moore Threads MTT GPU'lar)
- Vulkan ve SYCL arka uç desteği
- CPU+GPU hibrit çıkarımı, toplam VRAM kapasitesinden büyük modelleri kısmen hızlandırıyor
Github adresi:Bağlantı girişi görünür. İndir Adresi:Bağlantı girişi görünür.
İndir llama.cpp
Öncelikle, bilgisayarınızın donanım konfigürasyonuna göre llama.cpp yazılımının ilgili sürümünü indirin, aşağıdaki şekilde gösterildiği gibi:
AVX, 256 bit genişliğinde çalışma desteğini destekler. AVX2 ayrıca 256 bit genişliğinde işlemleri destekler, ancak tam sayı işlemleri ve bazı ek komutlar için de destek ekler. AVX-512, 512-bit genişliğinde işlemleri destekler; özellikle büyük miktarda veri veya kayan nokta işlemleriyle ilgilenirken artan paralellik ve performans sağlar.
Bilgisayarım saf CPU ile çalışıyor ve avx512 komut setini destekliyor, bu yüzden "" sürümünü, indirme adresini indirin:Bağlantı girişi görünür.İndirme tamamlandıktan sonra onu şu adrese açınD:\llama-b4658-bin-win-avx512-x64Dizin.
DeepSeek-R1 modelini indirin
İndir Adresi:Bağlantı girişi görünür.Bu makale " ile başlıyor.DeepSeek-R1-Distill-Qwen-1.5B-Q3_K_L.ggufMesela.
Kendi yapılandırmanıza göre indirin. Kuantizasyon seviyesi ne kadar yüksekse, dosya o kadar büyük ve modelin doğruluğu o kadar yüksek olur.
llama.cpp DeepSeek-R1 modelini Dağıtın
DeepSeek-R1-Distill-Qwen-1.5B-Q3_K_L.gguf dosya dizininde aşağıdaki komutu çalıştırın:
Aşağıda gösterildiği gibi:
Tarayıcı ile açhttp://127.0.0.1:8080/Adres aşağıda gösterildiği gibi test edilmiştir:
Eklenmiş olarak çalışan parametre yapılandırması da eklenmiştir:Bağlantı girişi görünür.
|
Önceki:Ön yüz, .js dosyasından .d.ts bir dosya üretirÖnümüzdeki:Ollama modeli çekme problemi nasıl çözülür
|