llama.cpp Pendahuluan
Inferensi model LLaMA Meta (dan lainnya) menggunakan C/C++ murni. Tujuan utamanya llama.cpp untuk mengaktifkan inferensi LLM pada berbagai perangkat keras (lokal dan di cloud) dengan penyiapan minimal dan performa canggih.
- Implementasi C/C++ murni tanpa dependensi
- Apple silicon adalah yang terbaik – dioptimalkan dengan kerangka kerja ARM NEON, Accelerate, dan Metal
- AVX, AVX2, AVX512, dan AMX mendukung arsitektur x86
- Kuantisasi bilangan bulat 1,5-bit, 2-bit, 3-bit, 4-bit, 5-bit, 6-bit, dan 8-bit untuk inferensi yang lebih cepat dan mengurangi penggunaan memori
- Inti CUDA khusus untuk menjalankan LLM pada GPU NVIDIA (GPU AMD melalui GPU MTT HIP dan Moore Threads melalui MUSA)
- Dukungan backend Vulkan dan SYCL
- Inferensi hibrida CPU+GPU, mempercepat sebagian model yang lebih besar dari total kapasitas VRAM
Alamat Github:Login hyperlink terlihat. Alamat Unduhan:Login hyperlink terlihat.
Unduh llama.cpp
Pertama, unduh versi perangkat lunak llama.cpp yang sesuai sesuai dengan konfigurasi perangkat keras komputer Anda, seperti yang ditunjukkan pada gambar di bawah ini:
AVX mendukung operasi lebar 256-bit. AVX2 juga mendukung operasi lebar 256-bit, tetapi menambahkan dukungan untuk operasi bilangan bulat serta beberapa instruksi tambahan. AVX-512 mendukung operasi lebar 512-bit, memberikan peningkatan paralelisme dan kinerja, terutama saat berhadapan dengan data dalam jumlah besar atau operasi floating-point.
Komputer saya berjalan pada CPU murni dan mendukung set instruksi avx512, jadi unduh versi "", unduh alamat:Login hyperlink terlihat.Setelah unduhan selesai, unzip keD:\llama-b4658-bin-win-avx512-x64Direktori.
Unduh model DeepSeek-R1
Alamat Unduhan:Login hyperlink terlihat.Artikel ini dimulai dengan "DeepSeek-R1-Distill-Qwen-1.5B-Q3_K_L.ggufMisalnya.
Cukup unduh sesuai dengan konfigurasi Anda sendiri. Semakin tinggi tingkat kuantisasi, semakin besar file, dan semakin tinggi akurasi model.
llama.cpp Menyebarkan model DeepSeek-R1
Jalankan perintah berikut di direktori file DeepSeek-R1-Distill-Qwen-1.5B-Q3_K_L.gguf:
Seperti yang ditunjukkan di bawah ini:
Buka menggunakan browserhttp://127.0.0.1:8080/Alamat diuji seperti yang ditunjukkan di bawah ini:
Terlampir adalah konfigurasi parameter yang sedang berjalan:Login hyperlink terlihat.
|