[AI] (7) Gunakan llama.cpp untuk menyebarkan model DeepSeek-R1 lokal

Sampah kecil · Diposting pada 07/02/2025 13.58.06

llama.cpp Pendahuluan

Inferensi model LLaMA Meta (dan lainnya) menggunakan C/C++ murni. Tujuan utamanya llama.cpp untuk mengaktifkan inferensi LLM pada berbagai perangkat keras (lokal dan di cloud) dengan penyiapan minimal dan performa canggih.

Implementasi C/C++ murni tanpa dependensi
Apple silicon adalah yang terbaik – dioptimalkan dengan kerangka kerja ARM NEON, Accelerate, dan Metal
AVX, AVX2, AVX512, dan AMX mendukung arsitektur x86
Kuantisasi bilangan bulat 1,5-bit, 2-bit, 3-bit, 4-bit, 5-bit, 6-bit, dan 8-bit untuk inferensi yang lebih cepat dan mengurangi penggunaan memori
Inti CUDA khusus untuk menjalankan LLM pada GPU NVIDIA (GPU AMD melalui GPU MTT HIP dan Moore Threads melalui MUSA)
Dukungan backend Vulkan dan SYCL
Inferensi hibrida CPU+GPU, mempercepat sebagian model yang lebih besar dari total kapasitas VRAM

Alamat Github:Login hyperlink terlihat.
Alamat Unduhan:Login hyperlink terlihat.

Unduh llama.cpp

Pertama, unduh versi perangkat lunak llama.cpp yang sesuai sesuai dengan konfigurasi perangkat keras komputer Anda, seperti yang ditunjukkan pada gambar di bawah ini:

AVX mendukung operasi lebar 256-bit.
AVX2 juga mendukung operasi lebar 256-bit, tetapi menambahkan dukungan untuk operasi bilangan bulat serta beberapa instruksi tambahan.
AVX-512 mendukung operasi lebar 512-bit, memberikan peningkatan paralelisme dan kinerja, terutama saat berhadapan dengan data dalam jumlah besar atau operasi floating-point.

Komputer saya berjalan pada CPU murni dan mendukung set instruksi avx512, jadi unduh versi "", unduh alamat:Login hyperlink terlihat.Setelah unduhan selesai, unzip keD:\llama-b4658-bin-win-avx512-x64Direktori.

Unduh model DeepSeek-R1

Alamat Unduhan:Login hyperlink terlihat.Artikel ini dimulai dengan "DeepSeek-R1-Distill-Qwen-1.5B-Q3_K_L.ggufMisalnya.

Cukup unduh sesuai dengan konfigurasi Anda sendiri. Semakin tinggi tingkat kuantisasi, semakin besar file, dan semakin tinggi akurasi model.

llama.cpp Menyebarkan model DeepSeek-R1

Jalankan perintah berikut di direktori file DeepSeek-R1-Distill-Qwen-1.5B-Q3_K_L.gguf:

Login terlihat.

Seperti yang ditunjukkan di bawah ini:

Buka menggunakan browserhttp://127.0.0.1:8080/Alamat diuji seperti yang ditunjukkan di bawah ini:

Terlampir adalah konfigurasi parameter yang sedang berjalan:Login hyperlink terlihat.

Sampah kecil · Diposting pada 05/03/2025 10.48.53

Komunitas model AI

Situs Web Resmi Hugging Face:https://huggingface.co/
Cermin Domestik Wajah Memeluk:https://hf-mirror.com/
Ruang lingkup model Pencocokan Ajaib:https://www.modelscope.cn/

[AI] (7) Gunakan llama.cpp untuk menyebarkan model DeepSeek-R1 lokal

Pos terkait

Bagian yang dilihat