Artikel ini adalah artikel cermin dari terjemahan mesin, silakan klik di sini untuk melompat ke artikel aslinya.

Melihat: 2195|Jawab: 1

[AI] (7) Gunakan llama.cpp untuk menyebarkan model DeepSeek-R1 lokal

[Salin tautan]
Dipaparkan pada 2025-2-7 13:58:06 | | | |
llama.cpp Pendahuluan

Inferensi model LLaMA Meta (dan lainnya) menggunakan C/C++ murni. Tujuan utamanya llama.cpp untuk mengaktifkan inferensi LLM pada berbagai perangkat keras (lokal dan di cloud) dengan penyiapan minimal dan performa canggih.

  • Implementasi C/C++ murni tanpa dependensi
  • Apple silicon adalah yang terbaik – dioptimalkan dengan kerangka kerja ARM NEON, Accelerate, dan Metal
  • AVX, AVX2, AVX512, dan AMX mendukung arsitektur x86
  • Kuantisasi bilangan bulat 1,5-bit, 2-bit, 3-bit, 4-bit, 5-bit, 6-bit, dan 8-bit untuk inferensi yang lebih cepat dan mengurangi penggunaan memori
  • Inti CUDA khusus untuk menjalankan LLM pada GPU NVIDIA (GPU AMD melalui GPU MTT HIP dan Moore Threads melalui MUSA)
  • Dukungan backend Vulkan dan SYCL
  • Inferensi hibrida CPU+GPU, mempercepat sebagian model yang lebih besar dari total kapasitas VRAM


Alamat Github:Login hyperlink terlihat.
Alamat Unduhan:Login hyperlink terlihat.

Unduh llama.cpp

Pertama, unduh versi perangkat lunak llama.cpp yang sesuai sesuai dengan konfigurasi perangkat keras komputer Anda, seperti yang ditunjukkan pada gambar di bawah ini:



AVX mendukung operasi lebar 256-bit.
AVX2 juga mendukung operasi lebar 256-bit, tetapi menambahkan dukungan untuk operasi bilangan bulat serta beberapa instruksi tambahan.
AVX-512 mendukung operasi lebar 512-bit, memberikan peningkatan paralelisme dan kinerja, terutama saat berhadapan dengan data dalam jumlah besar atau operasi floating-point.

Komputer saya berjalan pada CPU murni dan mendukung set instruksi avx512, jadi unduh versi "", unduh alamat:Login hyperlink terlihat.Setelah unduhan selesai, unzip keD:\llama-b4658-bin-win-avx512-x64Direktori.

Unduh model DeepSeek-R1

Alamat Unduhan:Login hyperlink terlihat.Artikel ini dimulai dengan "DeepSeek-R1-Distill-Qwen-1.5B-Q3_K_L.ggufMisalnya.

Cukup unduh sesuai dengan konfigurasi Anda sendiri. Semakin tinggi tingkat kuantisasi, semakin besar file, dan semakin tinggi akurasi model.

llama.cpp Menyebarkan model DeepSeek-R1

Jalankan perintah berikut di direktori file DeepSeek-R1-Distill-Qwen-1.5B-Q3_K_L.gguf:

Seperti yang ditunjukkan di bawah ini:



Buka menggunakan browserhttp://127.0.0.1:8080/Alamat diuji seperti yang ditunjukkan di bawah ini:



Terlampir adalah konfigurasi parameter yang sedang berjalan:Login hyperlink terlihat.




Mantan:Frontend menghasilkan file .d.ts dari file .js
Depan:Cara mengatasi masalah tarik model Ollama
 Tuan tanah| Dipaparkan pada 2025-3-5 10:48:53 |
Komunitas model AI

Situs Web Resmi Hugging Face:https://huggingface.co/
Cermin Domestik Wajah Memeluk:https://hf-mirror.com/
Ruang lingkup model Pencocokan Ajaib:https://www.modelscope.cn/
Sanggahan:
Semua perangkat lunak, materi pemrograman, atau artikel yang diterbitkan oleh Code Farmer Network hanya untuk tujuan pembelajaran dan penelitian; Konten di atas tidak boleh digunakan untuk tujuan komersial atau ilegal, jika tidak, pengguna akan menanggung semua konsekuensi. Informasi di situs ini berasal dari Internet, dan sengketa hak cipta tidak ada hubungannya dengan situs ini. Anda harus sepenuhnya menghapus konten di atas dari komputer Anda dalam waktu 24 jam setelah pengunduhan. Jika Anda menyukai program ini, harap dukung perangkat lunak asli, pembelian pendaftaran, dan dapatkan layanan asli yang lebih baik. Jika ada pelanggaran, silakan hubungi kami melalui email.

Mail To:help@itsvse.com