Acest articol este un articol oglindă al traducerii automate, vă rugăm să faceți clic aici pentru a sări la articolul original.

Vedere: 2195|Răspunde: 1

[AI] (7) Folosește llama.cpp pentru a implementa modelul DeepSeek-R1 on-premises

[Copiază linkul]
Postat la 2025-2-7 13:58:06 | | | |
llama.cpp Introducere

Inference modelul LLaMA al Meta (și altele) folosind C/C++ pur. Scopul principal llama.cpp de a permite inferența LLM pe diverse hardware (on-premises și în cloud) cu configurare minimă și performanțe de ultimă generație.

  • Implementare C/C++ pură, fără dependențe
  • Apple silicon este de top – optimizat cu framework-uri ARM NEON, Accelerate și Metal
  • AVX, AVX2, AVX512 și AMX suportă arhitecturi x86
  • Cuantizare întregă pe 1,5 biți, 2 biți, 3 biți, 4 biți, 5 biți, 6 biți și 8 biți pentru inferență mai rapidă și reducerea consumului memoriei
  • Nuclee CUDA personalizate pentru rularea LLM-urilor pe plăci grafice NVIDIA (plăci AMD prin HIP și plăci Moore Threads MTT prin MUSA)
  • Suport backend pentru Vulkan și SYCL
  • Inferența hibridă CPU+GPU, accelerând parțial modelele mai mari decât capacitatea totală a VRAM


Adresă Github:Autentificarea cu hyperlink este vizibilă.
Adresă de descărcare:Autentificarea cu hyperlink este vizibilă.

Descarcă llama.cpp

Mai întâi, descarcă versiunea corespunzătoare a software-ului llama.cpp conform configurației hardware a calculatorului tău, așa cum este ilustrat în figura de mai jos:



AVX suportă funcționare pe lățimea de 256 de biți.
AVX2 suportă, de asemenea, operații pe 256 de biți, dar adaugă suport pentru operațiuni întregi, precum și unele instrucțiuni suplimentare.
AVX-512 suportă operații pe 512 biți, oferind paralelism și performanță sporite, mai ales când se lucrează cu cantități mari de date sau operații în virgulă mobilă.

Calculatorul meu funcționează doar pe CPU și suportă setul de instrucțiuni avx512, așa că descarcă versiunea "", adresa de descărcare:Autentificarea cu hyperlink este vizibilă.După ce descărcarea s-a terminat, decomprimă-l laD:\llama-b4658-bin-win-avx512-x64Director.

Descarcă modelul DeepSeek-R1

Adresă de descărcare:Autentificarea cu hyperlink este vizibilă.Acest articol începe cu "DeepSeek-R1-Distill-Qwen-1.5B-Q3_K_L.ggufDe exemplu.

Doar descarcă-l conform configurației tale. Cu cât nivelul de cuantificare este mai mare, cu atât fișierul este mai mare și cu atât acuratețea modelului este mai mare.

llama.cpp Implementarea modelului DeepSeek-R1

Rulați următoarea comandă în directorul de fișiere DeepSeek-R1-Distill-Qwen-1.5B-Q3_K_L.gguf:

Așa cum se arată mai jos:



Deschide-l folosind un browserhttp://127.0.0.1:8080/Adresa este testată așa cum se arată mai jos:



Atașată este configurația parametrilor de rulare:Autentificarea cu hyperlink este vizibilă.




Precedent:Frontend-ul generează un fișier .d.ts din fișierul .js
Următor:Cum să rezolvi problema de pull a modelului Ollama
 Proprietarul| Postat la 2025-3-5 10:48:53 |
Comunitatea modelelor AI

Site-ul oficial al Îmbrățișării Feței:https://huggingface.co/
Oglinda domestică cu fața îmbrățișată:https://hf-mirror.com/
Modelscope Magic Matching:https://www.modelscope.cn/
Disclaimer:
Tot software-ul, materialele de programare sau articolele publicate de Code Farmer Network sunt destinate exclusiv scopurilor de învățare și cercetare; Conținutul de mai sus nu va fi folosit în scopuri comerciale sau ilegale, altfel utilizatorii vor suporta toate consecințele. Informațiile de pe acest site provin de pe Internet, iar disputele privind drepturile de autor nu au legătură cu acest site. Trebuie să ștergi complet conținutul de mai sus de pe calculatorul tău în termen de 24 de ore de la descărcare. Dacă îți place programul, te rugăm să susții software-ul autentic, să cumperi înregistrarea și să primești servicii autentice mai bune. Dacă există vreo încălcare, vă rugăm să ne contactați prin e-mail.

Mail To:help@itsvse.com