[AI] (7) Folosește llama.cpp pentru a implementa modelul DeepSeek-R1 on-premises

Mică mizerie · Postat pe 07.02.2025 13:58:06

llama.cpp Introducere

Inference modelul LLaMA al Meta (și altele) folosind C/C++ pur. Scopul principal llama.cpp de a permite inferența LLM pe diverse hardware (on-premises și în cloud) cu configurare minimă și performanțe de ultimă generație.

Implementare C/C++ pură, fără dependențe
Apple silicon este de top – optimizat cu framework-uri ARM NEON, Accelerate și Metal
AVX, AVX2, AVX512 și AMX suportă arhitecturi x86
Cuantizare întregă pe 1,5 biți, 2 biți, 3 biți, 4 biți, 5 biți, 6 biți și 8 biți pentru inferență mai rapidă și reducerea consumului memoriei
Nuclee CUDA personalizate pentru rularea LLM-urilor pe plăci grafice NVIDIA (plăci AMD prin HIP și plăci Moore Threads MTT prin MUSA)
Suport backend pentru Vulkan și SYCL
Inferența hibridă CPU+GPU, accelerând parțial modelele mai mari decât capacitatea totală a VRAM

Adresă Github:Autentificarea cu hyperlink este vizibilă.
Adresă de descărcare:Autentificarea cu hyperlink este vizibilă.

Descarcă llama.cpp

Mai întâi, descarcă versiunea corespunzătoare a software-ului llama.cpp conform configurației hardware a calculatorului tău, așa cum este ilustrat în figura de mai jos:

AVX suportă funcționare pe lățimea de 256 de biți.
AVX2 suportă, de asemenea, operații pe 256 de biți, dar adaugă suport pentru operațiuni întregi, precum și unele instrucțiuni suplimentare.
AVX-512 suportă operații pe 512 biți, oferind paralelism și performanță sporite, mai ales când se lucrează cu cantități mari de date sau operații în virgulă mobilă.

Calculatorul meu funcționează doar pe CPU și suportă setul de instrucțiuni avx512, așa că descarcă versiunea "", adresa de descărcare:Autentificarea cu hyperlink este vizibilă.După ce descărcarea s-a terminat, decomprimă-l laD:\llama-b4658-bin-win-avx512-x64Director.

Descarcă modelul DeepSeek-R1

Adresă de descărcare:Autentificarea cu hyperlink este vizibilă.Acest articol începe cu "DeepSeek-R1-Distill-Qwen-1.5B-Q3_K_L.ggufDe exemplu.

Doar descarcă-l conform configurației tale. Cu cât nivelul de cuantificare este mai mare, cu atât fișierul este mai mare și cu atât acuratețea modelului este mai mare.

llama.cpp Implementarea modelului DeepSeek-R1

Rulați următoarea comandă în directorul de fișiere DeepSeek-R1-Distill-Qwen-1.5B-Q3_K_L.gguf:

Autentificarea este vizibilă.

Așa cum se arată mai jos:

Deschide-l folosind un browserhttp://127.0.0.1:8080/Adresa este testată așa cum se arată mai jos:

Atașată este configurația parametrilor de rulare:Autentificarea cu hyperlink este vizibilă.

Mică mizerie · Postat pe 05.03.2025 10:48:53

Comunitatea modelelor AI

Site-ul oficial al Îmbrățișării Feței:https://huggingface.co/
Oglinda domestică cu fața îmbrățișată:https://hf-mirror.com/
Modelscope Magic Matching:https://www.modelscope.cn/

[AI] (7) Folosește llama.cpp pentru a implementa modelul DeepSeek-R1 on-premises

Postări conexe

Secțiuni vizualizate