llama.cpp Bevezetés
Inference Meta LLaMA modellje (és mások) tiszta C/C++ használatával. A fő cél llama.cpp lehetővé tenni az LLM következtetéseket különböző hardvereken (helyszínen és felhőben) minimális beállítással és csúcstechnológiás teljesítménnyel.
- Tiszta C/C++ megvalósítás függőség nélkül
- Az Apple szilícium csúcsminőségű – ARM NEON, Accelerate és Metal keretrendszerekkel optimalizált
- Az AVX, AVX2, AVX512 és AMX x86 architektúrákat támogatnak
- 1,5-bites, 2-bites, 3-bites, 4-bites, 5-bites, 6-bites és 8-bites egész szám kvantálást a gyorsabb következtetés és a csökkentett memóriahasználat érdekében
- Egyedi CUDA magok LLM-ek futtatásához NVIDIA GPU-kon (AMD GPU-k HIP-en és Moore Threads MTT GPU-k MUSA-n keresztül)
- Vulkan és SYCL háttértámogatás
- CPU+GPU hibrid következtetés, részben gyorsítva a VRAM-kapacitásnál nagyobb modelleket
Github cím:A hiperlink bejelentkezés látható. Letöltési cím:A hiperlink bejelentkezés látható.
Töltsd le llama.cpp
Először töltse le a llama.cpp szoftver megfelelő verzióját a számítógép hardverkonfigurációja szerint, ahogy az alábbi ábrán látható:
Az AVX támogatja a 256 bites működést. Az AVX2 támogatja a 256 bites műveleteket is, de támogatja az egész szám műveleteket és néhány további utasítást. Az AVX-512 támogatja az 512 bites műveleteket, növelve a párhuzamosságot és a teljesítményt, különösen nagy adatmennyiség vagy lebegőpontos műveletek esetén.
A számítógépem tiszta CPU-val fut, és támogatja az avx512 utasításkészletet, szóval töltsd le a "" verziót, a letöltési címet:A hiperlink bejelentkezés látható.A letöltés befejezése után nyitd ki a zip-etD:\llama-b4658-bin-win-avx512-x64Címtár.
Töltse le a DeepSeek-R1 modellt
Letöltési cím:A hiperlink bejelentkezés látható.Ez a cikk a "DeepSeek-R1-Distill-Qwen-1.5B-Q3_K_L.ggufPéldául.
Csak töltsd le a saját beállításaid szerint. Minél magasabb a kvantálási szint, annál nagyobb a fájl, és annál nagyobb a modell pontossága.
llama.cpp A DeepSeek-R1 modell bevezetése
Futtasd a következő parancsot a DeepSeek-R1-Distill-Qwen-1.5B-Q3_K_L.gguf fájlkönyvtárban:
Ahogy az alábbiakban látható:
Nyisd meg böngészővelhttp://127.0.0.1:8080/A címet az alábbiak szerint teszteljük:
Csatolva van a futó paraméterkonfiguráció:A hiperlink bejelentkezés látható.
|