llama.cpp Ievads
Secinājums Meta LLaMA modelis (un citi), izmantojot tīru C / C ++. Galvenais mērķis llama.cpp iespējot LLM secinājumus dažādās aparatūrās (lokālajā un mākonī) ar minimālu iestatīšanu un mūsdienīgu veiktspēju.
- Tīra C/C++ ieviešana bez atkarībām
- Apple silīcijs ir augstākās klases - optimizēts ar ARM NEON, Accelerate un Metal karkasiem
- AVX, AVX2, AVX512 un AMX atbalsta x86 arhitektūras
- 1,5 bitu, 2 bitu, 3 bitu, 4 bitu, 5 bitu, 6 bitu un 8 bitu veselu skaitļu kvantēšana ātrākai secinājumu izdarīšanai un samazinātam atmiņas lietojumam
- Pielāgoti CUDA kodoli LLM palaišanai NVIDIA GPU (AMD GPU caur HIP un Moore Threads MTT GPU caur MUSA)
- Vulkan un SYCL aizmugures atbalsts
- CPU+GPU hibrīda secinājums, daļēji paātrinot modeļus, kas ir lielāki par kopējo VRAM ietilpību
Github adrese:Hipersaites pieteikšanās ir redzama. Lejupielādes adrese:Hipersaites pieteikšanās ir redzama.
Lejupielādēt llama.cpp
Vispirms lejupielādējiet atbilstošo llama.cpp programmatūras versiju atbilstoši datora aparatūras konfigurācijai, kā parādīts zemāk redzamajā attēlā:
AVX atbalsta 256 bitu platu darbību. AVX2 atbalsta arī 256 bitu platas operācijas, bet pievieno atbalstu veselu skaitļu operācijām, kā arī dažus papildu norādījumus. AVX-512 atbalsta 512 bitu platas operācijas, nodrošinot lielāku paralēlismu un veiktspēju, it īpaši, strādājot ar lielu datu apjomu vai peldošā komata operācijām.
Mans dators darbojas ar tīru CPU un atbalsta avx512 instrukciju kopu, tāpēc lejupielādējiet "" versiju, lejupielādes adresi:Hipersaites pieteikšanās ir redzama.Kad lejupielāde ir pabeigta, izsaiņojiet to uzD:\llama-b4658-bin-win-avx512-x64Direktoriju.
Lejupielādēt DeepSeek-R1 modeli
Lejupielādes adrese:Hipersaites pieteikšanās ir redzama.Šis raksts sākas ar "DeepSeek-R1-Distill-Qwen-1.5B-Q3_K_L.ggufPiemēram.
Vienkārši lejupielādējiet to atbilstoši savai konfigurācijai. Jo augstāks kvantēšanas līmenis, jo lielāks fails un augstāka modeļa precizitāte.
llama.cpp DeepSeek-R1 modeļa izvietošana
Palaidiet šādu komandu failu direktorijā DeepSeek-R1-Distill-Qwen-1.5B-Q3_K_L.gguf:
Kā parādīts zemāk:
Atveriet to, izmantojot pārlūkprogrammuhttp://127.0.0.1:8080/Adrese tiek pārbaudīta, kā parādīts tālāk.
Pievienota darbības parametru konfigurācija:Hipersaites pieteikšanās ir redzama.
|