llama.cpp Johdanto
Inference Metan LLaMA-malli (ja muut) käyttäen puhdasta C/C++:a. Ensisijainen tavoite llama.cpp mahdollistaa LLM-päättely eri laitteilla (paikallisesti ja pilvessä) mahdollisimman vähäisellä asennuksella ja huippuluokan suorituskyvyllä.
- Puhdas C/C++-toteutus ilman riippuvuuksia
- Apple on huippuluokkaa – optimoitu ARM NEON-, Accelerate- ja Metal-runkoilla
- AVX, AVX2, AVX512 ja AMX tukevat x86-arkkitehtuureja
- 1,5-bittinen, 2-bittinen, 3-bittinen, 4-bittinen, 5-bittinen, 6-bittinen ja 8-bittinen kokonaislukukvantisointi nopeampaa päättelyä ja pienempää muistinkäyttöä varten
- Mukautetut CUDA-ytimet LLM:ien ajamiseen NVIDIA-näytönohjaimilla (AMD-GPU:t HIP:n kautta ja Moore Threads MTT:n näytönohjaimet MUSA:n kautta)
- Vulkan ja SYCL backend-tuki
- CPU+GPU-hybridipäättely, joka osittain kiihdyttää malleja, jotka ovat suurempia kuin VRAM-kokonaiskapasiteetti
Github-osoite:Hyperlinkin kirjautuminen on näkyvissä. Latausosoite:Hyperlinkin kirjautuminen on näkyvissä.
Lataa llama.cpp
Ensiksi lataa vastaava llama.cpp-ohjelmistoversio tietokoneesi laitteistokokoonpanon mukaan, kuten alla olevassa kuvassa näkyy:
AVX tukee 256-bittistä leveää toimintaa. AVX2 tukee myös 256-bittisiä operaatioita, mutta lisää tuen kokonaislukuoperaatioille sekä joitakin lisäkäskyjä. AVX-512 tukee 512-bittisiä operaatioita, tarjoten parempaa rinnakkaisuutta ja suorituskykyä, erityisesti suurten datamäärien tai liukulukutoimintojen käsittelyssä.
Tietokoneeni toimii puhtaalla prosessorilla ja tukee avx512-käskykantaa, joten lataa "" versio, latausosoite:Hyperlinkin kirjautuminen on näkyvissä.Kun lataus on valmis, avaa se zip osoitteeseenD:\llama-b4658-bin-win-avx512-x64Hakemisto.
Lataa DeepSeek-R1-malli
Latausosoite:Hyperlinkin kirjautuminen on näkyvissä.Tämä artikkeli alkaa sanoilla "DeepSeek-R1-Distill-Qwen-1.5B-Q3_K_L.ggufEsimerkiksi.
Lataa se vain oman asetuksesi mukaan. Mitä korkeampi kvantisointitaso, sitä suurempi tiedosto on ja sitä tarkempi malli on.
llama.cpp Otetaan käyttöön DeepSeek-R1-malli
Suorita seuraava komento DeepSeek-R1-Distill-Qwen-1.5B-Q3_K_L.gguf-tiedostohakemistossa:
Kuten alla on esitetty:
Avaa se selaimellahttp://127.0.0.1:8080/Osoite testataan alla esitetyn mukaisesti:
Liitteenä on juokseva parametrikonfiguraatio:Hyperlinkin kirjautuminen on näkyvissä.
|