[AI] (7) Käytä llama.cpp DeepSeek-R1-mallin käyttöönottoon paikan päällä

Pikku roisto · Julkaistu 7.2.2025 13.58.06

llama.cpp Johdanto

Inference Metan LLaMA-malli (ja muut) käyttäen puhdasta C/C++:a. Ensisijainen tavoite llama.cpp mahdollistaa LLM-päättely eri laitteilla (paikallisesti ja pilvessä) mahdollisimman vähäisellä asennuksella ja huippuluokan suorituskyvyllä.

Puhdas C/C++-toteutus ilman riippuvuuksia
Apple on huippuluokkaa – optimoitu ARM NEON-, Accelerate- ja Metal-runkoilla
AVX, AVX2, AVX512 ja AMX tukevat x86-arkkitehtuureja
1,5-bittinen, 2-bittinen, 3-bittinen, 4-bittinen, 5-bittinen, 6-bittinen ja 8-bittinen kokonaislukukvantisointi nopeampaa päättelyä ja pienempää muistinkäyttöä varten
Mukautetut CUDA-ytimet LLM:ien ajamiseen NVIDIA-näytönohjaimilla (AMD-GPU:t HIP:n kautta ja Moore Threads MTT:n näytönohjaimet MUSA:n kautta)
Vulkan ja SYCL backend-tuki
CPU+GPU-hybridipäättely, joka osittain kiihdyttää malleja, jotka ovat suurempia kuin VRAM-kokonaiskapasiteetti

Github-osoite:Hyperlinkin kirjautuminen on näkyvissä.
Latausosoite:Hyperlinkin kirjautuminen on näkyvissä.

Lataa llama.cpp

Ensiksi lataa vastaava llama.cpp-ohjelmistoversio tietokoneesi laitteistokokoonpanon mukaan, kuten alla olevassa kuvassa näkyy:

AVX tukee 256-bittistä leveää toimintaa.
AVX2 tukee myös 256-bittisiä operaatioita, mutta lisää tuen kokonaislukuoperaatioille sekä joitakin lisäkäskyjä.
AVX-512 tukee 512-bittisiä operaatioita, tarjoten parempaa rinnakkaisuutta ja suorituskykyä, erityisesti suurten datamäärien tai liukulukutoimintojen käsittelyssä.

Tietokoneeni toimii puhtaalla prosessorilla ja tukee avx512-käskykantaa, joten lataa "" versio, latausosoite:Hyperlinkin kirjautuminen on näkyvissä.Kun lataus on valmis, avaa se zip osoitteeseenD:\llama-b4658-bin-win-avx512-x64Hakemisto.

Lataa DeepSeek-R1-malli

Latausosoite:Hyperlinkin kirjautuminen on näkyvissä.Tämä artikkeli alkaa sanoilla "DeepSeek-R1-Distill-Qwen-1.5B-Q3_K_L.ggufEsimerkiksi.

Lataa se vain oman asetuksesi mukaan. Mitä korkeampi kvantisointitaso, sitä suurempi tiedosto on ja sitä tarkempi malli on.

llama.cpp Otetaan käyttöön DeepSeek-R1-malli

Suorita seuraava komento DeepSeek-R1-Distill-Qwen-1.5B-Q3_K_L.gguf-tiedostohakemistossa:

Kirjautuminen näkyy.

Kuten alla on esitetty:

Avaa se selaimellahttp://127.0.0.1:8080/Osoite testataan alla esitetyn mukaisesti:

Liitteenä on juokseva parametrikonfiguraatio:Hyperlinkin kirjautuminen on näkyvissä.

Pikku roisto · Julkaistu 5.3.2025 10.48.53

AI-malliyhteisö

Hugging Facen virallinen verkkosivusto:https://huggingface.co/
Halauskasvojen kotipeili:https://hf-mirror.com/
Magic Matching -malliskooppi:https://www.modelscope.cn/

[AI] (7) Käytä llama.cpp DeepSeek-R1-mallin käyttöönottoon paikan päällä

Aiheeseen liittyvät julkaisut

Katsotut osuudet