[IA] (7) Usar llama.cpp para implantar o modelo DeepSeek-R1 localmente

Pequeno · Publicado em 07/02/2025 13:58:06

llama.cpp Introdução

Inference o modelo LLaMA da Meta (e outros) usando C/C++ puro. O objetivo principal llama.cpp viabilizar a inferência de LLMs em diversos hardwares (on-premises e na nuvem) com configuração mínima e desempenho de última geração.

Implementação pura em C/C++ sem dependências
O Apple Silicon é de altíssima qualidade – otimizado com frameworks ARM NEON, Accelerate e Metal
AVX, AVX2, AVX512 e AMX suportam arquiteturas x86
Quantização inteira de 1,5 bits, 2 bits, 3 bits, 4 bits, 5 bits, 6 bits e 8 bits para inferência mais rápida e uso reduzido da memória
Núcleos CUDA personalizados para rodar LLMs em GPUs NVIDIA (GPUs AMD via HIP e GPUs MTT Moore Threads via MUSA)
Suporte backend para Vulkan e SYCL
Inferência híbrida CPU+GPU, acelerando parcialmente modelos maiores que a capacidade total de VRAM

Endereço do Github:O login do hiperlink está visível.
Endereço de Download:O login do hiperlink está visível.

Baixe llama.cpp

Primeiro, baixe a versão correspondente do software llama.cpp de acordo com a configuração do hardware do seu computador, conforme mostrado na figura abaixo:

O AVX suporta operação em 256 bits de largura.
O AVX2 também suporta operações de 256 bits, mas adiciona suporte para operações inteiras, além de algumas instruções adicionais.
O AVX-512 suporta operações de 512 bits, proporcionando maior paralelismo e desempenho, especialmente ao lidar com grandes volumes de dados ou operações em ponto flutuante.

Meu computador roda só com CPU e suporta o conjunto de instruções avx512, então baixe a versão "" e endereço de download:O login do hiperlink está visível.Depois que o download estiver concluído, descompacte emD:\llama-b4658-bin-win-avx512-x64Diretório.

Baixe o modelo DeepSeek-R1

Endereço de Download:O login do hiperlink está visível.Este artigo começa com "DeepSeek-R1-Distill-Qwen-1.5B-Q3_K_L.ggufPor exemplo.

Basta baixar conforme sua própria configuração. Quanto maior o nível de quantização, maior o arquivo e maior a precisão do modelo.

llama.cpp Implantar o modelo DeepSeek-R1

Execute o seguinte comando no diretório de arquivos DeepSeek-R1-Distill-Qwen-1.5B-Q3_K_L.gguf:

O login está visível.

Como mostrado abaixo:

Abra usando um navegadorhttp://127.0.0.1:8080/O endereço é testado conforme mostrado abaixo:

Anexada está a configuração do parâmetro de corrida:O login do hiperlink está visível.

Pequeno · Publicado em 05/03/2025 10:48:53

Comunidade de modelos de IA

Site Oficial do Hugging Face:https://huggingface.co/
Espelho Doméstico de Abraços:https://hf-mirror.com/
Modelescope Magic Matching:https://www.modelscope.cn/

[IA] (7) Usar llama.cpp para implantar o modelo DeepSeek-R1 localmente

Posts Relacionados

Seções visualizadas