Este artigo é um artigo espelhado de tradução automática, por favor clique aqui para ir para o artigo original.

Vista: 2195|Resposta: 1

[IA] (7) Usar llama.cpp para implantar o modelo DeepSeek-R1 localmente

[Copiar link]
Postado em 07-02-2025 13:58:06 | | | |
llama.cpp Introdução

Inference o modelo LLaMA da Meta (e outros) usando C/C++ puro. O objetivo principal llama.cpp viabilizar a inferência de LLMs em diversos hardwares (on-premises e na nuvem) com configuração mínima e desempenho de última geração.

  • Implementação pura em C/C++ sem dependências
  • O Apple Silicon é de altíssima qualidade – otimizado com frameworks ARM NEON, Accelerate e Metal
  • AVX, AVX2, AVX512 e AMX suportam arquiteturas x86
  • Quantização inteira de 1,5 bits, 2 bits, 3 bits, 4 bits, 5 bits, 6 bits e 8 bits para inferência mais rápida e uso reduzido da memória
  • Núcleos CUDA personalizados para rodar LLMs em GPUs NVIDIA (GPUs AMD via HIP e GPUs MTT Moore Threads via MUSA)
  • Suporte backend para Vulkan e SYCL
  • Inferência híbrida CPU+GPU, acelerando parcialmente modelos maiores que a capacidade total de VRAM


Endereço do Github:O login do hiperlink está visível.
Endereço de Download:O login do hiperlink está visível.

Baixe llama.cpp

Primeiro, baixe a versão correspondente do software llama.cpp de acordo com a configuração do hardware do seu computador, conforme mostrado na figura abaixo:



O AVX suporta operação em 256 bits de largura.
O AVX2 também suporta operações de 256 bits, mas adiciona suporte para operações inteiras, além de algumas instruções adicionais.
O AVX-512 suporta operações de 512 bits, proporcionando maior paralelismo e desempenho, especialmente ao lidar com grandes volumes de dados ou operações em ponto flutuante.

Meu computador roda só com CPU e suporta o conjunto de instruções avx512, então baixe a versão "" e endereço de download:O login do hiperlink está visível.Depois que o download estiver concluído, descompacte emD:\llama-b4658-bin-win-avx512-x64Diretório.

Baixe o modelo DeepSeek-R1

Endereço de Download:O login do hiperlink está visível.Este artigo começa com "DeepSeek-R1-Distill-Qwen-1.5B-Q3_K_L.ggufPor exemplo.

Basta baixar conforme sua própria configuração. Quanto maior o nível de quantização, maior o arquivo e maior a precisão do modelo.

llama.cpp Implantar o modelo DeepSeek-R1

Execute o seguinte comando no diretório de arquivos DeepSeek-R1-Distill-Qwen-1.5B-Q3_K_L.gguf:

Como mostrado abaixo:



Abra usando um navegadorhttp://127.0.0.1:8080/O endereço é testado conforme mostrado abaixo:



Anexada está a configuração do parâmetro de corrida:O login do hiperlink está visível.




Anterior:A interface gera um arquivo .d.ts a partir do arquivo .js
Próximo:Como resolver o problema de puxar o modelo Ollama
 Senhorio| Postado em 05-03-2025 às 10:48:53 |
Comunidade de modelos de IA

Site Oficial do Hugging Face:https://huggingface.co/
Espelho Doméstico de Abraços:https://hf-mirror.com/
Modelescope Magic Matching:https://www.modelscope.cn/
Disclaimer:
Todo software, material de programação ou artigos publicados pela Code Farmer Network são apenas para fins de aprendizado e pesquisa; O conteúdo acima não deve ser usado para fins comerciais ou ilegais, caso contrário, os usuários terão todas as consequências. As informações deste site vêm da Internet, e disputas de direitos autorais não têm nada a ver com este site. Você deve deletar completamente o conteúdo acima do seu computador em até 24 horas após o download. Se você gosta do programa, por favor, apoie um software genuíno, compre o registro e obtenha serviços genuínos melhores. Se houver qualquer infração, por favor, entre em contato conosco por e-mail.

Mail To:help@itsvse.com