llama.cpp Introdução
Inference o modelo LLaMA da Meta (e outros) usando C/C++ puro. O objetivo principal llama.cpp viabilizar a inferência de LLMs em diversos hardwares (on-premises e na nuvem) com configuração mínima e desempenho de última geração.
- Implementação pura em C/C++ sem dependências
- O Apple Silicon é de altíssima qualidade – otimizado com frameworks ARM NEON, Accelerate e Metal
- AVX, AVX2, AVX512 e AMX suportam arquiteturas x86
- Quantização inteira de 1,5 bits, 2 bits, 3 bits, 4 bits, 5 bits, 6 bits e 8 bits para inferência mais rápida e uso reduzido da memória
- Núcleos CUDA personalizados para rodar LLMs em GPUs NVIDIA (GPUs AMD via HIP e GPUs MTT Moore Threads via MUSA)
- Suporte backend para Vulkan e SYCL
- Inferência híbrida CPU+GPU, acelerando parcialmente modelos maiores que a capacidade total de VRAM
Endereço do Github:O login do hiperlink está visível. Endereço de Download:O login do hiperlink está visível.
Baixe llama.cpp
Primeiro, baixe a versão correspondente do software llama.cpp de acordo com a configuração do hardware do seu computador, conforme mostrado na figura abaixo:
O AVX suporta operação em 256 bits de largura. O AVX2 também suporta operações de 256 bits, mas adiciona suporte para operações inteiras, além de algumas instruções adicionais. O AVX-512 suporta operações de 512 bits, proporcionando maior paralelismo e desempenho, especialmente ao lidar com grandes volumes de dados ou operações em ponto flutuante.
Meu computador roda só com CPU e suporta o conjunto de instruções avx512, então baixe a versão "" e endereço de download:O login do hiperlink está visível.Depois que o download estiver concluído, descompacte emD:\llama-b4658-bin-win-avx512-x64Diretório.
Baixe o modelo DeepSeek-R1
Endereço de Download:O login do hiperlink está visível.Este artigo começa com "DeepSeek-R1-Distill-Qwen-1.5B-Q3_K_L.ggufPor exemplo.
Basta baixar conforme sua própria configuração. Quanto maior o nível de quantização, maior o arquivo e maior a precisão do modelo.
llama.cpp Implantar o modelo DeepSeek-R1
Execute o seguinte comando no diretório de arquivos DeepSeek-R1-Distill-Qwen-1.5B-Q3_K_L.gguf:
Como mostrado abaixo:
Abra usando um navegadorhttp://127.0.0.1:8080/O endereço é testado conforme mostrado abaixo:
Anexada está a configuração do parâmetro de corrida:O login do hiperlink está visível.
|