[IA] (7) Utilizar llama.cpp para desplegar el modelo DeepSeek-R1 en las instalaciones

Pequeña basura · Publicado en 7/2/2025 13:58:06

llama.cpp Introducción

Inference el modelo LLaMA de Meta (y otros) usando C/C++ puro. El objetivo principal llama.cpp permitir la inferencia de LLM en diversos hardware (locales y en la nube) con una configuración mínima y un rendimiento de última generación.

Implementación pura en C/C++ sin dependencias
Apple Silicon es de primera: optimizado con frameworks ARM NEON, Accelerate y Metal
AVX, AVX2, AVX512 y AMX soportan arquitecturas x86
Cuantización entera de 1,5 bits, 2 bits, 3 bits, 4 bits, 5 bits, 6 bits y 8 bits para una inferencia más rápida y menor uso de memoria
Núcleos CUDA personalizados para ejecutar LLMs en GPUs NVIDIA (GPUs AMD vía HIP y GPUs MTT Moore Threads vía MUSA)
Soporte backend de Vulkan y SYCL
Inferencia híbrida CPU+GPU, acelerando parcialmente modelos mayores que la capacidad total de VRAM

Dirección de Github:El inicio de sesión del hipervínculo es visible.
Dirección de descarga:El inicio de sesión del hipervínculo es visible.

Descargar llama.cpp

Primero, descarga la versión correspondiente del software llama.cpp según la configuración de hardware de tu ordenador, como se muestra en la figura siguiente:

AVX soporta funcionamiento en 256 bits de ancho.
AVX2 también soporta operaciones de 256 bits de ancho, pero añade soporte para operaciones enteras así como algunas instrucciones adicionales.
El AVX-512 soporta operaciones de 512 bits, proporcionando un mayor paralelismo y rendimiento, especialmente al tratar con grandes cantidades de datos u operaciones en punto flotante.

Mi ordenador funciona solo con CPU y soporta el conjunto de instrucciones avx512, así que descarga la versión "" y dirección de descarga:El inicio de sesión del hipervínculo es visible.Una vez completada la descarga, descomprime laD:\llama-b4658-bin-win-avx512-x64Directorio.

Descarga el modelo DeepSeek-R1

Dirección de descarga:El inicio de sesión del hipervínculo es visible.Este artículo comienza con "DeepSeek-R1-Distill-Qwen-1.5B-Q3_K_L.ggufPor ejemplo.

Solo descárgalo según tu propia configuración. Cuanto mayor es el nivel de cuantización, mayor es el archivo y mayor es la precisión del modelo.

llama.cpp Despliegue el modelo DeepSeek-R1

Ejecuta el siguiente comando en el directorio de archivos DeepSeek-R1-Distill-Qwen-1.5B-Q3_K_L.gguf:

El inicio de sesión es visible.

Como se muestra a continuación:

Ábrelo usando un navegadorhttp://127.0.0.1:8080/La dirección se prueba como se muestra a continuación:

Se adjunta la configuración de parámetros de ejecución:El inicio de sesión del hipervínculo es visible.

Pequeña basura · Publicado en 5/3/2025 10:48:53

Comunidad de modelos de IA

Página oficial de Abrazo en la Cara:https://huggingface.co/
Espejo doméstico de rostro abrazado:https://hf-mirror.com/
Modelscope de Correspondencia Mágica:https://www.modelscope.cn/

[IA] (7) Utilizar llama.cpp para desplegar el modelo DeepSeek-R1 en las instalaciones

Publicaciones relacionadas

Secciones vistas