llama.cpp Introducción
Inference el modelo LLaMA de Meta (y otros) usando C/C++ puro. El objetivo principal llama.cpp permitir la inferencia de LLM en diversos hardware (locales y en la nube) con una configuración mínima y un rendimiento de última generación.
- Implementación pura en C/C++ sin dependencias
- Apple Silicon es de primera: optimizado con frameworks ARM NEON, Accelerate y Metal
- AVX, AVX2, AVX512 y AMX soportan arquitecturas x86
- Cuantización entera de 1,5 bits, 2 bits, 3 bits, 4 bits, 5 bits, 6 bits y 8 bits para una inferencia más rápida y menor uso de memoria
- Núcleos CUDA personalizados para ejecutar LLMs en GPUs NVIDIA (GPUs AMD vía HIP y GPUs MTT Moore Threads vía MUSA)
- Soporte backend de Vulkan y SYCL
- Inferencia híbrida CPU+GPU, acelerando parcialmente modelos mayores que la capacidad total de VRAM
Dirección de Github:El inicio de sesión del hipervínculo es visible. Dirección de descarga:El inicio de sesión del hipervínculo es visible.
Descargar llama.cpp
Primero, descarga la versión correspondiente del software llama.cpp según la configuración de hardware de tu ordenador, como se muestra en la figura siguiente:
AVX soporta funcionamiento en 256 bits de ancho. AVX2 también soporta operaciones de 256 bits de ancho, pero añade soporte para operaciones enteras así como algunas instrucciones adicionales. El AVX-512 soporta operaciones de 512 bits, proporcionando un mayor paralelismo y rendimiento, especialmente al tratar con grandes cantidades de datos u operaciones en punto flotante.
Mi ordenador funciona solo con CPU y soporta el conjunto de instrucciones avx512, así que descarga la versión "" y dirección de descarga:El inicio de sesión del hipervínculo es visible.Una vez completada la descarga, descomprime laD:\llama-b4658-bin-win-avx512-x64Directorio.
Descarga el modelo DeepSeek-R1
Dirección de descarga:El inicio de sesión del hipervínculo es visible.Este artículo comienza con "DeepSeek-R1-Distill-Qwen-1.5B-Q3_K_L.ggufPor ejemplo.
Solo descárgalo según tu propia configuración. Cuanto mayor es el nivel de cuantización, mayor es el archivo y mayor es la precisión del modelo.
llama.cpp Despliegue el modelo DeepSeek-R1
Ejecuta el siguiente comando en el directorio de archivos DeepSeek-R1-Distill-Qwen-1.5B-Q3_K_L.gguf:
Como se muestra a continuación:
Ábrelo usando un navegadorhttp://127.0.0.1:8080/La dirección se prueba como se muestra a continuación:
Se adjunta la configuración de parámetros de ejecución:El inicio de sesión del hipervínculo es visible.
|