Este artículo es un artículo espejo de traducción automática, por favor haga clic aquí para saltar al artículo original.

Vista: 2195|Respuesta: 1

[IA] (7) Utilizar llama.cpp para desplegar el modelo DeepSeek-R1 en las instalaciones

[Copiar enlace]
Publicado el 7-2-2025 13:58:06 | | | |
llama.cpp Introducción

Inference el modelo LLaMA de Meta (y otros) usando C/C++ puro. El objetivo principal llama.cpp permitir la inferencia de LLM en diversos hardware (locales y en la nube) con una configuración mínima y un rendimiento de última generación.

  • Implementación pura en C/C++ sin dependencias
  • Apple Silicon es de primera: optimizado con frameworks ARM NEON, Accelerate y Metal
  • AVX, AVX2, AVX512 y AMX soportan arquitecturas x86
  • Cuantización entera de 1,5 bits, 2 bits, 3 bits, 4 bits, 5 bits, 6 bits y 8 bits para una inferencia más rápida y menor uso de memoria
  • Núcleos CUDA personalizados para ejecutar LLMs en GPUs NVIDIA (GPUs AMD vía HIP y GPUs MTT Moore Threads vía MUSA)
  • Soporte backend de Vulkan y SYCL
  • Inferencia híbrida CPU+GPU, acelerando parcialmente modelos mayores que la capacidad total de VRAM


Dirección de Github:El inicio de sesión del hipervínculo es visible.
Dirección de descarga:El inicio de sesión del hipervínculo es visible.

Descargar llama.cpp

Primero, descarga la versión correspondiente del software llama.cpp según la configuración de hardware de tu ordenador, como se muestra en la figura siguiente:



AVX soporta funcionamiento en 256 bits de ancho.
AVX2 también soporta operaciones de 256 bits de ancho, pero añade soporte para operaciones enteras así como algunas instrucciones adicionales.
El AVX-512 soporta operaciones de 512 bits, proporcionando un mayor paralelismo y rendimiento, especialmente al tratar con grandes cantidades de datos u operaciones en punto flotante.

Mi ordenador funciona solo con CPU y soporta el conjunto de instrucciones avx512, así que descarga la versión "" y dirección de descarga:El inicio de sesión del hipervínculo es visible.Una vez completada la descarga, descomprime laD:\llama-b4658-bin-win-avx512-x64Directorio.

Descarga el modelo DeepSeek-R1

Dirección de descarga:El inicio de sesión del hipervínculo es visible.Este artículo comienza con "DeepSeek-R1-Distill-Qwen-1.5B-Q3_K_L.ggufPor ejemplo.

Solo descárgalo según tu propia configuración. Cuanto mayor es el nivel de cuantización, mayor es el archivo y mayor es la precisión del modelo.

llama.cpp Despliegue el modelo DeepSeek-R1

Ejecuta el siguiente comando en el directorio de archivos DeepSeek-R1-Distill-Qwen-1.5B-Q3_K_L.gguf:

Como se muestra a continuación:



Ábrelo usando un navegadorhttp://127.0.0.1:8080/La dirección se prueba como se muestra a continuación:



Se adjunta la configuración de parámetros de ejecución:El inicio de sesión del hipervínculo es visible.




Anterior:El frontend genera un archivo .d.ts a partir del archivo .js
Próximo:Cómo resolver el problema de la extracción del modelo Ollama
 Propietario| Publicado el 5-03-2025 a las 10:48:53 |
Comunidad de modelos de IA

Página oficial de Abrazo en la Cara:https://huggingface.co/
Espejo doméstico de rostro abrazado:https://hf-mirror.com/
Modelscope de Correspondencia Mágica:https://www.modelscope.cn/
Renuncia:
Todo el software, materiales de programación o artículos publicados por Code Farmer Network son únicamente para fines de aprendizaje e investigación; El contenido anterior no se utilizará con fines comerciales o ilegales; de lo contrario, los usuarios asumirán todas las consecuencias. La información de este sitio proviene de Internet, y las disputas de derechos de autor no tienen nada que ver con este sitio. Debes eliminar completamente el contenido anterior de tu ordenador en un plazo de 24 horas desde la descarga. Si te gusta el programa, por favor apoya el software genuino, compra el registro y obtén mejores servicios genuinos. Si hay alguna infracción, por favor contáctanos por correo electrónico.

Mail To:help@itsvse.com