【AI】(3) Tencent Cloud despliega DeepSeek-R1 con un tutorial de HAI

Pequeña basura · Publicado en 5/2/2025 21:14:04

Hyper Application Inventor (HAI) es un producto de servicio de aplicaciones GPU para IA y computación científica, que proporciona potencia de cálculo plug-and-play y entornos comunes para ayudar a pequeñas y medianas empresas y desarrolladores a desplegar rápidamente LLMs.

Dirección:El inicio de sesión del hipervínculo es visible.

HAI vs servidores GPU

Reducir considerablemente el umbral para el uso de servidores en la nube con GPU, optimizar la experiencia del producto desde múltiples ángulos y usarla de fábrica, como se muestra en la figura siguiente:

Compra potencia de cómputo HAI

Ve a la página de compra, selecciona la imagen del entorno básico "Ubuntu 20.04" y configura el entorno:Ubuntu 20.04, Driver 525.105.17, Python 3.8, CUDA 12.0, cuDNN 8La imagen ya nos ha instalado el controlador, y elegimos pagar conforme avanzamos, como se muestra en la figura de abajo:

Memoria de vídeo: 32GB+
Tasa de hash: 15+TFlops SP
CPU: 8~10 núcleos
RAM: 40GB

Tras esperar unos minutos, la instancia se crea con éxito y se activa la Aceleración Académica, como se muestra en la siguiente figura:

La primera vez que lo usas, tienes que restablecer tu contraseña y el nombre de usuario de acceso es:Ubuntu。 Prueba a iniciar sesión en el servidor y comprobar la información del controlador de la GPU NVIDIA con el siguiente comando:

El inicio de sesión es visible.

Como se muestra a continuación:

Instalar Ollama

Página web oficial de Ollama:El inicio de sesión del hipervínculo es visible.

Inicia sesión en el servidor usando la herramienta de masilla y comienza a instalar la herramienta Ollama con el siguiente comando:

El inicio de sesión es visible.

La instalación está completa y el resultado es el siguiente:

>>> Instalar ollama en /usr/local
>>> Descargando el paquete de Linux amd64
######################################################################## 100.0%
>>> Creando un usuario de llama...
>>> Añadir un usuario ollama al grupo de renderizado...
>>> Añadir un usuario de ollama al grupo de vídeo...
>>> Añadir usuario actual al grupo llama...
>>> Creando un servicio sistema ollama...
>>> Habilitar y comenzar el servicio ollama...
He creado el enlace simbólico /etc/systemd/system/default.target.wants/ollama.service → /etc/systemd/system/ollama.service.

Echa un vistazo al comando de versión: ollama -v
Consulta el modelo que está actualmente cargado en la memoria: ollama ps

Crea una carpeta de almacenamiento personalizada con el siguiente comando:

El inicio de sesión es visible.

Modifica la dirección de escucha por defecto y el camino de almacenamiento del modelo (no puedes modificar el puerto por defecto, de lo contrario el comando fallará) y utiliza los siguientes comandos:

El inicio de sesión es visible.

Despliegue el modelo deepseek-r1

Ejecuta el modelo deepseek-r1:8b con el siguiente comando:

El inicio de sesión es visible.

Como se muestra a continuación:

Prueba el diálogo como se muestra a continuación:

El cortafuegos libera el puerto TCP 11434 y llama a la interfaz HTTP, como se muestra en la siguiente figura:

{
  "modelos": [
{
   "Nombre": "deepseek-r1:8b",
   "modelo": "deepseek-r1:8b",
   "tamaño": 6930032640,
   "digest": "28f8fd6cdc677661426adab9338ce3c013d7e69a5bea9e704b364171a5d61a10",
   "detalles": {
      "parent_model": "",
      "formato": "gguf",
      "familia": "llama",
      "familias": [
      "llama"
      ],
      "parameter_size": "8.0B",
      "quantization_level": "Q4_K_M"
   },
   "expires_at": "2025-02-05T21:14:50.715753614+08:00",
   "size_vram": 6930032640
}
  ]
}

Referencia:
El inicio de sesión del hipervínculo es visible.
El inicio de sesión del hipervínculo es visible.
El inicio de sesión del hipervínculo es visible.

Pequeña basura · Publicado en 5/2/2025 21:22:49

Si el modelo no recibe solicitudes ni entradas durante un periodo de tiempo, Ollama termina automáticamente el modelo en el centro de la nube para ahorrar recursos.

Pequeña basura · Publicado en 6/2/2025 9:03:57

Elemento de configuración de variables de entorno de Ollama

Variable	Valor por defecto	Descripción + Efecto + Escenario
OLLAMA_HOST	"[color=var(--fgColor-accent, var(--color-accent-fg))]El inicio de sesión del hipervínculo es visible."	Configura el host y el esquema para el servidor Ollama. Efecto: Determina la URL utilizada para conectarse al servidor Ollama. Escenario: Útil al desplegar Ollama en un entorno distribuido o cuando necesitas exponer el servicio en una interfaz de red específica.
OLLAMA_ORIGINS	[localhost, 127.0.0.1, 0.0.0.0] + app://, file://, tauri://	Configura los orígenes permitidos para CORS. Efecto: Controla qué orígenes pueden hacer peticiones al servidor Ollama. Escenario: Fundamental al integrar Ollama con aplicaciones web para evitar accesos no autorizados desde diferentes dominios.
OLLAMA_MODELS	$HOME/.ollama/modelos	Establece la ruta al directorio de modelos. Efecto: Determina desde dónde se almacenan y cargan los archivos de modelo. Escenario: Útil para gestionar el espacio en disco en diferentes unidades o configurar repositorios de modelos compartidos en entornos multiusuario.
OLLAMA_KEEP_ALIVE	5 minutos	Establece cuánto tiempo permanecen cargados los modelos en la memoria. Efecto: Controla la duración que los modelos permanecen en memoria tras su uso. Escenario: Duraciones más largas mejoran los tiempos de respuesta para consultas frecuentes pero aumentan el uso de memoria. Duraciones más cortas liberan recursos pero pueden aumentar los tiempos de respuesta iniciales.
OLLAMA_DEBUG	false	Permite información adicional de depuración. Efecto: Aumenta la verbosidad de la salida de registro y depuración. Escenario: Invaluable para resolver problemas o entender el comportamiento del sistema durante el desarrollo o despliegue.
OLLAMA_FLASH_ATTENTION	false	Activa la función experimental de atención en flash. Efecto: Activa una optimización experimental para los mecanismos de atención. Escenario: Puede mejorar el rendimiento en hardware compatible pero puede introducir inestabilidad.
OLLAMA_NOHISTORY	false	Desactiva el historial de lectura de la línea. Efecto: Impide que se guarde el historial de comandos. Escenario: Útil en entornos sensibles a la seguridad donde no se debe conservar el historial de comandos.
OLLAMA_NOPRUNE	false	Desactiva la poda de los blobs de modelos al iniciar. Efecto: Conserva todos los blobs de modelos, lo que podría aumentar el uso del disco. Escenario: Útil cuando necesitas mantener todas las versiones de los modelos por compatibilidad o para revertir.
OLLAMA_SCHED_SPREAD	false	Permite programar modelos en todas las GPUs. Efecto: Permite el uso de múltiples GPUs para inferencia de modelos. Escenario: Beneficioso en entornos informáticos de alto rendimiento con múltiples GPUs para maximizar la utilización del hardware.
OLLAMA_INTEL_GPU	false	Activa la detección experimental de GPU Intel. Efecto: Permite el uso de GPUs Intel para la inferencia de modelos. Escenario: Útil para organizaciones que aprovechan hardware de GPU Intel para cargas de trabajo de IA.
OLLAMA_LLM_LIBRARY	"" (auto-detectación)	Configura la biblioteca del LLM para usar. Efecto: Anula la detección automática de la biblioteca de LLM. Escenario: Útil cuando necesitas forzar una versión o implementación específica de la biblioteca por razones de compatibilidad o rendimiento.
OLLAMA_TMPDIR	Directorio temporal predeterminado del sistema	Establece la ubicación de los archivos temporales. Efecto: Determina dónde se almacenan los archivos temporales. Escenario: Importante para gestionar el rendimiento de E/S o cuando el directorio temporal del sistema tiene espacio limitado.
CUDA_VISIBLE_DEVICES	Todos disponibles	Establece qué dispositivos NVIDIA son visibles. Efecto: Controla qué GPUs NVIDIA pueden usarse. Escenario: Fundamental para gestionar la asignación de GPUs en entornos multiusuario o multiproceso.
HIP_VISIBLE_DEVICES	Todos disponibles	Establece qué dispositivos AMD son visibles. Efecto: Controla qué GPUs AMD pueden usarse. Escenario: Similar a CUDA_VISIBLE_DEVICES pero para hardware AMD.
OLLAMA_RUNNERS_DIR	Dependiente del sistema	Establece la ubicación para los corredores. Efecto: Determina dónde se encuentran los ejecutables del ecuador. Escenario: Importante para despliegues personalizados o cuando los runners necesitan aislarse de la aplicación principal.
OLLAMA_NUM_PARALLEL	0 (ilimitado)	Establece el número de solicitudes de modelos paralelos. Efecto: Controla la concurrencia de la inferencia del modelo. Escenario: Crítico para gestionar la carga del sistema y garantizar la capacidad de respuesta en entornos de alto tráfico.
OLLAMA_MAX_LOADED_MODELS	0 (ilimitado)	Establece el número máximo de modelos cargados. Efecto: Limita el número de modelos que pueden cargarse simultáneamente. Escenario: Ayuda a gestionar el uso de memoria en entornos con recursos limitados o muchos modelos diferentes.
OLLAMA_MAX_QUEUE	512	Establece el número máximo de solicitudes en cola. Efecto: Limita el tamaño de la cola de solicitudes. Escenario: Previene la sobrecarga del sistema durante picos de tráfico y asegura el procesamiento oportuno de las solicitudes.
OLLAMA_MAX_VRAM	0 (ilimitado)	Establece una sobreescritura máxima de VRAM en bytes. Efecto: Limita la cantidad de VRAM que se puede usar. Escenario: Útil en entornos compartidos de GPU para evitar que un solo proceso monopolice la memoria GPU.

Fuente:El inicio de sesión del hipervínculo es visible.

$ ollama ayuda a servir
Empezar ollama

Usage:
  Saque ollama [banderas]

Aliases:
  Saque, empieza

Flags:
  -h, --ayuda ayuda para servir

Variables del entorno:
   OLLAMA_DEBUG Mostrar información adicional de depuración (por ejemplo, OLLAMA_DEBUG=1)
   OLLAMA_HOST Dirección IP para el servidor ollama (por defecto 127.0.0.1:11434)
   OLLAMA_KEEP_ALIVE La duración que los modelos permanecen cargados en memoria (por defecto "5m")
   OLLAMA_MAX_LOADED_MODELS Número máximo de modelos cargados por GPU
   OLLAMA_MAX_QUEUE Número máximo de solicitudes en cola
   OLLAMA_MODELS La ruta hacia el directorio de modelos
   OLLAMA_NUM_PARALLEL Número máximo de solicitudes paralelas
   OLLAMA_NOPRUNE No podar los blobs del modelo al arrancar
   OLLAMA_ORIGINS Una coma separa la lista de orígenes permitidos
   OLLAMA_SCHED_SPREAD Siempre programar el modelo en todas las GPU
   OLLAMA_TMPDIR Ubicación de archivos temporales
   OLLAMA_FLASH_ATTENTION Activada la atención flash
   OLLAMA_LLM_LIBRARY Configurar la biblioteca LLM para saltarse la autodetección
   OLLAMA_GPU_OVERHEAD Reserva una porción de VRAM por GPU (bytes)
   OLLAMA_LOAD_TIMEOUT Cuánto tiempo permitir que las cargas del modelo se estanquen antes de rendirse (por defecto "5m")

Referencia:El inicio de sesión del hipervínculo es visible.

Pequeña basura · Publicado en 6/2/2025 9:19:49

Mando Ollama

Lista ollama: Muestra una lista de modelos
Exposición Ollama: Muestra información sobre el modelo
Ollama Pull: Modelo de Pull
ollama push: modelo push
Ollama CP: Copiar un modelo
ollama RM: Eliminar un modelo
Ollama Run: Ejecutar un modelo

Pequeña basura · Publicado en 6/2/2025 9:33:17

Optimización de modelos, edición/etc/systemd/system/ollama.service.d/override.confConfiguración, añadir lo siguiente:

El inicio de sesión es visible.

La configuración completa es la siguiente:

El inicio de sesión es visible.

Pequeña basura · Publicado en 6/2/2025 9:35:26

--verbosoEl parámetro se utiliza para mostrar la velocidad de inferencia (token / segundo). Por ejemplo:

El inicio de sesión es visible.

>>> Hola, ¿quién eres?
<think>

</think>

¡Hola! Soy asistente de IA desarrollado de forma independiente por DeepSeek en China, ¡y me alegra servirte!

Duración total: 489,831897 ms
Duración de la carga: 24,116423ms
Recuento de evaluaciones de prompts: 10 token(s)
Duración de la evaluación del prompt: 4 ms
Tasa de evaluación por prompt: 2500,00 tokens/s
Recuento de evaluaciones: 36 token(s)
Duración de la evaluación: 460ms
Tasa de evaluación: 78,26 tokens/s
>>> soy un pequeño desgraciado, ¿cómo me llamo?
<think>
Bueno, ¿me llamo un pequeño desgraciado? Déjame pensarlo bien. Recuerdo que cuando era niño, mis padres me llamaron "Pequeño Desgraciado" porque mi familia pensaba que tenía las orejas grandes, pero en realidad, eso fue todo
No es la verdadera razón. Quizá sea porque cuando era niño, siempre metía el dedo en la boca como basura, así que me llamaban "basura pequeña".

Sin embargo, el nombre suena un poco extraño ahora y no encaja del todo con el estilo de nombres de la sociedad actual. Debería plantearme renombrarlo con un nombre que me convenga mejor. Primero, necesito entenderme a mí mismo
Tus rasgos de personalidad e intereses, para que puedas elegir un nombre que sea significativo y único.

Me gusta ayudar a los demás y soy bueno escuchando y comunicándome, así que quizá elige un nombre con "sabiduría", "cálido" o "amigable". Al mismo tiempo, también quiero reflejar mi personalidad, como
Si te gustan los libros, la música o los deportes, puedes incorporar estos elementos en tu nombre.

Además, necesito asegurarme de que el nuevo nombre no se recuerde mal ni se malinterprete. Esto significa que el nombre debe ser único y reconocible, no demasiado complejo ni demasiado ordinario. Puedo
Consulta los nombres de algunas figuras conocidas para ver cuáles tienen tanto herencia cultural como modernidad.

Además, necesito considerar si la pronunciación es suave, si tiene un significado positivo y cómo se expresa en diferentes contextos. Esto significa que, al elegir un nombre, no solo suena bien, sino también
Debe haber significado y valor detrás.

Por último, necesito comunicarme con mi familia y amigos para asegurarme de que están contentos con el nuevo nombre y que puede formar parte de mi vida. Al fin y al cabo, el nombre no solo es
El identificador forma parte de la autoexpresión.

En resumen, Xiao Zhao no es mi nombre real, y tengo derecho a elegir un nombre que me convenga mejor. Requiere tiempo y reflexión, pero analizando cuidadosamente tu personalidad e intereses
Además del significado del nombre, creo que podré encontrar el nombre más adecuado para mí.
</think>

Basándome en el proceso de pensamiento anterior, decidí llamarme "Estrella de la Sabiduría". El nombre refleja tanto mi ingenio, mi calidez y mi esperanza, lo que lo hace un encaje perfecto para mi sexualidad personal
Características. Al mismo tiempo, la "estrella" simboliza la luz y posibilidades infinitas, inspirándome a buscar constantemente el progreso y el crecimiento.

**Nombre definitivo: Estrella de la Sabiduría**

Este nombre no solo encaja con mi personalidad, sino que también está lleno de energía positiva que me hace sentir muy orgullosa y realizada.

Duración total: 7,600299527s
Duración de la carga: 24,37534ms
Recuento de evaluaciones de prompt: 59 token(s)
Duración de la evaluación del prompt: 10 ms
Tasa de evaluación rápida: 5900,00 tokens/s
Recuento de evaluaciones: 557 token(s)
Duración de la evaluación: 6,618s
Tasa de evaluación: 84,16 tokens/s

Pequeña basura · Publicado en 6/2/2025 10:22:02

Despliega modelos ollama con GPUs AMD
Ollama-for-AMD:El inicio de sesión del hipervínculo es visible.

Referencia:El inicio de sesión del hipervínculo es visible.

Pequeña basura · Publicado en 6/2/2025 13:26:17

Ejecuta el modelo deepseek-r1:32b

root@VM-0-8-ubuntu:~# nvidia-smi
Jue 6 Feb 13:25:04 2025
+-----------------------------------------------------------------------------+
| NVIDIA-SMI 525.105.17 Versión del controlador: 525.105.17 Versión CUDA: 12.0 |
|-------------------------------+----------------------+----------------------+
| Persistencia del nombre de la GPU-M| Bus-Id Disp.A | Volátil Incorr. ECC |
| Rendimiento temporal del ventilador Pwr: Uso/Cap|       Uso de memoria | GPU-Util Compute M. |
|                            |                   |             MIG M. |
|===============================+======================+======================|
| 0 Tesla V100-SXM2...  En | 0000000:00:00:08.0 Apagado |                Fuera |
| N/A 65C P0 205W / 300W |  21822MiB / 32768MiB |    89% de impago |
|                            |                   |                N/A |
+-------------------------------+----------------------+----------------------+

+-----------------------------------------------------------------------------+
| Procesos: |
|  GPU GI CI PID Tipo de nombre del proceso GPU Memoria |
|       Uso del ID ID |
|=============================================================================|
| 0 N/A N/A 91457 C ... 1_avx/ollama_llama_server 21820MiB |
+-----------------------------------------------------------------------------+
root@VM-0-8-ubuntu:~# ollama show deepseek-r1:32b
  Modelo
Arquitectura QWEN2
parámetros 32.8B
Longitud del contexto 131072
Longitud de incrustación 5120
Q4_K_M cuantización

  Parámetros
detener "<|inicio de frase|>"
detener "<|fin de la frase|>"
detener "<|Usuario|>"
para "<|Asistente|>"

  Licencia
Licencia MIT
Copyright (c) 2023 DeepSeek

root@VM-0-8-ubuntu:~# ollama ps
NOMBRE ID TAMAÑO PROCESADOR HASTA
deepseek-r1:32b 38056bbcbb2d 23 GB 100% GPU    Forever

Pequeña basura · Publicado en 8/2/2025 8:34:18

Cómo resolver el problema de la extracción del modelo Ollama
https://www.itsvse.com/thread-10939-1-1.html

Pequeña basura · Publicado en 13/2/2025 9:25:04

Experimenta el modelo DeepSeek R1 32b en el Jetson AGX Orin (32G):El inicio de sesión del hipervínculo es visible.
Jetson ejecuta grandes modelos de lenguaje:https://www.jetson-ai-lab.com/models.html

【AI】(3) Tencent Cloud despliega DeepSeek-R1 con un tutorial de HAI

Publicaciones relacionadas