Este artículo es un artículo espejo de traducción automática, por favor haga clic aquí para saltar al artículo original.

Vista: 2394|Respuesta: 10

【AI】(3) Tencent Cloud despliega DeepSeek-R1 con un tutorial de HAI

[Copiar enlace]
Publicado el 5-2025 21:14:04 | | | |
Hyper Application Inventor (HAI) es un producto de servicio de aplicaciones GPU para IA y computación científica, que proporciona potencia de cálculo plug-and-play y entornos comunes para ayudar a pequeñas y medianas empresas y desarrolladores a desplegar rápidamente LLMs.

Dirección:El inicio de sesión del hipervínculo es visible.

HAI vs servidores GPU

Reducir considerablemente el umbral para el uso de servidores en la nube con GPU, optimizar la experiencia del producto desde múltiples ángulos y usarla de fábrica, como se muestra en la figura siguiente:



Compra potencia de cómputo HAI

Ve a la página de compra, selecciona la imagen del entorno básico "Ubuntu 20.04" y configura el entorno:Ubuntu 20.04, Driver 525.105.17, Python 3.8, CUDA 12.0, cuDNN 8La imagen ya nos ha instalado el controlador, y elegimos pagar conforme avanzamos, como se muestra en la figura de abajo:



Memoria de vídeo: 32GB+
Tasa de hash: 15+TFlops SP
CPU: 8~10 núcleos
RAM: 40GB

Tras esperar unos minutos, la instancia se crea con éxito y se activa la Aceleración Académica, como se muestra en la siguiente figura:



La primera vez que lo usas, tienes que restablecer tu contraseña y el nombre de usuario de acceso es:Ubuntu。 Prueba a iniciar sesión en el servidor y comprobar la información del controlador de la GPU NVIDIA con el siguiente comando:


Como se muestra a continuación:


Instalar Ollama

Página web oficial de Ollama:El inicio de sesión del hipervínculo es visible.

Inicia sesión en el servidor usando la herramienta de masilla y comienza a instalar la herramienta Ollama con el siguiente comando:


La instalación está completa y el resultado es el siguiente:
>>> Instalar ollama en /usr/local
>>> Descargando el paquete de Linux amd64
######################################################################## 100.0%
>>> Creando un usuario de llama...
>>> Añadir un usuario ollama al grupo de renderizado...
>>> Añadir un usuario de ollama al grupo de vídeo...
>>> Añadir usuario actual al grupo llama...
>>> Creando un servicio sistema ollama...
>>> Habilitar y comenzar el servicio ollama...
He creado el enlace simbólico /etc/systemd/system/default.target.wants/ollama.service → /etc/systemd/system/ollama.service.

Echa un vistazo al comando de versión: ollama -v
Consulta el modelo que está actualmente cargado en la memoria: ollama ps

Crea una carpeta de almacenamiento personalizada con el siguiente comando:

Modifica la dirección de escucha por defecto y el camino de almacenamiento del modelo (no puedes modificar el puerto por defecto, de lo contrario el comando fallará) y utiliza los siguientes comandos:


Despliegue el modelo deepseek-r1

Ejecuta el modelo deepseek-r1:8b con el siguiente comando:


Como se muestra a continuación:



Prueba el diálogo como se muestra a continuación:



El cortafuegos libera el puerto TCP 11434 y llama a la interfaz HTTP, como se muestra en la siguiente figura:



{
  "modelos": [
    {
      "Nombre": "deepseek-r1:8b",
      "modelo": "deepseek-r1:8b",
      "tamaño": 6930032640,
      "digest": "28f8fd6cdc677661426adab9338ce3c013d7e69a5bea9e704b364171a5d61a10",
      "detalles": {
        "parent_model": "",
        "formato": "gguf",
        "familia": "llama",
        "familias": [
          "llama"
        ],
        "parameter_size": "8.0B",
        "quantization_level": "Q4_K_M"
      },
      "expires_at": "2025-02-05T21:14:50.715753614+08:00",
      "size_vram": 6930032640
    }
  ]
}

Referencia:
El inicio de sesión del hipervínculo es visible.
El inicio de sesión del hipervínculo es visible.
El inicio de sesión del hipervínculo es visible.




Anterior:[IA] (2) La diferencia entre las versiones DeepSeek-V3 y R1
Próximo:[IA] (4) Usar OpenWebUI para llamar al modelo DeepSeek-R1
 Propietario| Publicado el 5-2025 21:22:49 |
Si el modelo no recibe solicitudes ni entradas durante un periodo de tiempo, Ollama termina automáticamente el modelo en el centro de la nube para ahorrar recursos.
 Propietario| Publicado el 6-02-2025 09:03:57 |
Elemento de configuración de variables de entorno de Ollama

VariableValor por defectoDescripción + Efecto + Escenario
OLLAMA_HOST"[color=var(--fgColor-accent, var(--color-accent-fg))]El inicio de sesión del hipervínculo es visible."Configura el host y el esquema para el servidor Ollama. Efecto: Determina la URL utilizada para conectarse al servidor Ollama. Escenario: Útil al desplegar Ollama en un entorno distribuido o cuando necesitas exponer el servicio en una interfaz de red específica.
OLLAMA_ORIGINS[localhost, 127.0.0.1, 0.0.0.0] + app://, file://, tauri://Configura los orígenes permitidos para CORS. Efecto: Controla qué orígenes pueden hacer peticiones al servidor Ollama. Escenario: Fundamental al integrar Ollama con aplicaciones web para evitar accesos no autorizados desde diferentes dominios.
OLLAMA_MODELS$HOME/.ollama/modelosEstablece la ruta al directorio de modelos. Efecto: Determina desde dónde se almacenan y cargan los archivos de modelo. Escenario: Útil para gestionar el espacio en disco en diferentes unidades o configurar repositorios de modelos compartidos en entornos multiusuario.
OLLAMA_KEEP_ALIVE5 minutosEstablece cuánto tiempo permanecen cargados los modelos en la memoria. Efecto: Controla la duración que los modelos permanecen en memoria tras su uso. Escenario: Duraciones más largas mejoran los tiempos de respuesta para consultas frecuentes pero aumentan el uso de memoria. Duraciones más cortas liberan recursos pero pueden aumentar los tiempos de respuesta iniciales.
OLLAMA_DEBUGfalsePermite información adicional de depuración. Efecto: Aumenta la verbosidad de la salida de registro y depuración. Escenario: Invaluable para resolver problemas o entender el comportamiento del sistema durante el desarrollo o despliegue.
OLLAMA_FLASH_ATTENTIONfalseActiva la función experimental de atención en flash. Efecto: Activa una optimización experimental para los mecanismos de atención. Escenario: Puede mejorar el rendimiento en hardware compatible pero puede introducir inestabilidad.
OLLAMA_NOHISTORYfalseDesactiva el historial de lectura de la línea. Efecto: Impide que se guarde el historial de comandos. Escenario: Útil en entornos sensibles a la seguridad donde no se debe conservar el historial de comandos.
OLLAMA_NOPRUNEfalseDesactiva la poda de los blobs de modelos al iniciar. Efecto: Conserva todos los blobs de modelos, lo que podría aumentar el uso del disco. Escenario: Útil cuando necesitas mantener todas las versiones de los modelos por compatibilidad o para revertir.
OLLAMA_SCHED_SPREADfalsePermite programar modelos en todas las GPUs. Efecto: Permite el uso de múltiples GPUs para inferencia de modelos. Escenario: Beneficioso en entornos informáticos de alto rendimiento con múltiples GPUs para maximizar la utilización del hardware.
OLLAMA_INTEL_GPUfalseActiva la detección experimental de GPU Intel. Efecto: Permite el uso de GPUs Intel para la inferencia de modelos. Escenario: Útil para organizaciones que aprovechan hardware de GPU Intel para cargas de trabajo de IA.
OLLAMA_LLM_LIBRARY"" (auto-detectación)Configura la biblioteca del LLM para usar. Efecto: Anula la detección automática de la biblioteca de LLM. Escenario: Útil cuando necesitas forzar una versión o implementación específica de la biblioteca por razones de compatibilidad o rendimiento.
OLLAMA_TMPDIRDirectorio temporal predeterminado del sistemaEstablece la ubicación de los archivos temporales. Efecto: Determina dónde se almacenan los archivos temporales. Escenario: Importante para gestionar el rendimiento de E/S o cuando el directorio temporal del sistema tiene espacio limitado.
CUDA_VISIBLE_DEVICESTodos disponiblesEstablece qué dispositivos NVIDIA son visibles. Efecto: Controla qué GPUs NVIDIA pueden usarse. Escenario: Fundamental para gestionar la asignación de GPUs en entornos multiusuario o multiproceso.
HIP_VISIBLE_DEVICESTodos disponiblesEstablece qué dispositivos AMD son visibles. Efecto: Controla qué GPUs AMD pueden usarse. Escenario: Similar a CUDA_VISIBLE_DEVICES pero para hardware AMD.
OLLAMA_RUNNERS_DIRDependiente del sistemaEstablece la ubicación para los corredores. Efecto: Determina dónde se encuentran los ejecutables del ecuador. Escenario: Importante para despliegues personalizados o cuando los runners necesitan aislarse de la aplicación principal.
OLLAMA_NUM_PARALLEL0 (ilimitado)Establece el número de solicitudes de modelos paralelos. Efecto: Controla la concurrencia de la inferencia del modelo. Escenario: Crítico para gestionar la carga del sistema y garantizar la capacidad de respuesta en entornos de alto tráfico.
OLLAMA_MAX_LOADED_MODELS0 (ilimitado)Establece el número máximo de modelos cargados. Efecto: Limita el número de modelos que pueden cargarse simultáneamente. Escenario: Ayuda a gestionar el uso de memoria en entornos con recursos limitados o muchos modelos diferentes.
OLLAMA_MAX_QUEUE512Establece el número máximo de solicitudes en cola. Efecto: Limita el tamaño de la cola de solicitudes. Escenario: Previene la sobrecarga del sistema durante picos de tráfico y asegura el procesamiento oportuno de las solicitudes.
OLLAMA_MAX_VRAM0 (ilimitado)Establece una sobreescritura máxima de VRAM en bytes. Efecto: Limita la cantidad de VRAM que se puede usar. Escenario: Útil en entornos compartidos de GPU para evitar que un solo proceso monopolice la memoria GPU.


Fuente:El inicio de sesión del hipervínculo es visible.

$ ollama ayuda a servir
Empezar ollama

Usage:
  Saque ollama [banderas]

Aliases:
  Saque, empieza

Flags:
  -h, --ayuda ayuda para servir

Variables del entorno:
      OLLAMA_DEBUG Mostrar información adicional de depuración (por ejemplo, OLLAMA_DEBUG=1)
      OLLAMA_HOST Dirección IP para el servidor ollama (por defecto 127.0.0.1:11434)
      OLLAMA_KEEP_ALIVE La duración que los modelos permanecen cargados en memoria (por defecto "5m")
      OLLAMA_MAX_LOADED_MODELS Número máximo de modelos cargados por GPU
      OLLAMA_MAX_QUEUE Número máximo de solicitudes en cola
      OLLAMA_MODELS La ruta hacia el directorio de modelos
      OLLAMA_NUM_PARALLEL Número máximo de solicitudes paralelas
      OLLAMA_NOPRUNE No podar los blobs del modelo al arrancar
      OLLAMA_ORIGINS Una coma separa la lista de orígenes permitidos
      OLLAMA_SCHED_SPREAD Siempre programar el modelo en todas las GPU
      OLLAMA_TMPDIR Ubicación de archivos temporales
      OLLAMA_FLASH_ATTENTION Activada la atención flash
      OLLAMA_LLM_LIBRARY Configurar la biblioteca LLM para saltarse la autodetección
      OLLAMA_GPU_OVERHEAD Reserva una porción de VRAM por GPU (bytes)
      OLLAMA_LOAD_TIMEOUT Cuánto tiempo permitir que las cargas del modelo se estanquen antes de rendirse (por defecto "5m")


Referencia:El inicio de sesión del hipervínculo es visible.
 Propietario| Publicado el 6-2-2025 09:19:49 |
Mando Ollama

Lista ollama: Muestra una lista de modelos
Exposición Ollama: Muestra información sobre el modelo
Ollama Pull: Modelo de Pull
ollama push: modelo push
Ollama CP: Copiar un modelo
ollama RM: Eliminar un modelo
Ollama Run: Ejecutar un modelo
 Propietario| Publicado el 6-2-2025 09:33:17 |
Optimización de modelos, edición/etc/systemd/system/ollama.service.d/override.confConfiguración, añadir lo siguiente:


La configuración completa es la siguiente:



 Propietario| Publicado el 6-2025 09:35:26 |
--verbosoEl parámetro se utiliza para mostrar la velocidad de inferencia (token / segundo). Por ejemplo:

>>> Hola, ¿quién eres?
<think>

</think>

¡Hola! Soy asistente de IA desarrollado de forma independiente por DeepSeek en China, ¡y me alegra servirte!

Duración total: 489,831897 ms
Duración de la carga: 24,116423ms
Recuento de evaluaciones de prompts: 10 token(s)
Duración de la evaluación del prompt: 4 ms
Tasa de evaluación por prompt: 2500,00 tokens/s
Recuento de evaluaciones: 36 token(s)
Duración de la evaluación: 460ms
Tasa de evaluación: 78,26 tokens/s
>>> soy un pequeño desgraciado, ¿cómo me llamo?
<think>
Bueno, ¿me llamo un pequeño desgraciado? Déjame pensarlo bien. Recuerdo que cuando era niño, mis padres me llamaron "Pequeño Desgraciado" porque mi familia pensaba que tenía las orejas grandes, pero en realidad, eso fue todo
No es la verdadera razón. Quizá sea porque cuando era niño, siempre metía el dedo en la boca como basura, así que me llamaban "basura pequeña".

Sin embargo, el nombre suena un poco extraño ahora y no encaja del todo con el estilo de nombres de la sociedad actual. Debería plantearme renombrarlo con un nombre que me convenga mejor. Primero, necesito entenderme a mí mismo
Tus rasgos de personalidad e intereses, para que puedas elegir un nombre que sea significativo y único.

Me gusta ayudar a los demás y soy bueno escuchando y comunicándome, así que quizá elige un nombre con "sabiduría", "cálido" o "amigable". Al mismo tiempo, también quiero reflejar mi personalidad, como
Si te gustan los libros, la música o los deportes, puedes incorporar estos elementos en tu nombre.

Además, necesito asegurarme de que el nuevo nombre no se recuerde mal ni se malinterprete. Esto significa que el nombre debe ser único y reconocible, no demasiado complejo ni demasiado ordinario. Puedo
Consulta los nombres de algunas figuras conocidas para ver cuáles tienen tanto herencia cultural como modernidad.

Además, necesito considerar si la pronunciación es suave, si tiene un significado positivo y cómo se expresa en diferentes contextos. Esto significa que, al elegir un nombre, no solo suena bien, sino también
Debe haber significado y valor detrás.

Por último, necesito comunicarme con mi familia y amigos para asegurarme de que están contentos con el nuevo nombre y que puede formar parte de mi vida. Al fin y al cabo, el nombre no solo es
El identificador forma parte de la autoexpresión.

En resumen, Xiao Zhao no es mi nombre real, y tengo derecho a elegir un nombre que me convenga mejor. Requiere tiempo y reflexión, pero analizando cuidadosamente tu personalidad e intereses
Además del significado del nombre, creo que podré encontrar el nombre más adecuado para mí.
</think>

Basándome en el proceso de pensamiento anterior, decidí llamarme "Estrella de la Sabiduría". El nombre refleja tanto mi ingenio, mi calidez y mi esperanza, lo que lo hace un encaje perfecto para mi sexualidad personal
Características. Al mismo tiempo, la "estrella" simboliza la luz y posibilidades infinitas, inspirándome a buscar constantemente el progreso y el crecimiento.

**Nombre definitivo: Estrella de la Sabiduría**

Este nombre no solo encaja con mi personalidad, sino que también está lleno de energía positiva que me hace sentir muy orgullosa y realizada.

Duración total: 7,600299527s
Duración de la carga: 24,37534ms
Recuento de evaluaciones de prompt: 59 token(s)
Duración de la evaluación del prompt: 10 ms
Tasa de evaluación rápida: 5900,00 tokens/s
Recuento de evaluaciones: 557 token(s)
Duración de la evaluación: 6,618s
Tasa de evaluación: 84,16 tokens/s

 Propietario| Publicado el 6-2-2025 10:22:02 |
 Propietario| Publicado el 6-2025 13:26:17 |
Ejecuta el modelo deepseek-r1:32b




root@VM-0-8-ubuntu:~# nvidia-smi
Jue 6 Feb 13:25:04 2025
+-----------------------------------------------------------------------------+
| NVIDIA-SMI 525.105.17 Versión del controlador: 525.105.17 Versión CUDA: 12.0 |
|-------------------------------+----------------------+----------------------+
| Persistencia del nombre de la GPU-M| Bus-Id Disp.A | Volátil Incorr. ECC |
| Rendimiento temporal del ventilador Pwr: Uso/Cap|         Uso de memoria | GPU-Util Compute M. |
|                               |                      |               MIG M. |
|===============================+======================+======================|
|   0 Tesla V100-SXM2...  En | 0000000:00:00:08.0 Apagado |                  Fuera |
| N/A 65C P0 205W / 300W |  21822MiB / 32768MiB |     89% de impago |
|                               |                      |                  N/A |
+-------------------------------+----------------------+----------------------+

+-----------------------------------------------------------------------------+
| Procesos: |
|  GPU GI CI PID Tipo de nombre del proceso GPU Memoria |
|        Uso del ID ID |
|=============================================================================|
|    0 N/A N/A 91457 C ... 1_avx/ollama_llama_server 21820MiB |
+-----------------------------------------------------------------------------+
root@VM-0-8-ubuntu:~# ollama show deepseek-r1:32b
  Modelo
    Arquitectura QWEN2
    parámetros 32.8B
    Longitud del contexto 131072
    Longitud de incrustación 5120
    Q4_K_M cuantización

  Parámetros
    detener "<|inicio de frase|>"
    detener "<|fin de la frase|>"
    detener "<|Usuario|>"
    para "<|Asistente|>"

  Licencia
    Licencia MIT
    Copyright (c) 2023 DeepSeek

root@VM-0-8-ubuntu:~# ollama ps
NOMBRE ID TAMAÑO PROCESADOR HASTA
deepseek-r1:32b    38056bbcbb2d    23 GB    100% GPU     Forever


 Propietario| Publicado el 8-2-2025 08:34:18 |
Cómo resolver el problema de la extracción del modelo Ollama
https://www.itsvse.com/thread-10939-1-1.html
 Propietario| Publicado el 13-2-2025 09:25:04 |
Experimenta el modelo DeepSeek R1 32b en el Jetson AGX Orin (32G):El inicio de sesión del hipervínculo es visible.
Jetson ejecuta grandes modelos de lenguaje:https://www.jetson-ai-lab.com/models.html

Renuncia:
Todo el software, materiales de programación o artículos publicados por Code Farmer Network son únicamente para fines de aprendizaje e investigación; El contenido anterior no se utilizará con fines comerciales o ilegales; de lo contrario, los usuarios asumirán todas las consecuencias. La información de este sitio proviene de Internet, y las disputas de derechos de autor no tienen nada que ver con este sitio. Debes eliminar completamente el contenido anterior de tu ordenador en un plazo de 24 horas desde la descarga. Si te gusta el programa, por favor apoya el software genuino, compra el registro y obtén mejores servicios genuinos. Si hay alguna infracción, por favor contáctanos por correo electrónico.

Mail To:help@itsvse.com