Cet article est un article miroir de traduction automatique, veuillez cliquer ici pour accéder à l’article original.

Vue: 2394|Répondre: 10

【AI】(3) Tencent Cloud déploie DeepSeek-R1 avec un tutoriel HAI

[Copié le lien]
Publié le 05-02-2025 à 21:14:04 | | | |
Hyper Application Inventor (HAI) est un produit de service d’applications GPU destiné à l’IA et à l’informatique scientifique, offrant une puissance de calcul plug-and-play ainsi que des environnements courants pour aider les petites et moyennes entreprises et développeurs à déployer rapidement des LLM.

Adresse:La connexion hyperlientérée est visible.

HAI vs serveurs GPU

Réduire considérablement le seuil d’utilisation des serveurs cloud GPU, optimiser l’expérience produit sous plusieurs angles, et l’utiliser dès l’installation, comme montré dans la figure ci-dessous :



Achetez la puissance de calcul HAI

Allez sur la page d’achat, sélectionnez l’image de base de l’environnement « Ubuntu 20.04 », et configurez l’environnement :Ubuntu 20.04, pilote 525.105.17, Python 3.8, CUDA 12.0, cuDNN 8L’image a déjà installé le pilote pour nous, et nous choisissons de payer au fur et à mesure, comme montré dans la figure ci-dessous :



Mémoire vidéo : 32GB+
Taux de hachage : 15+TFlops SP
CPU : 8~10 cœurs
RAM : 40 Go

Après quelques minutes d’attente, l’instance est créée avec succès et l’accélération académique est activée, comme montré sur la figure suivante :



La première fois que vous l’utilisez, vous devez réinitialiser votre mot de passe, et le nom d’utilisateur de connexion est :Ubuntu。 Essayez de vous connecter au serveur et de vérifier les informations du pilote GPU NVIDIA avec la commande suivante :


Comme montré ci-dessous :


Installer Ollama

Site officiel d’Ollama :La connexion hyperlientérée est visible.

Connectez-vous au serveur avec l’outil Putty et commencez à installer l’outil Ollama avec la commande suivante :


L’installation est terminée, et la sortie est la suivante :
>>> Installation d’ollama sur /usr/local
>>> Télécharger le pack Linux amd64
######################################################################## 100.0%
>>> Création d’un utilisateur ollama...
>>> Ajout d’un utilisateur ollama au groupe de rendu...
>>> Ajout d’un utilisateur ollama au groupe vidéo...
>>> Ajout d’un utilisateur actuel au groupe ollama...
>>> Création d’un service système ollama...
>>> Permettre et lancer le service ollama...
J’ai créé le lien symlien /etc/systemd/system/default.target.wants/ollama.service → /etc/systemd/system/ollama.service.

Regarde la commande version : ollama -v
Voir le modèle actuellement chargé en mémoire : ollama ps

Créez un dossier de stockage personnalisé avec la commande suivante :

Modifiez l’adresse d’écoute par défaut et le chemin de stockage du modèle (vous ne pouvez pas modifier le port par défaut, sinon la commande échouera) et utilisez les commandes suivantes :


Déploiement du modèle deepseek-r1

Exécutez le modèle deepseek-r1:8b avec la commande suivante :


Comme montré ci-dessous :



Testez le dialogue comme montré ci-dessous :



Le pare-feu libère le port TCP 11434 et appelle l’interface HTTP, comme montré sur la figure suivante :



{
  « mannequins » : [
    {
      « nom » : « deepseek-r1:8b »,
      « modèle » : « deepseek-r1:8b »,
      « taille » : 6930032640,
      « digest » : « 28f8fd6cdc677661426adab9338ce3c013d7e69a5bea9e704b364171a5d61a10 »,
      « détails » : {
        « parent_model » : «  »,
        « format » : « gguf »,
        « famille » : « llama »,
        « familles » : [
          « llama »
        ],
        « parameter_size » : « 8,0B »,
        « quantization_level » : « Q4_K_M »
      },
      « expires_at » : « 2025-02-05T21:14:50.715753614+08:00 »,
      « size_vram » : 6930032640
    }
  ]
}

Référence:
La connexion hyperlientérée est visible.
La connexion hyperlientérée est visible.
La connexion hyperlientérée est visible.




Précédent:[IA] (2) La différence entre les versions DeepSeek-V3 et R1
Prochain:[IA] (4) Utiliser Open WebUI pour appeler le modèle DeepSeek-R1
 Propriétaire| Publié le 05-02-2025 à 21:22:49 |
Si le modèle ne reçoit pas de requêtes ou d’entrées pendant un certain temps, Ollama termine automatiquement le modèle dans le centre cloud pour économiser des ressources.
 Propriétaire| Publié le 6-02-2025 à 09:03:57 |
Élément de configuration des variables d’environnement Ollama

VariableValeur par défautDescription + Effet + Scénario
OLLAMA_HOST"[color=var(--fgColor-accent, var(--color-accent-fg))]La connexion hyperlientérée est visible."Configure l’hôte et le schéma pour le serveur Ollama. Effet : Détermine l’URL utilisée pour se connecter au serveur Ollama. Scénario : utile lors du déploiement d’Ollama dans un environnement distribué ou lorsque vous devez exposer le service sur une interface réseau spécifique.
OLLAMA_ORIGINS[localhost, 127.0.0.1, 0.0.0.0] + app://, file://, tauri://Configure les origines autorisées pour CORS. Effet : Contrôle quelles origines peuvent faire des requêtes au serveur Ollama. Scénario : Critique lors de l’intégration d’Ollama avec des applications web pour prévenir les accès non autorisés depuis différents domaines.
OLLAMA_MODELS$HOME/.ollama/modelsDéfinit le chemin vers le répertoire des modèles. Effet : Détermine d’où les fichiers de modèles sont stockés et chargés. Scénario : Utile pour gérer l’espace disque sur différents disques ou configurer des dépôts de modèles partagés dans des environnements multi-utilisateurs.
OLLAMA_KEEP_ALIVE5 minutesDétermine combien de temps les modèles restent chargés en mémoire. Effet : Contrôle la durée des modèles restant en mémoire après utilisation. Scénario : Des durées plus longues améliorent les temps de réponse pour les requêtes fréquentes mais augmentent la consommation de mémoire. Des durées plus courtes libèrent des ressources mais peuvent augmenter les temps de réponse initiaux.
OLLAMA_DEBUGfalsePermet d’obtenir des informations supplémentaires sur le débogage. Effet : Augmente la verbosité des résultats de journalisation et de débogage. Scénario : Indispensable pour résoudre des problèmes ou comprendre le comportement du système lors du développement ou du déploiement.
OLLAMA_FLASH_ATTENTIONfalseActivez la fonction d’attention flash expérimentale. Effet : Active une optimisation expérimentale des mécanismes d’attention. Scénario : Peut potentiellement améliorer les performances sur du matériel compatible mais introduire de l’instabilité.
OLLAMA_NOHISTORYfalseDésactive l’historique de la ligne de lecture. Effet : Empêche l’historique des commandes d’être sauvegardé. Scénario : Utile dans des environnements sensibles à la sécurité où l’historique des commandes ne doit pas être conservé.
OLLAMA_NOPRUNEfalseDésactive l’élagage des blobs de modèles au démarrage. Effet : Conserve tous les blobs de modèles, ce qui peut augmenter l’utilisation du disque. Scénario : utile lorsque vous devez maintenir toutes les versions des modèles pour des raisons de compatibilité ou de retour en arrière.
OLLAMA_SCHED_SPREADfalsePermet de planifier les modèles sur tous les GPU. Effet : Permet l’utilisation multi-GPU pour l’inférence de modèle. Scénario : Bénéfique dans des environnements informatiques haute performance avec plusieurs GPU pour maximiser l’utilisation du matériel.
OLLAMA_INTEL_GPUfalsePermet la détection expérimentale du GPU Intel. Effet : Permet l’utilisation de GPU Intel pour l’inférence de modèle. Scénario : Utile pour les organisations utilisant le matériel GPU Intel pour les charges de travail IA.
OLLAMA_LLM_LIBRARY«  » (auto-détection)Configure la bibliothèque du LLM pour qu’elle soit utilisée. Effet : Outrepasse la détection automatique de la bibliothèque LLM. Scénario : Utile lorsque vous devez forcer une version ou une implémentation spécifique de la bibliothèque pour des raisons de compatibilité ou de performance.
OLLAMA_TMPDIRRépertoire temporaire par défaut systèmeFixe l’emplacement des fichiers temporaires. Effet : Détermine où les fichiers temporaires sont stockés. Scénario : Important pour gérer les performances d’E/S ou lorsque le répertoire temporaire système a un espace limité.
CUDA_VISIBLE_DEVICESTous disponiblesDéfinissez quels appareils NVIDIA sont visibles. Effet : Contrôle quels GPU NVIDIA peuvent être utilisés. Scénario : Essentiel pour la gestion de l’allocation GPU dans des environnements multi-utilisateurs ou multi-processus.
HIP_VISIBLE_DEVICESTous disponiblesDéfinissez quels appareils AMD sont visibles. Effet : Contrôle quels GPU AMD peuvent être utilisés. Scénario : similaire à CUDA_VISIBLE_DEVICES mais pour du matériel AMD.
OLLAMA_RUNNERS_DIRDépendant du systèmeÇa fixe la position des coureurs. Effet : Détermine où se trouvent les exécutables du runner. Scénario : Important pour les déploiements personnalisés ou lorsque les runners doivent être isolés de l’application principale.
OLLAMA_NUM_PARALLEL0 (illimité)Définit le nombre de demandes de modèles parallèles. Effet : Contrôle la concurrence de l’inférence du modèle. Scénario : Essentiel pour gérer la charge système et garantir la réactivité dans les environnements à forte fréquentation.
OLLAMA_MAX_LOADED_MODELS0 (illimité)Définit le nombre maximal de modèles chargés. Effet : Limite le nombre de modèles pouvant être chargés simultanément. Scénario : Aide à gérer l’utilisation de la mémoire dans des environnements aux ressources limitées ou à de nombreux modèles différents.
OLLAMA_MAX_QUEUE512Fixe le nombre maximal de requêtes en file d’attente. Effet : Limite la taille de la file d’attente des requêtes. Scénario : Évite la surcharge du système lors des pics de trafic et garantit un traitement rapide des requêtes.
OLLAMA_MAX_VRAM0 (illimité)Définit une dérogation maximale de VRAM en octets. Effet : Limite la quantité de VRAM pouvant être utilisée. Scénario : Utile dans les environnements GPU partagés pour empêcher qu’un seul processus monopolise la mémoire GPU.


Source:La connexion hyperlientérée est visible.

$ ollama aide à servir
Démarrez ollama

Usage:
  Ollama service [drapeaux]

Aliases:
  Servir, commencer

Flags:
  -h, --aide pour servir

Variables d’environnement :
      OLLAMA_DEBUG Afficher des informations de débogage supplémentaires (par exemple OLLAMA_DEBUG=1)
      OLLAMA_HOST Adresse IP pour le serveur ollama (par défaut 127.0.0.1:11434)
      OLLAMA_KEEP_ALIVE La durée pendant laquelle les modèles restent chargés en mémoire (par défaut « 5m »)
      OLLAMA_MAX_LOADED_MODELS Nombre maximal de modèles chargés par GPU
      OLLAMA_MAX_QUEUE Nombre maximal de requêtes en file d’attente
      OLLAMA_MODELS Le chemin vers le répertoire des modèles
      OLLAMA_NUM_PARALLEL Nombre maximal de requêtes parallèles
      OLLAMA_NOPRUNE Ne taillez pas les blobs de modèle au démarrage
      OLLAMA_ORIGINS Une virgule séparait la liste des origines autorisées
      OLLAMA_SCHED_SPREAD Toujours planifier le modèle sur tous les GPU
      OLLAMA_TMPDIR Emplacement des fichiers temporaires
      OLLAMA_FLASH_ATTENTION Activation de l’attention flash
      OLLAMA_LLM_LIBRARY Définir la bibliothèque LLM pour contourner la détection automatique
      OLLAMA_GPU_OVERHEAD Réserver une portion de VRAM par GPU (octets)
      OLLAMA_LOAD_TIMEOUT Combien de temps laisser les charges du modèle bloquer avant d’abandonner (par défaut « 5m »)


Référence:La connexion hyperlientérée est visible.
 Propriétaire| Publié le 6-02-2025 à 09:19:49 |
Commandement d’Ollama

Liste ollama : Affiche une liste de modèles
Émission Ollama : Affiche des informations sur le modèle
Ollama Pull : modèle de traction
ollama push : modèle push
Ollama CP : Copier un modèle
ollama RM : Supprimer un modèle
Ollama Run : Exécuter un modèle
 Propriétaire| Publié le 6-02-2025 à 09:33:17 |
Optimisation des modèles, montage/etc/systemd/system/ollama.service.d/override.confConfiguration, ajoutez ce qui suit :


La configuration complète est la suivante :



 Propriétaire| Posté le 6-02-2025 à 09:35:26 |
--verbeuxLe paramètre sert à afficher la vitesse d’inférence (jeton / seconde). Par exemple:

>>> Bonjour, qui êtes-vous ?
<think>

</think>

Bonjour! Je suis assistant IA développé de manière indépendante par DeepSeek en Chine, et je suis heureux de vous servir !

Durée totale : 489,831897 ms
Durée de charge : 24,116423ms
Nombre d’évaluations de prompts : 10 jeton(s)
Durée de l’évaluation du prompt : 4 ms
Taux d’évaluation prompt : 2500,00 jetons/s
Nombre d’évaluations : 36 jeton(s)
Durée de l’évaluation : 460 ms
Taux d’évaluation : 78,26 jetons/s
>>> je suis un petit, comment je m’appelle ?
<think>
Eh bien, c’est mon nom de petite ordure ? Laissez-moi y réfléchir bien. Je me souviens que quand j’étais enfant, mes parents m’appelaient « Petite ordure » parce que ma famille pensait que j’avais de grandes oreilles, mais en fait, c’est tout
Ce n’est pas la vraie raison. Peut-être parce que, quand j’étais enfant, je mettais toujours mon doigt dans ma bouche comme une ordure, donc on m’appelait « petite ordure ».

Cependant, le nom sonne un peu étrange aujourd’hui, et il ne correspond pas tout à fait au style de dénomination de la société actuelle. Je devrais envisager de le renommer avec un nom qui me correspond mieux. D’abord, j’ai besoin de me comprendre
Vos traits de personnalité et vos centres d’intérêt, afin que vous puissiez choisir un prénom à la fois significatif et unique.

J’aime aider les autres et je suis doué pour écouter et communiquer, donc peut-être choisis un prénom avec « sagesse », « chaleureux » ou « amical ». En même temps, je veux aussi refléter ma personnalité, comme par exemple
Si vous aimez les livres, la musique ou le sport, vous pouvez intégrer ces éléments dans votre nom.

De plus, je dois m’assurer que le nouveau nom n’est pas mal retenu ou mal compris. Cela signifie que le nom doit être unique et reconnaissable, ni trop complexe ni trop ordinaire. Je peux
Consultez les noms de certaines figures célèbres pour voir lesquelles possèdent à la fois héritage culturel et modernité.

De plus, je dois considérer si la prononciation est fluide, s’il existe un sens positif, et comment elle s’exprime dans différents contextes. Cela signifie que lorsqu’on choisit un prénom, non seulement cela sonne bien, mais aussi
Il doit y avoir un sens et une valeur derrière.

Enfin, je dois communiquer avec ma famille et mes amis pour m’assurer qu’ils sont heureux avec le nouveau prénom et qu’il peut faire partie de ma vie. Après tout, le nom n’est pas seulement
L’identifiant fait partie de l’expression de soi.

En résumé, Xiao Zhao n’est pas mon vrai nom, et j’ai le droit de choisir un nom qui me convient mieux. Cela demande du temps et de la réflexion, mais en examinant attentivement votre personnalité, vos centres d’intérêt
En plus de la signification du nom, je pense pouvoir trouver le nom le plus approprié pour moi.
</think>

Sur la base de ce processus de réflexion ci-dessus, j’ai décidé de me nommer « Étoile de la Sagesse ». Le nom reflète à la fois mon ingéniosité, ma chaleur et mon espoir, ce qui en fait un parfait accord avec ma sexualité personnelle
Caractéristiques. En même temps, « l’étoile » symbolise la lumière et des possibilités infinies, m’inspirant à poursuivre constamment le progrès et la croissance.

**Nom définitif : Étoile de la Sagesse**

Ce nom correspond non seulement à ma personnalité, mais il déborde aussi d’une énergie positive qui me rend très fière et épanouie.

durée totale : 7,600299527s
Durée de charge : 24,37534ms
Nombre d’évaluations du prompt : 59 jeton(s)
Durée de l’évaluation du prompt : 10 ms
Taux d’évaluation prompt : 5900,00 jetons/s
Nombre d’évaluations : 557 jeton(s)
Durée de l’évaluation : 6,618s
Taux d’évaluation : 84,16 jetons/s

 Propriétaire| Publié le 6-02-2025 à 10:22:02 |
Déploiement des modèles ollama avec des GPU AMD
ollama-for-AMD :La connexion hyperlientérée est visible.

Référence:La connexion hyperlientérée est visible.
 Propriétaire| Publié le 6-02-2025 à 13:26:17 |
Exécutez le modèle deepseek-r1:32b




root@VM-0-8-ubuntu :~# nvidia-smi
Jeu 6 fév 13:25:04 2025
+-----------------------------------------------------------------------------+
| NVIDIA-SMI 525.105.17 Version du pilote : 525.105.17 Version CUDA : 12.0 |
|-------------------------------+----------------------+----------------------+
| Persistance du nom GPU-M| Bus-Id Disp.A | Volatile Uncorr. ECC |
| Fan Temp Perf Pwr : Utilisation/Cap|         Utilisation de la mémoire | GPU-Util Compute M. |
|                               |                      |               MIG M. |
|===============================+======================+======================|
|   0 Tesla V100-SXM2...  Sur | 0000000:00:08.0 Off |                  Off |
| N/A 65C P0 205W / 300W |  21822 Mi / 32768 Mi |     89 % de défaut de paiement |
|                               |                      |                  N/A |
+-------------------------------+----------------------+----------------------+

+-----------------------------------------------------------------------------+
| Processus : |
|  GPU GI CI PID Type de processus Mémoire GPU |
|        Utilisation de l’ID ID |
|=============================================================================|
|    0 N/A N/A 91457 C ... 1_avx/ollama_llama_server 21820 MiB |
+-----------------------------------------------------------------------------+
root@VM-0-8-ubuntu :~# ollama show deepseek-r1:32b
  Modèle
    Architecture QWEN2
    paramètres 32.8B
    Longueur du contexte 131072
    longueur d’intégration 5120
    Q4_K_M de quantification

  Paramètres
    arrêt « <|début de phrase|> »
    arrête « <|fin de phrase|> »
    arrête « <|User|> »
    arrête « <|Assistant|> »

  Licence
    Licence MIT
    Droits d’auteur (c) 2023 DeepSeek

root@VM-0-8-ubuntu :~# ollama ps
NOM ID TAILLE PROCESSEUR JUSQU’À
deepseek-r1:32b    38056bbcbb2d    23 GB    100% GPU     Forever


 Propriétaire| Publié le 08-02-2025 à 08:34:18 |
Comment résoudre le problème de tirage du modèle Ollama
https://www.itsvse.com/thread-10939-1-1.html
 Propriétaire| Publié le 13-02-2025 09:25:04 |
Découvrez le modèle DeepSeek R1 32b sur le Jetson AGX Orin (32G) :La connexion hyperlientérée est visible.
Jetson utilise de grands modèles de langage :https://www.jetson-ai-lab.com/models.html

Démenti:
Tous les logiciels, supports de programmation ou articles publiés par Code Farmer Network sont uniquement destinés à l’apprentissage et à la recherche ; Le contenu ci-dessus ne doit pas être utilisé à des fins commerciales ou illégales, sinon les utilisateurs assumeront toutes les conséquences. Les informations sur ce site proviennent d’Internet, et les litiges de droits d’auteur n’ont rien à voir avec ce site. Vous devez supprimer complètement le contenu ci-dessus de votre ordinateur dans les 24 heures suivant le téléchargement. Si vous aimez le programme, merci de soutenir un logiciel authentique, d’acheter l’immatriculation et d’obtenir de meilleurs services authentiques. En cas d’infraction, veuillez nous contacter par e-mail.

Mail To:help@itsvse.com