[IA] (7) Utiliser llama.cpp pour déployer le modèle DeepSeek-R1 sur site

Petite ordure · Publié sur 07/02/2025 13:58:06

llama.cpp Introduction

Inférence : le modèle LLaMA de Meta (et d’autres) utilisant du C/C++ pur. L’objectif principal llama.cpp de permettre l’inférence des LLM sur divers matériels (sur site et dans le cloud) avec une configuration minimale et des performances à la pointe de la technologie.

Implémentation C/C++ pure sans dépendances
Apple silicon est de premier ordre – optimisé avec les frameworks ARM NEON, Accelerate et Metal
AVX, AVX2, AVX512 et AMX prennent en charge les architectures x86
Quantification entière 1,5 bit, 2 bits, 3 bits, 4 bits, 5 bits, 6 bits et 8 bits pour une inférence plus rapide et une utilisation mémoire réduite
Cœurs CUDA personnalisés pour faire tourner des LLM sur des GPU NVIDIA (GPU AMD via HIP et GPU MTT Moore Threads via MUSA)
Support backend de Vulkan et SYCL
Inférence hybride CPU+GPU, accélérant partiellement des modèles supérieurs à la capacité totale de VRAM

Adresse Github :La connexion hyperlientérée est visible.
Adresse de téléchargement :La connexion hyperlientérée est visible.

Télécharger llama.cpp

D’abord, téléchargez la version correspondante du logiciel llama.cpp selon la configuration matérielle de votre ordinateur, comme illustré dans la figure ci-dessous :

AVX prend en charge le fonctionnement sur 256 bits.
AVX2 prend également en charge les opérations sur 256 bits, mais ajoute la prise en charge des opérations en entiers ainsi que quelques instructions supplémentaires.
L’AVX-512 prend en charge les opérations sur 512 bits, offrant un parallélisme et des performances accrus, notamment lorsqu’il s’agit de grandes quantités de données ou d’opérations en virgule flottante.

Mon ordinateur fonctionne uniquement avec un processeur et prend en charge le jeu d’instructions avx512, donc téléchargez la version « » et adresse de téléchargement :La connexion hyperlientérée est visible.Une fois le téléchargement terminé, décompressez-le surD:\llama-b4658-bin-win-avx512-x64Répertoire.

Téléchargez le modèle DeepSeek-R1

Adresse de téléchargement :La connexion hyperlientérée est visible.Cet article commence par «DeepSeek-R1-Distill-Qwen-1.5B-Q3_K_L.ggufPar exemple.

Téléchargez-le simplement selon votre propre configuration. Plus le niveau de quantification est élevé, plus le fichier est grand, et plus la précision du modèle est élevée.

llama.cpp Déploiement du modèle DeepSeek-R1

Exécutez la commande suivante dans le répertoire DeepSeek-R1-Distill-Qwen-1.5B-Q3_K_L.gguf :

La connexion est visible.

Comme montré ci-dessous :

Ouvrez-le avec un navigateurhttp://127.0.0.1:8080/L’adresse est testée comme indiqué ci-dessous :

Joint est la configuration des paramètres de course :La connexion hyperlientérée est visible.

Petite ordure · Publié sur 05/03/2025 10:48:53

Communauté des modèles IA

Site officiel de Câlins :https://huggingface.co/
Miroir domestique du visage câlin :https://hf-mirror.com/
Modèle Magic Matching :https://www.modelscope.cn/

[IA] (7) Utiliser llama.cpp pour déployer le modèle DeepSeek-R1 sur site

Articles connexes

Sections vues