llama.cpp Introduction
Inférence : le modèle LLaMA de Meta (et d’autres) utilisant du C/C++ pur. L’objectif principal llama.cpp de permettre l’inférence des LLM sur divers matériels (sur site et dans le cloud) avec une configuration minimale et des performances à la pointe de la technologie.
- Implémentation C/C++ pure sans dépendances
- Apple silicon est de premier ordre – optimisé avec les frameworks ARM NEON, Accelerate et Metal
- AVX, AVX2, AVX512 et AMX prennent en charge les architectures x86
- Quantification entière 1,5 bit, 2 bits, 3 bits, 4 bits, 5 bits, 6 bits et 8 bits pour une inférence plus rapide et une utilisation mémoire réduite
- Cœurs CUDA personnalisés pour faire tourner des LLM sur des GPU NVIDIA (GPU AMD via HIP et GPU MTT Moore Threads via MUSA)
- Support backend de Vulkan et SYCL
- Inférence hybride CPU+GPU, accélérant partiellement des modèles supérieurs à la capacité totale de VRAM
Adresse Github :La connexion hyperlientérée est visible. Adresse de téléchargement :La connexion hyperlientérée est visible.
Télécharger llama.cpp
D’abord, téléchargez la version correspondante du logiciel llama.cpp selon la configuration matérielle de votre ordinateur, comme illustré dans la figure ci-dessous :
AVX prend en charge le fonctionnement sur 256 bits. AVX2 prend également en charge les opérations sur 256 bits, mais ajoute la prise en charge des opérations en entiers ainsi que quelques instructions supplémentaires. L’AVX-512 prend en charge les opérations sur 512 bits, offrant un parallélisme et des performances accrus, notamment lorsqu’il s’agit de grandes quantités de données ou d’opérations en virgule flottante.
Mon ordinateur fonctionne uniquement avec un processeur et prend en charge le jeu d’instructions avx512, donc téléchargez la version « » et adresse de téléchargement :La connexion hyperlientérée est visible.Une fois le téléchargement terminé, décompressez-le surD:\llama-b4658-bin-win-avx512-x64Répertoire.
Téléchargez le modèle DeepSeek-R1
Adresse de téléchargement :La connexion hyperlientérée est visible.Cet article commence par «DeepSeek-R1-Distill-Qwen-1.5B-Q3_K_L.ggufPar exemple.
Téléchargez-le simplement selon votre propre configuration. Plus le niveau de quantification est élevé, plus le fichier est grand, et plus la précision du modèle est élevée.
llama.cpp Déploiement du modèle DeepSeek-R1
Exécutez la commande suivante dans le répertoire DeepSeek-R1-Distill-Qwen-1.5B-Q3_K_L.gguf :
Comme montré ci-dessous :
Ouvrez-le avec un navigateurhttp://127.0.0.1:8080/L’adresse est testée comme indiqué ci-dessous :
Joint est la configuration des paramètres de course :La connexion hyperlientérée est visible.
|