[ИИ] (7) Используйте llama.cpp для развертывания модели DeepSeek-R1 локально

Маленькая мразь · Опубликовано 07.02.2025 13:58:06

llama.cpp Введение

Inference Meta — модель LLaMA (и другие) на чистом C/C++. Основная цель llama.cpp обеспечить вывод LLM на различных аппаратных установках (локально и облачно) с минимальной настройкой и передовой производительностью.

Чистая реализация на C/C++ без зависимостей
Apple Silicon — первоклассный — оптимизирован с использованием фреймворков ARM NEON, Accelerate и Metal
AVX, AVX2, AVX512 и AMX поддерживают архитектуры x86
1,5-битная, 2-битная, 3-битная, 4-битная, 5-битная, 6-битная и 8-битная целочисленноя квантизация для более быстрого вывода и снижения использования памяти
Кастомные ядра CUDA для запуска LLM на NVIDIA GPU (AMD GPU через HIP и Moore Threads MTT GPU через MUSA)
Поддержка бэкенда Vulkan и SYCL
Гибридный вывод CPU+GPU, частично ускоряющий модели, превышающие общую ёмкость VRAM

Адрес на Github:Вход по гиперссылке виден.
Адрес для скачивания:Вход по гиперссылке виден.

Скачать llama.cpp

Сначала скачайте соответствующую версию программного обеспечения llama.cpp в соответствии с аппаратной конфигурацией вашего компьютера, как показано на рисунке ниже:

AVX поддерживает работу на ширине 256 бит.
AVX2 также поддерживает операции по ширине 256 бит, но добавляет поддержку целочисленных операций и некоторые дополнительные инструкции.
AVX-512 поддерживает операции шириной 512 бит, обеспечивая повышенный параллелизм и производительность, особенно при работе с большими объёмами данных или операциями с плавающей точкой.

Мой компьютер работает на чистом процессоре и поддерживает набор инструкций avx512, так что скачайте версию "" с адресом скачивания:Вход по гиперссылке виден.После завершения загрузки распаковали его вD:\llama-b4658-bin-win-avx512-x64Каталог.

Скачайте модель DeepSeek-R1

Адрес для скачивания:Вход по гиперссылке виден.Эта статья начинается со слов «DeepSeek-R1-Distill-Qwen-1.5B-Q3_K_L.ggufНапример.

Просто скачайте по своей конфигурации. Чем выше уровень квантизации, тем больше файл и тем выше точность модели.

llama.cpp Развернуть модель DeepSeek-R1

Выполните следующую команду в файловом каталоге DeepSeek-R1-Distill-Qwen-1.5B-Q3_K_L.gguf:

Вход виден.

Как показано ниже:

Откройте его с помощью браузераhttp://127.0.0.1:8080/Адрес проверяется, как показано ниже:

Прилагается конфигурация текущего параметра:Вход по гиперссылке виден.

Маленькая мразь · Опубликовано 05.03.2025 10:48:53

Сообщество моделей ИИ

Официальный сайт Hugging Face:https://huggingface.co/
Домашнее зеркало с обнимающим лицом:https://hf-mirror.com/
Волшебный подбор моделей:https://www.modelscope.cn/

[ИИ] (7) Используйте llama.cpp для развертывания модели DeepSeek-R1 локально

Связанные публикации

Просмотренные разделы