Эта статья является зеркальной статьёй машинного перевода, пожалуйста, нажмите здесь, чтобы перейти к оригиналу.

Вид: 2195|Ответ: 1

[ИИ] (7) Используйте llama.cpp для развертывания модели DeepSeek-R1 локально

[Скопировать ссылку]
Опубликовано 2025-2-7 13:58:06 | | | |
llama.cpp Введение

Inference Meta — модель LLaMA (и другие) на чистом C/C++. Основная цель llama.cpp обеспечить вывод LLM на различных аппаратных установках (локально и облачно) с минимальной настройкой и передовой производительностью.

  • Чистая реализация на C/C++ без зависимостей
  • Apple Silicon — первоклассный — оптимизирован с использованием фреймворков ARM NEON, Accelerate и Metal
  • AVX, AVX2, AVX512 и AMX поддерживают архитектуры x86
  • 1,5-битная, 2-битная, 3-битная, 4-битная, 5-битная, 6-битная и 8-битная целочисленноя квантизация для более быстрого вывода и снижения использования памяти
  • Кастомные ядра CUDA для запуска LLM на NVIDIA GPU (AMD GPU через HIP и Moore Threads MTT GPU через MUSA)
  • Поддержка бэкенда Vulkan и SYCL
  • Гибридный вывод CPU+GPU, частично ускоряющий модели, превышающие общую ёмкость VRAM


Адрес на Github:Вход по гиперссылке виден.
Адрес для скачивания:Вход по гиперссылке виден.

Скачать llama.cpp

Сначала скачайте соответствующую версию программного обеспечения llama.cpp в соответствии с аппаратной конфигурацией вашего компьютера, как показано на рисунке ниже:



AVX поддерживает работу на ширине 256 бит.
AVX2 также поддерживает операции по ширине 256 бит, но добавляет поддержку целочисленных операций и некоторые дополнительные инструкции.
AVX-512 поддерживает операции шириной 512 бит, обеспечивая повышенный параллелизм и производительность, особенно при работе с большими объёмами данных или операциями с плавающей точкой.

Мой компьютер работает на чистом процессоре и поддерживает набор инструкций avx512, так что скачайте версию "" с адресом скачивания:Вход по гиперссылке виден.После завершения загрузки распаковали его вD:\llama-b4658-bin-win-avx512-x64Каталог.

Скачайте модель DeepSeek-R1

Адрес для скачивания:Вход по гиперссылке виден.Эта статья начинается со слов «DeepSeek-R1-Distill-Qwen-1.5B-Q3_K_L.ggufНапример.

Просто скачайте по своей конфигурации. Чем выше уровень квантизации, тем больше файл и тем выше точность модели.

llama.cpp Развернуть модель DeepSeek-R1

Выполните следующую команду в файловом каталоге DeepSeek-R1-Distill-Qwen-1.5B-Q3_K_L.gguf:

Как показано ниже:



Откройте его с помощью браузераhttp://127.0.0.1:8080/Адрес проверяется, как показано ниже:



Прилагается конфигурация текущего параметра:Вход по гиперссылке виден.




Предыдущий:Фронтенд генерирует .d.ts файл из .js файла
Следующий:Как решить задачу вытягивания модели Олламы
 Хозяин| Опубликовано 2025-3-5 10:48:53 |
Сообщество моделей ИИ

Официальный сайт Hugging Face:https://huggingface.co/
Домашнее зеркало с обнимающим лицом:https://hf-mirror.com/
Волшебный подбор моделей:https://www.modelscope.cn/
Отказ:
Всё программное обеспечение, программные материалы или статьи, публикуемые Code Farmer Network, предназначены исключительно для учебных и исследовательских целей; Вышеуказанный контент не должен использоваться в коммерческих или незаконных целях, иначе пользователи несут все последствия. Информация на этом сайте взята из Интернета, и споры по авторским правам не имеют отношения к этому сайту. Вы должны полностью удалить вышеуказанный контент с компьютера в течение 24 часов после загрузки. Если вам нравится программа, пожалуйста, поддержите подлинное программное обеспечение, купите регистрацию и получите лучшие подлинные услуги. Если есть нарушение, пожалуйста, свяжитесь с нами по электронной почте.

Mail To:help@itsvse.com