llama.cpp Введение
Inference Meta — модель LLaMA (и другие) на чистом C/C++. Основная цель llama.cpp обеспечить вывод LLM на различных аппаратных установках (локально и облачно) с минимальной настройкой и передовой производительностью.
- Чистая реализация на C/C++ без зависимостей
- Apple Silicon — первоклассный — оптимизирован с использованием фреймворков ARM NEON, Accelerate и Metal
- AVX, AVX2, AVX512 и AMX поддерживают архитектуры x86
- 1,5-битная, 2-битная, 3-битная, 4-битная, 5-битная, 6-битная и 8-битная целочисленноя квантизация для более быстрого вывода и снижения использования памяти
- Кастомные ядра CUDA для запуска LLM на NVIDIA GPU (AMD GPU через HIP и Moore Threads MTT GPU через MUSA)
- Поддержка бэкенда Vulkan и SYCL
- Гибридный вывод CPU+GPU, частично ускоряющий модели, превышающие общую ёмкость VRAM
Адрес на Github:Вход по гиперссылке виден. Адрес для скачивания:Вход по гиперссылке виден.
Скачать llama.cpp
Сначала скачайте соответствующую версию программного обеспечения llama.cpp в соответствии с аппаратной конфигурацией вашего компьютера, как показано на рисунке ниже:
AVX поддерживает работу на ширине 256 бит. AVX2 также поддерживает операции по ширине 256 бит, но добавляет поддержку целочисленных операций и некоторые дополнительные инструкции. AVX-512 поддерживает операции шириной 512 бит, обеспечивая повышенный параллелизм и производительность, особенно при работе с большими объёмами данных или операциями с плавающей точкой.
Мой компьютер работает на чистом процессоре и поддерживает набор инструкций avx512, так что скачайте версию "" с адресом скачивания:Вход по гиперссылке виден.После завершения загрузки распаковали его вD:\llama-b4658-bin-win-avx512-x64Каталог.
Скачайте модель DeepSeek-R1
Адрес для скачивания:Вход по гиперссылке виден.Эта статья начинается со слов «DeepSeek-R1-Distill-Qwen-1.5B-Q3_K_L.ggufНапример.
Просто скачайте по своей конфигурации. Чем выше уровень квантизации, тем больше файл и тем выше точность модели.
llama.cpp Развернуть модель DeepSeek-R1
Выполните следующую команду в файловом каталоге DeepSeek-R1-Distill-Qwen-1.5B-Q3_K_L.gguf:
Как показано ниже:
Откройте его с помощью браузераhttp://127.0.0.1:8080/Адрес проверяется, как показано ниже:
Прилагается конфигурация текущего параметра:Вход по гиперссылке виден.
|