Тази статия е огледална статия за машинен превод, моля, кликнете тук, за да преминете към оригиналната статия.

Изглед: 2195|Отговор: 1

[AI] (7) Използвайте llama.cpp за внедряване на модела DeepSeek-R1 на място

[Копирай линк]
Публикувано на 2025-2-7 13:58:06 | | | |
llama.cpp Въведение

Inference LLaMA модела на Meta (и други), използвайки чист C/C++. Основната цел llama.cpp да се позволи LLM inference на различен хардуер (локално и в облака) с минимална настройка и най-съвременна производителност.

  • Чиста C/C++ имплементация без зависимости
  • Apple silicon е първокласен – оптимизиран с рамки ARM NEON, Accelerate и Metal
  • AVX, AVX2, AVX512 и AMX поддържат x86 архитектури
  • 1.5-битов, 2-битов, 3-битов, 4-битов, 5-битов, 6-битов и 8-битов целочислен квант за по-бърз извод и намалено използване на паметта
  • Персонализирани CUDA ядра за стартиране на LLM на NVIDIA GPU (AMD GPU чрез HIP и Moore Threads MTT GPU чрез MUSA)
  • Поддръжка на бекенд на Vulkan и SYCL
  • CPU+GPU хибриден извод, частично ускоряващ модели, по-големи от общия капацитет на VRAM


Github адрес:Входът към хиперлинк е видим.
Адрес за изтегляне:Входът към хиперлинк е видим.

Изтеглете llama.cpp

Първо, изтеглете съответната версия на софтуера llama.cpp според хардуерната конфигурация на компютъра ви, както е показано на фигурата по-долу:



AVX поддържа работа на ширина 256 бита.
AVX2 също поддържа 256-битови операции, но добавя поддръжка за цели числа, както и някои допълнителни инструкции.
AVX-512 поддържа операции с ширина от 512 бита, осигурявайки повишена паралелност и производителност, особено при работа с големи обеми данни или операции с плаваща запетая.

Компютърът ми работи изцяло на процесор и поддържа avx512 инструкции, така че изтегли версията "" и адресът за изтегляне:Входът към хиперлинк е видим.След като изтеглянето приключи, разархивирайте го вD:\llama-b4658-bin-win-avx512-x64Указател.

Изтеглете модела DeepSeek-R1

Адрес за изтегляне:Входът към хиперлинк е видим.Тази статия започва с "DeepSeek-R1-Distill-Qwen-1.5B-Q3_K_L.ggufНапример.

Просто го изтегли според собствената си конфигурация. Колкото по-високо е нивото на квантуване, толкова по-голям е файлът и толкова по-висока е точността на модела.

llama.cpp Внедряване на модела DeepSeek-R1

Изпълнете следната команда във файловата директория DeepSeek-R1-Distill-Qwen-1.5B-Q3_K_L.gguf:

Както е показано по-долу:



Отвори го с браузърhttp://127.0.0.1:8080/Адресът се тества, както е показано по-долу:



Прикачена е конфигурацията на текущия параметър:Входът към хиперлинк е видим.




Предишен:Фронтендът генерира .d.ts файл от .js файла
Следващ:Как да се реши проблема с изтеглянето на модела на Оллама
 Хазяин| Публикувано на 2025-3-5 10:48:53 |
Общност за AI модели

Официален уебсайт на Hugging Face:https://huggingface.co/
Огледало с прегръщащо лице: Домашно огледало:https://hf-mirror.com/
Моделоскоп за магическо съвпадение:https://www.modelscope.cn/
Отричане:
Целият софтуер, програмни материали или статии, публикувани от Code Farmer Network, са само за учебни и изследователски цели; Горното съдържание не трябва да се използва за търговски или незаконни цели, в противен случай потребителите ще понесат всички последствия. Информацията на този сайт идва от интернет, а споровете за авторски права нямат нищо общо с този сайт. Трябва напълно да изтриете горното съдържание от компютъра си в рамките на 24 часа след изтеглянето. Ако ви харесва програмата, моля, подкрепете оригинален софтуер, купете регистрация и получете по-добри услуги. Ако има нарушение, моля, свържете се с нас по имейл.

Mail To:help@itsvse.com