【AI】(3) Tencent Cloud внедрява DeepSeek-R1 с HAI tutorial

Малък боклук · Публикувано в 5.02.2025 г. 21:14:04 ч.

Hyper Application Inventor (HAI) е GPU продукт за приложения за изкуствен интелект и научни изчисления, предоставящ plug-and-play изчислителна мощ и общи среди, за да помогне на малки и средни предприятия и разработчици бързо да внедрят LLM модели.

Адрес:Входът към хиперлинк е видим.

HAI срещу GPU сървъри

Значително намалете прага за използване на GPU облачен сървър, оптимизирайте продуктовото изживяване от различни ъгли и го използвайте веднага, както е показано на фигурата по-долу:

Закупете изчислителна мощност на HAI

Отидете на страницата за покупка, изберете основния образ на средата "Ubuntu 20.04" и конфигурирайте средата:Ubuntu 20.04, Драйвер 525.105.17, Python 3.8, CUDA 12.0, cuDNN 8Изображението вече е инсталирало драйвера за нас и ние избираме да плащаме в движение, както е показано на фигурата по-долу:

Видео памет: 32GB+
Хашрейт: 15+TFlops SP
CPU: 8~10 ядра
RAM: 40GB

След няколко минути изчакване инстанцията се създава успешно и се включва Academic Acceleration, както е показано на следващата фигура:

Първия път, когато го използвате, трябва да рестартирате паролата си, а потребителското име за вход е:Ubuntu。 Опитайте да влезете в сървъра и да проверите информацията за драйвера на NVIDIA GPU с следната команда:

Входът е видим.

Както е показано по-долу:

Инсталирай Ollama

Официален уебсайт на Оллама:Входът към хиперлинк е видим.

Влезте в сървъра чрез инструмента за замазка и започнете да инсталирате инструмента Ollama със следната команда:

Входът е видим.

Инсталацията е завършена, а изходът е следният:

>>> Инсталиране на ollama в /usr/local
>>> Изтегляне на Linux amd64 пакета
######################################################################## 100.0%
>>> Създаване на оллама потребител...
>>> Добавяне на ollama user към рендер групата...
>>> Добавяне на оллама потребител към видео групата...
>>> Добавяне на настоящ потребител към групата оллама...
>>> Създаване на ollama systemd услуга...
>>> Включване и стартиране на оллама услугата...
Създадох симлинк /etc/systemd/system/default.target.wants/ollama.service → /etc/systemd/system/ollama.service.

Вижте версията: ollama -v
Вижте модела, който в момента е зареден в паметта: ollama ps

Създайте папка за съхранение на персонализиран модел със следната команда:

Входът е видим.

Променете стандартния адрес за слушане и пътя към съхранението на модела (не можете да промените стандартния порт, иначе командата ще се провали) и използвайте следните команди:

Входът е видим.

Разгръщане на deepseek-r1 модела

Стартирайте модела deepseek-r1:8b със следната команда:

Входът е видим.

Както е показано по-долу:

Тествайте диалога, както е показано по-долу:

Защитната стена освобождава TCP порт 11434 и извиква HTTP интерфейса, както е показано на следната фигура:

{
  "модели": [
{
   "Име": "Deepseek-R1:8B",
   "модел": "deepseek-r1:8b",
   "размер": 6930032640,
   "дайджест": "28f8fd6cdc677661426adab9338ce3c013d7e69a5bea9e704b364171a5d61a10",
   "детайли": {
      "parent_model": "",
      "format": "gguf",
      "семейство": "лама",
      "семейства": [
      "лама"
      ],
      "parameter_size": "8.0B",
      "quantization_level": "Q4_K_M"
   },
   "expires_at": "2025-02-05T21:14:50.715753614+08:00",
   "size_vram": 6930032640
}
  ]
}

Препратка:
Входът към хиперлинк е видим.
Входът към хиперлинк е видим.
Входът към хиперлинк е видим.

Малък боклук · Публикувано в 5.02.2025 г. 21:22:49 ч.

Ако моделът не получава заявки или входове за определен период от време, Ollama автоматично прекратява модела в облачния център, за да пести ресурси.

Малък боклук · Публикувано в 6.02.2025 г. 9:03:57 ч.

Конфигурационен елемент на променливата на околната среда на ollama

Променлив	Стандартна стойност	Описание + Ефект + Сценарий
OLLAMA_HOST	"[color=var(--fgЦвят-акцент, var(--цвят-акцент-fg))]Входът към хиперлинк е видим."	Конфигурира хоста и схемата за сървъра на Ollama. Ефект: Определя URL адреса, използван за свързване към сървъра Ollama. Сценарий: Полезен при внедряване на Ollama в разпределена среда или когато трябва да експонирате услугата на конкретен мрежов интерфейс.
OLLAMA_ORIGINS	[localhost, 127.0.0.1, 0.0.0.0] + app://, file://, tauri://	Конфигурациите позволяват произход на CORS. Ефект: Контролира кои origins имат право да правят заявки към сървъра на Ollama. Сценарий: Критичен при интегриране на Ollama с уеб приложения за предотвратяване на неоторизиран достъп от различни домейни.
OLLAMA_MODELS	$HOME/.ollama/models	Задава пътя към директорията с модели. Ефект: Определя къде се съхраняват и зареждат моделните файлове. Сценарий: Полезен за управление на дисково пространство на различни устройства или за настройване на споделени хранилища за модели в многопотребителски среди.
OLLAMA_KEEP_ALIVE	5 минути	Определя колко дълго моделите остават заредени в паметта. Ефект: Контролира моделите за продължителност, които остават в паметта след употреба. Сценарий: По-дългите периоди подобряват времето за отговор при чести заявки, но увеличават използването на памет. По-кратките периоди освобождават ресурси, но могат да удължат началните времена за реакция.
OLLAMA_DEBUG	false	Активира допълнителна информация за отстраняване на грешки. Ефект: Увеличава многословността при логване и отстраняване на грешки. Сценарий: Безценен за отстраняване на проблеми или разбиране на поведението на системата по време на разработка или внедряване.
OLLAMA_FLASH_ATTENTION	false	Активира експерименталната функция за внимание на светкавицата. Ефект: Активира експериментална оптимизация за механизмите на вниманието. Сценарий: Може потенциално да подобри производителността на съвместим хардуер, но може да доведе до нестабилност.
OLLAMA_NOHISTORY	false	Деактивира историята на линиите на четене. Ефект: Предотвратява запазването на историята на командите. Сценарий: Полезно в среди, чувствителни към сигурността, където историята на командите не трябва да се запазва.
OLLAMA_NOPRUNE	false	Изключва подрязването на blob-овете на модела при стартиране. Ефект: Запазва всички модели blob-ове, потенциално увеличавайки използването на диска. Сценарий: Полезен, когато трябва да поддържате всички версии на модела за съвместимост или връщане назад.
OLLAMA_SCHED_SPREAD	false	Позволява планиране на модели за всички GPU-та. Ефект: Позволява използването на мулти-GPU за извеждане на модели. Сценарий: Полезно в високопроизводителни изчислителни среди с множество графични процесори за максимално използване на хардуера.
OLLAMA_INTEL_GPU	false	Позволява експериментално откриване на Intel GPU. Ефект: Позволява използването на Intel GPU за извеждане на модели. Сценарий: Полезен за организации, които използват Intel GPU хардуер за AI задачи.
OLLAMA_LLM_LIBRARY	"" (автоматично откриване)	Настройва LLM библиотеката да използва. Ефект: Отменя автоматичното откриване на библиотеката на LLM. Сценарий: Полезен, когато трябва да наложиш определена библиотечна версия или имплементация поради съвместимост или производителност.
OLLAMA_TMPDIR	Системна временна директория по подразбиране	Задава местоположението за временни файлове. Ефект: Определя къде се съхраняват временните файлове. Сценарий: Важен за управление на производителността на I/O или когато временната директория на системата има ограничено място.
CUDA_VISIBLE_DEVICES	Всички са налични	Определя кои NVIDIA устройства са видими. Ефект: Контролира кои NVIDIA GPU могат да се използват. Сценарий: Критичен за управление на разпределението на GPU в многопотребителски или многопроцесни среди.
HIP_VISIBLE_DEVICES	Всички са налични	Комплекти кои AMD устройства са видими. Ефект: Контролира кои AMD GPU могат да се използват. Сценарий: Подобно на CUDA_VISIBLE_DEVICES, но за хардуера на AMD.
OLLAMA_RUNNERS_DIR	Зависим от системата	Определя местоположението за бегачите. Ефект: Определя къде се намират изпълнимите файлове на runner. Сценарий: Важен за персонализирани внедрявания или когато рънърите трябва да бъдат изолирани от основното приложение.
OLLAMA_NUM_PARALLEL	0 (неограничен)	Задава броя на заявките за паралелни модели. Ефект: Контролира съвместимостта на изводите на модела. Сценарий: Критично за управление на натоварването на системата и осигуряване на отзивчивост в среди с интензивен трафик.
OLLAMA_MAX_LOADED_MODELS	0 (неограничен)	Определя максималния брой заредени модели. Ефект: Ограничава броя на моделите, които могат да се зареждат едновременно. Сценарий: Помага за управление на използването на памет в среди с ограничени ресурси или с много различни модели.
OLLAMA_MAX_QUEUE	512	Задава максимален брой опашени заявки. Ефект: Ограничава размера на опашката за заявки. Сценарий: Предотвратява претоварване на системата по време на пикове в трафика и осигурява навременна обработка на заявките.
OLLAMA_MAX_VRAM	0 (неограничен)	Задава максимален VRAM override в байтове. Ефект: Ограничава количеството VRAM, което може да се използва. Сценарий: Полезно в споделени GPU среди, за да се предотврати монополизиране на GPU паметта от един процес.

Източник:Входът към хиперлинк е видим.

$ ollama help serve
Започнете оллама

Usage:
  Оллама сервис [флагове]

Aliases:
  Сервирай, стартирай

Flags:
  -Х, --помощ за Серв

Променливи на средата:
   OLLAMA_DEBUG Покажи допълнителна информация за отстраняване на грешки (напр. OLLAMA_DEBUG=1)
   OLLAMA_HOST IP адрес на сървъра ollama (по подразбиране 127.0.0.1:11434)
   OLLAMA_KEEP_ALIVE Продължителността, през която моделите остават заредени в паметта (по подразбиране "5m")
   OLLAMA_MAX_LOADED_MODELS Максимален брой заредени модели на GPU
   OLLAMA_MAX_QUEUE Максимален брой заявки в опашка
   OLLAMA_MODELS Пътят към директорията с модели
   OLLAMA_NUM_PARALLEL Максимален брой паралелни заявки
   OLLAMA_NOPRUNE Не подрязвайте моделните blob-ове при стартиране
   OLLAMA_ORIGINS Списък с разрешени произходи, разделени със запетая
   OLLAMA_SCHED_SPREAD Винаги планирайте модела за всички GPU
   OLLAMA_TMPDIR Местоположение за временни файлове
   OLLAMA_FLASH_ATTENTION Активирано внимание на светкавицата
   OLLAMA_LLM_LIBRARY Настрой LLM библиотеката да заобикаля автоматичното откриване
   OLLAMA_GPU_OVERHEAD Резервирайте част от VRAM на GPU (байтове)
   OLLAMA_LOAD_TIMEOUT Колко време да се остави натоварването на модела да се забави преди да се откаже (по подразбиране "5m")

Препратка:Входът към хиперлинк е видим.

Малък боклук · Публикувано в 6.02.2025 г. 9:19:49 ч.

Команда Оллама

ollama списък: Показва списък с модели
Ollama show: Показва информация за модела
Ollama Pull: модел за дърпане
ollama push: модел на push
Ollama CP: копирай модел
ollama rm: Изтрий модел
ollama run: Бягане на модел

Малък боклук · Публикувано в 6.02.2025 г. 9:33:17 ч.

Оптимизация на модела, редактиране/etc/systemd/system/ollama.service.d/override.confКонфигурация, добавете следното:

Входът е видим.

Пълната конфигурация е следната:

Входът е видим.

Малък боклук · Публикувано в 6.02.2025 г. 9:35:26 ч.

--многословенПараметърът се използва за показване на скоростта на извеждане (токен / секунда). Например:

Входът е видим.

>>> Здравейте, кой сте вие?
<think>

</think>

Здравейте! Аз съм AI асистент, независимо разработен от DeepSeek в Китай, и с удоволствие ще ви помогна!

Обща продължителност: 489.831897ms
Продължителност на натоварването: 24.116423ms
Брой на бързи оценки: 10 токена(а)
Продължителност на бързата оценка: 4ms
Бърза оценка: 2500.00 токена/с
Брой оценки: 36 жетона(и)
Продължителност на оценката: 460ms
Процент на оценка: 78.26 токена/с
>>> Аз съм малък боклук, как се казвам?
<think>
Е, малката ли е моето име? Нека помисля внимателно. Спомням си, когато бях дете, родителите ми ме кръстиха "Малкият изрод", защото семейството ми мислеше, че имам големи уши, но всъщност това беше всичко
Не е истинската причина. Може би защото като дете винаги си слагам пръста в устата като боклук, затова ме наричаха "малък боклук".

Въпреки това, името сега звучи малко странно и не пасва напълно на стила на именуване в днешното общество. Трябва да обмисля да го преименувам с име, което ми подхожда повече. Първо, трябва да разбера себе си
Вашите личностни черти и интереси, така че можете да изберете име, което е едновременно значимо и уникално.

Обичам да помагам на другите и съм добър в слушането и комуникацията, така че може би избери име с "мъдрост", "топло" или "приятелски настроено". В същото време искам да отразя и личността си, като например
Ако обичате книги, музика или спорт, можете да включите тези елементи в името си.

Освен това трябва да се уверя, че новото име няма да бъде погрешно запомнено или разбрано погрешно. Това означава, че името трябва да бъде уникално и разпознаваемо, а не твърде сложно или твърде обикновено. Мога
Вижте имената на някои известни личности, за да видите кои имат както културно наследство, така и модерност.

Освен това трябва да разгледам дали произношението е гладко, дали има положително значение и как се изразява в различни контексти. Това означава, че при избора на име не само звучи добре, но и
Зад него трябва да има смисъл и стойност.

Накрая, трябва да комуникирам със семейството и приятелите си, за да се уверя, че са доволни от новото име и че името може да бъде част от живота ми. В крайна сметка, името не е само
Идентификаторът е част от самоизразяването.

Накратко, Сяо Джао не е истинското ми име и имам право да избера име, което ми подхожда повече. Отнема време и мислене, но чрез внимателен анализ на личността и интересите ви
Освен значението на името, вярвам, че ще мога да намеря най-подходящото име за себе си.
</think>

Въз основа на горния начин на мислене реших да се кръстя "Звездата на мъдростта". Името отразява както изобретателността ми, така и топлината и надеждата ми, което го прави идеално за моята лична сексуалност
Характеристики. В същото време "звездата" символизира светлина и безкрайни възможности, вдъхновявайки ме постоянно да преследвам напредък и растеж.

**Финализирано име: Звезда на мъдростта**

Това име не само съвпада с моята личност, но и е изпълнено с положителна енергия, която ме кара да се чувствам много горда и удовлетворена.

Обща продължителност: 7.600299527s
Продължителност на натоварването: 24.37534ms
Брой на бърза оценка: 59 жетона(и)
Продължителност на бързата оценка: 10ms
Бърза оценка: 5900.00 токена/с
Брой оценки: 557 жетона(а)
Продължителност на оценката: 6.618s
Оценителна стойност: 84.16 токена/с

Малък боклук · Публикувано в 6.02.2025 г. 10:22:02 ч.

Внедряване на ollama модели с AMD GPU
ollama-for-amd:Входът към хиперлинк е видим.

Препратка:Входът към хиперлинк е видим.

Малък боклук · Публикувано в 6.02.2025 г. 13:26:17 ч.

Пусни модела deepseek-r1:32b

root@VM-0-8-ubuntu:~# nvidia-smi
Чет 6 фев 13:25:04 2025
+-----------------------------------------------------------------------------+
| NVIDIA-SMI 525.105.17 Версия на драйвера: 525.105.17 CUDA версия: 12.0 |
|-------------------------------+----------------------+----------------------+
| Запазване на името на GPU - M| Bus-ID Disp.A | Волатилен Некор. ECC |
| Производителност на температурата на вентилатора pwr:Използване/Таван|       Използване на паметта | GPU-util Compute M. |
|                            |                   |             MIG M. |
|===============================+======================+======================|
| 0 Tesla V100-SXM2...  На | 00000000:00:08.0 Изключение |                Изключено |
| N/A 65C P0 205W / 300W |  21822MiB / 32768MiB |    89% по подразбиране |
|                            |                   |                Н/Д |
+-------------------------------+----------------------+----------------------+

+-----------------------------------------------------------------------------+
| Процеси: |
|  GPU GI CI PID Тип Име на процес GPU Памет |
|       Използване на ID ID |
|=============================================================================|
| 0 Н/А Н/Д 91457 C ... 1_avx/ollama_llama_server 21820MiB |
+-----------------------------------------------------------------------------+
root@VM-0-8-ubuntu:~# ollama show deepseek-r1:32b
  Модел
Архитектура QWEN2
параметри 32.8B
Дължина на контекста 131072
Дължина на вграждане 5120
Квантуване Q4_K_M

  Параметри
Спри "<|начало на изречение|>"
Спри "<|край на изречение|>"
спри "<|Потребител|>"
спри "<|Асистент|>"

  Лиценз
Лиценз MIT
Авторски права (c) 2023 DeepSeek

root@VM-0-8-ubuntu:~# ollama ps
ПРОЦЕСОРЪТ ЗА РАЗМЕР НА ИДЕНТИФИКАТОРА НА ИМЕТО ДО
deepseek-r1:32b 38056bbcbb2d 23 GB 100% GPU    Forever

Малък боклук · Публикувано в 8.02.2025 г. 8:34:18 ч.

Как да се реши проблема с изтеглянето на модела на Оллама
https://www.itsvse.com/thread-10939-1-1.html

Малък боклук · Публикувано в 13.02.2025 г. 9:25:04 ч.

Опитайте модела DeepSeek R1 32b на Jetson AGX Orin (32G):Входът към хиперлинк е видим.
Jetson управлява големи езикови модели:https://www.jetson-ai-lab.com/models.html

【AI】(3) Tencent Cloud внедрява DeepSeek-R1 с HAI tutorial

Свързани публикации