【AI】(3) Tencent Cloud розгортає DeepSeek-R1 з HAI tutorial

Маленька покидька · Опубліковано 05.02.2025 21:14:04

Hyper Application Inventor (HAI) — це продукт GPU-сервісу для штучного інтелекту та наукових обчислень, який забезпечує потужність plug-and-play обчислювальної потужності та спільні середовища для допомоги малим і середнім підприємствам і розробникам швидко впроваджувати LLM.

Адреса:Вхід за гіперпосиланням видно.

HAI проти GPU-серверів

Суттєво зменшіть поріг використання хмарних серверів GPU, оптимізуйте досвід продукту з різних боків і використовуйте його з коробки, як показано на рисунку нижче:

Придбайте обчислювальну потужність HAI

Перейдіть на сторінку покупки, виберіть образ базового середовища «Ubuntu 20.04» і налаштуйте середовище:Ubuntu 20.04, Драйвер 525.105.17, Python 3.8, CUDA 12.0, cuDNN 8Зображення вже встановило драйвер для нас, і ми вирішуємо платити по ходу, як показано на рисунку нижче:

Відеопам'ять: 32GB+
Хешрейт: 15+TFlops SP
CPU: 8~10 ядер
ОПЕРАТИВНА ПАМ'ять: 40GB

Після кількох хвилин очікування екземпляр успішно створюється, і вмикається Academic Acceleration, як показано на наступному рисунку:

Під час першого використання потрібно скинути пароль, і ім'я користувача для входу таке:Ubuntu。 Спробуйте увійти на сервер і перевірити інформацію драйвера відеокарти NVIDIA за допомогою наступної команди:

Вхід видно.

Як показано нижче:

Встановити Ollama

Офіційний сайт Ollama:Вхід за гіперпосиланням видно.

Увійдіть на сервер за допомогою інструменту замазки і почніть встановлювати інструмент Ollama за допомогою наступної команди:

Вхід видно.

Встановлення завершено, і результат виглядає так:

>>> Встановлення ollama на /usr/local
>>> Завантаження пакету Linux amd64
######################################################################## 100.0%
>>> Створення оллами користувач...
>>> Додавання користувача ollama до групи рендерингу...
>>> Додавання користувача оллами до відеогрупи...
>>> Додавання поточного користувача до групи оллама...
>>> Створення сервісу ollama systemd...
>>> Активація та запуск обслуговування оллами...
Створено символічне посилання /etc/systemd/system/default.target.wants/ollama.service → /etc/systemd/system/ollama.service.

Перегляньте команду версії: ollama -v
Дивіться модель, яка наразі завантажена в пам'ять: ollama ps

Створіть папку сховища власної моделі за допомогою наступної команди:

Вхід видно.

Змініть стандартну адресу прослуховування та шлях до зберігання моделі (ви не можете змінити порт за замовчуванням, інакше команда зазнає невдачі) і використайте такі команди:

Вхід видно.

Розгорнути модель deepseek-r1

Запустіть модель deepseek-r1:8b за допомогою наступної команди:

Вхід видно.

Як показано нижче:

Перевірте діалог, як показано нижче:

Міжмережевий екран випускає TCP-порт 11434 і викликає HTTP-інтерфейс, як показано на наступному рисунку:

{
  "Моделі": [
{
   "name": "deepseek-r1:8b",
   "Модель": "Deepseek-R1:8B",
   "розмір": 6930032640,
   "Digest": "28f8fd6cdc677661426adab9338ce3c013d7e69a5bea9e704b364171a5d61a10",
   "details": {
      "parent_model": "",
      "format": "gguf",
      «сім'я»: «лама»,
      "Сім'ї": [
      «лама»
      ],
      "parameter_size": "8.0B",
      "quantization_level": "Q4_K_M"
   },
   "expires_at": "2025-02-05T21:14:50.715753614+08:00",
   "size_vram": 6930032640
}
  ]
}

Посилання:
Вхід за гіперпосиланням видно.
Вхід за гіперпосиланням видно.
Вхід за гіперпосиланням видно.

Маленька покидька · Опубліковано 05.02.2025 21:22:49

Якщо модель не отримує запитів або введення протягом певного часу, Ollama автоматично завершує роботу в хмарному центрі для економії ресурсів.

Маленька покидька · Опубліковано 06.02.2025 09:03:57

Елемент конфігурації змінної середовища Ollama

Змінної	Значення за замовчуванням	Опис + Ефект + Сценарій
OLLAMA_HOST	"[color=var(--fgКолір-акцент, var(--колір-акцент-fg))]Вхід за гіперпосиланням видно."	Налаштовує хост і схему сервера Ollama. Ефект: Визначає URL, що використовується для підключення до сервера Ollama. Сценарій: корисний при розгортанні Ollama у розподіленому середовищі або коли потрібно розмістити сервіс на конкретному мережевому інтерфейсі.
OLLAMA_ORIGINS	[localhost, 127.0.0.1, 0.0.0.0] + app://, file://, tauri://	Налаштування дозволяли походження для CORS. Ефект: Контролює, яким джерелам дозволено робити запити до сервера Ollama. Сценарій: критично важливо при інтеграції Ollama з веб-додатками для запобігання несанкціонованому доступу з різних доменів.
OLLAMA_MODELS	$HOME/.ollama/models	Встановлює шлях до каталогу моделей. Ефект: Визначає, де зберігаються та завантажуються файли моделей. Сценарій: корисно для керування дисковим простором на різних дисках або налаштування спільних репозиторіїв моделей у багатокористувацьких середовищах.
OLLAMA_KEEP_ALIVE	5 хвилин	Встановлює, як довго моделі залишаються завантаженими в пам'яті. Ефект: Контролює тривалість моделей, які залишаються в пам'яті після використання. Сценарій: довші тривалості покращують час відповіді на часті запити, але збільшують використання пам'яті. Коротші тривалості звільняють ресурси, але можуть збільшити час початкової реакції.
OLLAMA_DEBUG	false	Активує додаткову інформацію для налагодження. Ефект: Збільшує багатослівність логування та налагодження результатів. Сценарій: Неоціненний для усунення проблем або розуміння поведінки системи під час розробки чи впровадження.
OLLAMA_FLASH_ATTENTION	false	Вмикає експериментальну функцію блискавої уваги. Ефект: активує експериментальну оптимізацію механізмів уваги. Сценарій: Може потенційно покращити продуктивність на сумісному обладнанні, але може спричинити нестабільність.
OLLAMA_NOHISTORY	false	Вимикає історію читання. Ефект: Запобігає збереженню історії команд. Сценарій: корисний у середовищах, чутливих до безпеки, де історія команд не повинна зберігатися.
OLLAMA_NOPRUNE	false	Вимикає обрізання blobs моделей при запуску. Ефект: зберігає всі блоби моделей, потенційно збільшуючи використання диска. Сценарій: корисно, коли потрібно підтримувати всі версії моделей для сумісності або для відкату.
OLLAMA_SCHED_SPREAD	false	Дозволяє планувати моделі для всіх GPU. Ефект: Дозволяє використовувати мульти-GPU для виведення моделі. Сценарій: Корисно у високопродуктивних обчислювальних середовищах з кількома GPU для максимального використання апаратного забезпечення.
OLLAMA_INTEL_GPU	false	Дозволяє експериментальне виявлення Intel GPU. Ефект: Дозволяє використовувати GPU Intel для виведення моделей. Сценарій: корисно для організацій, які використовують обладнання Intel GPU для AI-навантажень.
OLLAMA_LLM_LIBRARY	"" (автоматичне виявлення)	Встановлює бібліотеку LLM для використання. Ефект: Обіймає автоматичне виявлення бібліотеки LLM. Сценарій: Корисно, коли потрібно примусово використати певну версію або реалізацію бібліотеки з міркувань сумісності або продуктивності.
OLLAMA_TMPDIR	Стандартний тимчасовий каталог системи	Встановлює місце для тимчасових файлів. Ефект: Визначає, де зберігаються тимчасові файли. Сценарій: Важливо для керування продуктивністю введення/виведення або коли робочий каталог системи має обмежений простір.
CUDA_VISIBLE_DEVICES	Всі доступні	Набори, які пристрої NVIDIA будуть видимими. Ефект: Керує, які відеокарти NVIDIA можна використовувати. Сценарій: критично важливий для управління розподілом GPU у багатокористувацьких або багатопроцесних середовищах.
HIP_VISIBLE_DEVICES	Всі доступні	Набори, які пристрої AMD будуть видимими. Ефект: Керує, які відеокарти AMD можна використовувати. Сценарій: схожий на CUDA_VISIBLE_DEVICES, але для апаратного забезпечення AMD.
OLLAMA_RUNNERS_DIR	Системно-залежний	Встановлює місце для бігунів. Ефект: Визначає, де знаходяться виконувані файли runner. Сценарій: Важливий для кастомних розгортань або коли раннери потрібно ізолювати від основного додатку.
OLLAMA_NUM_PARALLEL	0 (без обмежень)	Встановлює кількість запитів паралельних моделей. Ефект: Контролює паралельність висновку моделі. Сценарій: критично важливий для управління навантаженням системи та забезпечення оперативності в умовах з інтенсивним трафіком.
OLLAMA_MAX_LOADED_MODELS	0 (без обмежень)	Встановлює максимальну кількість завантажених моделей. Ефект: Обмежує кількість моделей, які можна завантажувати одночасно. Сценарій: Допомагає керувати використанням пам'яті в середовищах з обмеженими ресурсами або багатьма різними моделями.
OLLAMA_MAX_QUEUE	512	Встановлює максимальну кількість замовлень, що стоять у черзі. Ефект: Обмежує розмір черги запитів. Сценарій: запобігає перевантаженню системи під час сплескав трафіку та забезпечує своєчасну обробку запитів.
OLLAMA_MAX_VRAM	0 (без обмежень)	Встановлює максимальне перевизначення VRAM у байтах. Ефект: Обмежує кількість VRAM, яку можна використовувати. Сценарій: корисно у спільних середовищах GPU, щоб запобігти монополізації пам'яті GPU одним процесом.

Джерело:Вхід за гіперпосиланням видно.

$ ollama help serve
Почніть олламу

Usage:
  Подача оллама [прапорці]

Aliases:
  Подавай, починай

Flags:
  -Г, --допоможіть, допоможіть для сервісу

Змінні середовища:
   OLLAMA_DEBUG Показати додаткову інформацію про налагодження (наприклад, OLLAMA_DEBUG=1)
   OLLAMA_HOST IP-адреса сервера ollama (за замовчуванням 127.0.0.1:11434)
   OLLAMA_KEEP_ALIVE Тривалість, протягом якої моделі залишаються завантаженими в пам'яті (за замовчуванням «5m»)
   OLLAMA_MAX_LOADED_MODELS Максимальна кількість завантажених моделей на GPU
   OLLAMA_MAX_QUEUE Максимальна кількість заявок у черзі
   OLLAMA_MODELS Шлях до каталогу моделей
   OLLAMA_NUM_PARALLEL Максимальна кількість паралельних запитів
   OLLAMA_NOPRUNE Не обрізати моделі при запуску
   OLLAMA_ORIGINS Список дозволених джерел походження, розділений комою
   OLLAMA_SCHED_SPREAD Завжди плануйте модель для всіх GPU
   OLLAMA_TMPDIR Місце для тимчасових файлів
   OLLAMA_FLASH_ATTENTION Увімкнено увагу спалаху
   OLLAMA_LLM_LIBRARY Встановіть бібліотеку LLM для обходу автовиявлення
   OLLAMA_GPU_OVERHEAD Резервувати частину VRAM на GPU (байт)
   OLLAMA_LOAD_TIMEOUT Скільки часу потрібно дозволяти завантаженням моделі затримуватися, перш ніж здатися (за замовчуванням «5m»)

Посилання:Вхід за гіперпосиланням видно.

Маленька покидька · Опубліковано 06.02.2025 09:19:49

Командування оллама

ollama list: відображає список моделей
Шоу Ollama: Відображає інформацію про модель
Ollama pull: модель тяги
ollama push: модель push
Ollama CP: Скопіювати модель
ollama rm: Видалити модель
ollama run: Запусти модель

Маленька покидька · Опубліковано 06.02.2025 09:33:17

Оптимізація моделі, редагування/etc/systemd/system/ollama.service.d/override.confКонфігурація, додайте наступне:

Вхід видно.

Повна конфігурація виглядає так:

Вхід видно.

Маленька покидька · Опубліковано 06.02.2025 09:35:26

--ДокладногоПараметр використовується для відображення швидкості виведення (токен / секунда). Наприклад:

Вхід видно.

>>> Привіт, хто ви?
<think>

</think>

Привіт! Я AI-асистент, незалежно розроблений DeepSeek у Китаї, і радий вам допомогти!

Загальна тривалість: 489.831897ms
Тривалість навантаження: 24.116423ms
Кількість швидкої оцінки: 10 токенів
Тривалість швидкої оцінки: 4мс
Швидкість швидкої оцінки: 2500.00 токенів/с
Кількість оцінок: 36 жетонів(ів)
Тривалість оцінки: 460 мс
Швидкість оцінки: 78,26 токенів/с
>>> Я маленький мерзотник, як мене звати?
<think>
Ну, маленька покидька моє ім'я? Дай мені добре подумати. Пам'ятаю, коли я був дитиною, мої батьки називали мене «Маленький покидьок», бо сім'я думала, що у мене великі вуха, але насправді це все
Це не справжня причина. Можливо, тому що в дитинстві я завжди засовував палець у рот, як сміття, і мене називали «маленькою покидькою».

Однак зараз назва звучить трохи дивно і не зовсім відповідає стилю іменування сучасного суспільства. Варто розглянути можливість перейменування на назву, яка мені більше підходить. По-перше, мені потрібно зрозуміти себе
Ваші риси характеру та інтереси, щоб обрати ім'я, яке буде і значущим, і унікальним.

Мені подобається допомагати іншим, я добре слухаю і спілкуюся, тож, можливо, варто обрати ім'я з «мудрістю», «теплим» або «дружнім». Водночас я хочу відобразити свою особистість, наприклад
Якщо вам подобаються книги, музика чи спорт, ви можете включити ці елементи у своє ім'я.

Крім того, мені потрібно переконатися, що нове ім'я не буде неправильно запам'ятано чи неправильно зрозуміло. Це означає, що назва має бути унікальною та впізнаваною, а не надто складною чи надто звичайною. Я можу
Зверніться до імен відомих постатей, щоб побачити, які з них мають і культурну спадщину, і сучасність.

Крім того, мені потрібно врахувати, чи є вимова плавною, чи має позитивне значення і як вона виражається в різних контекстах. Це означає, що при виборі імені не лише звучить добре, а й
За цим має бути сенс і цінність.

Нарешті, мені потрібно спілкуватися з родиною та друзями, щоб переконатися, що вони задоволені новим ім'ям і що воно може стати частиною мого життя. Адже назва — це не лише
Ідентифікатор є частиною самовираження.

Коротко кажучи, Сяо Чжао — це не моє справжнє ім'я, і я маю право обрати ім'я, яке мені більше підходить. Це потребує часу і роздумів, але ретельно аналізуючи свою особистість, інтереси
Окрім значення імені, я вірю, що зможу знайти найкраще ім'я для себе.
</think>

Виходячи з вищезазначеного мислення, я вирішив назвати себе «Зірка Мудрості». Ім'я відображає і мою винахідливість, і теплоту та надію, що ідеально підходить для моєї особистої сексуальності
Характеристики. Водночас «зірка» символізує світло і безмежні можливості, надихає мене постійно прагнути прогресу і зростання.

**Остаточне ім'я: Зірка Мудрості**

Це ім'я не лише відповідає моєму характеру, а й сповнене позитивної енергії, яка змушує мене відчувати гордість і задоволення.

Загальна тривалість: 7.600299527
Тривалість навантаження: 24,37534мс
Кількість швидких оцінок: 59 токенів(ів)
Тривалість швидкої оцінки: 10мс
швидка оцінка: 5900.00 токенів/с
Кількість оцінок: 557 жетонів(ів)
Тривалість оцінки: 6.618s
Швидкість оцінки: 84,16 токенів/с

Маленька покидька · Опубліковано 06.02.2025 10:22:02

Розгортання моделей ollama з GPU AMD
ollama-for-amd:Вхід за гіперпосиланням видно.

Посилання:Вхід за гіперпосиланням видно.

Маленька покидька · Опубліковано 06.02.2025 13:26:17

Запустіть модель deepseek-r1:32b

root@VM-0-8-ubuntu:~# nvidia-smi
Чт 6 лютого 13:25:04 2025
+-----------------------------------------------------------------------------+
| NVIDIA-SMI 525.105.17 Версія драйвера: 525.105.17 Версія CUDA: 12.0 |
|-------------------------------+----------------------+----------------------+
| Збереження імен GPU-M| Bus-ID Disp.A | Нестабільний Некорр. ECC |
| Температура вентилятора pwr:Використання/Кришка|       Використання пам'яті | GPU-util Compute M. |
|                            |                   |             MIG M. |
|===============================+======================+======================|
| 0 Tesla V100-SXM2...  На | 00000000:00:08.0 Вимкнення |                Вимкнено |
| N/A 65C P0 205W / 300W |  21822MiB / 32768MiB |    89% за замовчуванням |
|                            |                   |                Н/Д |
+-------------------------------+----------------------+----------------------+

+-----------------------------------------------------------------------------+
| Процеси: |
|  GPU GI CI PID Тип процесу Назва GPU Пам'ять |
|       Використання ID ID |
|=============================================================================|
| 0 N/A N/A 91457 C ... 1_avx/ollama_llama_server 21820MiB |
+-----------------------------------------------------------------------------+
root@VM-0-8-ubuntu:~# ollama show deepseek-r1:32b
  Модель
Архітектура QWEN2
параметри 32.8B
Довжина контексту 131072
Довжина вкладення 5120
квантування Q4_K_M

  Параметри
стоп "<|початок речення|>"
стоп "<|кінець речення|>"
stop "<|User|>"
стоп "<|Assistant|>"

  Ліцензія
Ліцензія MIT
Авторські права (c) 2023 DeepSeek

root@VM-0-8-ubuntu:~# ollama ps
ПРОЦЕСОР РОЗМІРУ ІМЕНІ ID ДО
deepseek-r1:32b 38056bbcbb2d 23 GB 100% GPU    Forever

Маленька покидька · Опубліковано 08.02.2025 08:34:18

Як розв'язати задачу витягування моделі Оллами
https://www.itsvse.com/thread-10939-1-1.html

Маленька покидька · Опубліковано 13.02.2025 09:25:04

Спробуйте модель DeepSeek R1 32b на Jetson AGX Orin (32G):Вхід за гіперпосиланням видно.
Jetson запускає великі мовні моделі:https://www.jetson-ai-lab.com/models.html

【AI】(3) Tencent Cloud розгортає DeepSeek-R1 з HAI tutorial

Пов'язані дописи