Ця стаття є дзеркальною статтею машинного перекладу, будь ласка, натисніть тут, щоб перейти до оригінальної статті.

Вид: 2394|Відповідь: 10

【AI】(3) Tencent Cloud розгортає DeepSeek-R1 з HAI tutorial

[Копіювати посилання]
Опубліковано 2025-2-5 21:14:04 | | | |
Hyper Application Inventor (HAI) — це продукт GPU-сервісу для штучного інтелекту та наукових обчислень, який забезпечує потужність plug-and-play обчислювальної потужності та спільні середовища для допомоги малим і середнім підприємствам і розробникам швидко впроваджувати LLM.

Адреса:Вхід за гіперпосиланням видно.

HAI проти GPU-серверів

Суттєво зменшіть поріг використання хмарних серверів GPU, оптимізуйте досвід продукту з різних боків і використовуйте його з коробки, як показано на рисунку нижче:



Придбайте обчислювальну потужність HAI

Перейдіть на сторінку покупки, виберіть образ базового середовища «Ubuntu 20.04» і налаштуйте середовище:Ubuntu 20.04, Драйвер 525.105.17, Python 3.8, CUDA 12.0, cuDNN 8Зображення вже встановило драйвер для нас, і ми вирішуємо платити по ходу, як показано на рисунку нижче:



Відеопам'ять: 32GB+
Хешрейт: 15+TFlops SP
CPU: 8~10 ядер
ОПЕРАТИВНА ПАМ'ять: 40GB

Після кількох хвилин очікування екземпляр успішно створюється, і вмикається Academic Acceleration, як показано на наступному рисунку:



Під час першого використання потрібно скинути пароль, і ім'я користувача для входу таке:Ubuntu。 Спробуйте увійти на сервер і перевірити інформацію драйвера відеокарти NVIDIA за допомогою наступної команди:


Як показано нижче:


Встановити Ollama

Офіційний сайт Ollama:Вхід за гіперпосиланням видно.

Увійдіть на сервер за допомогою інструменту замазки і почніть встановлювати інструмент Ollama за допомогою наступної команди:


Встановлення завершено, і результат виглядає так:
>>> Встановлення ollama на /usr/local
>>> Завантаження пакету Linux amd64
######################################################################## 100.0%
>>> Створення оллами користувач...
>>> Додавання користувача ollama до групи рендерингу...
>>> Додавання користувача оллами до відеогрупи...
>>> Додавання поточного користувача до групи оллама...
>>> Створення сервісу ollama systemd...
>>> Активація та запуск обслуговування оллами...
Створено символічне посилання /etc/systemd/system/default.target.wants/ollama.service → /etc/systemd/system/ollama.service.

Перегляньте команду версії: ollama -v
Дивіться модель, яка наразі завантажена в пам'ять: ollama ps

Створіть папку сховища власної моделі за допомогою наступної команди:

Змініть стандартну адресу прослуховування та шлях до зберігання моделі (ви не можете змінити порт за замовчуванням, інакше команда зазнає невдачі) і використайте такі команди:


Розгорнути модель deepseek-r1

Запустіть модель deepseek-r1:8b за допомогою наступної команди:


Як показано нижче:



Перевірте діалог, як показано нижче:



Міжмережевий екран випускає TCP-порт 11434 і викликає HTTP-інтерфейс, як показано на наступному рисунку:



{
  "Моделі": [
    {
      "name": "deepseek-r1:8b",
      "Модель": "Deepseek-R1:8B",
      "розмір": 6930032640,
      "Digest": "28f8fd6cdc677661426adab9338ce3c013d7e69a5bea9e704b364171a5d61a10",
      "details": {
        "parent_model": "",
        "format": "gguf",
        «сім'я»: «лама»,
        "Сім'ї": [
          «лама»
        ],
        "parameter_size": "8.0B",
        "quantization_level": "Q4_K_M"
      },
      "expires_at": "2025-02-05T21:14:50.715753614+08:00",
      "size_vram": 6930032640
    }
  ]
}

Посилання:
Вхід за гіперпосиланням видно.
Вхід за гіперпосиланням видно.
Вхід за гіперпосиланням видно.




Попередній:[ШІ] (2) Різниця між версіями DeepSeek-V3 і R1
Наступний:[AI] (4) Використовуйте Open WebUI для виклику моделі DeepSeek-R1
 Орендодавець| Опубліковано 2025-2-5 21:22:49 |
Якщо модель не отримує запитів або введення протягом певного часу, Ollama автоматично завершує роботу в хмарному центрі для економії ресурсів.
 Орендодавець| Опубліковано 2025-2-6 09:03:57 |
Елемент конфігурації змінної середовища Ollama

ЗмінноїЗначення за замовчуваннямОпис + Ефект + Сценарій
OLLAMA_HOST"[color=var(--fgКолір-акцент, var(--колір-акцент-fg))]Вхід за гіперпосиланням видно."Налаштовує хост і схему сервера Ollama. Ефект: Визначає URL, що використовується для підключення до сервера Ollama. Сценарій: корисний при розгортанні Ollama у розподіленому середовищі або коли потрібно розмістити сервіс на конкретному мережевому інтерфейсі.
OLLAMA_ORIGINS[localhost, 127.0.0.1, 0.0.0.0] + app://, file://, tauri://Налаштування дозволяли походження для CORS. Ефект: Контролює, яким джерелам дозволено робити запити до сервера Ollama. Сценарій: критично важливо при інтеграції Ollama з веб-додатками для запобігання несанкціонованому доступу з різних доменів.
OLLAMA_MODELS$HOME/.ollama/modelsВстановлює шлях до каталогу моделей. Ефект: Визначає, де зберігаються та завантажуються файли моделей. Сценарій: корисно для керування дисковим простором на різних дисках або налаштування спільних репозиторіїв моделей у багатокористувацьких середовищах.
OLLAMA_KEEP_ALIVE5 хвилинВстановлює, як довго моделі залишаються завантаженими в пам'яті. Ефект: Контролює тривалість моделей, які залишаються в пам'яті після використання. Сценарій: довші тривалості покращують час відповіді на часті запити, але збільшують використання пам'яті. Коротші тривалості звільняють ресурси, але можуть збільшити час початкової реакції.
OLLAMA_DEBUGfalseАктивує додаткову інформацію для налагодження. Ефект: Збільшує багатослівність логування та налагодження результатів. Сценарій: Неоціненний для усунення проблем або розуміння поведінки системи під час розробки чи впровадження.
OLLAMA_FLASH_ATTENTIONfalseВмикає експериментальну функцію блискавої уваги. Ефект: активує експериментальну оптимізацію механізмів уваги. Сценарій: Може потенційно покращити продуктивність на сумісному обладнанні, але може спричинити нестабільність.
OLLAMA_NOHISTORYfalseВимикає історію читання. Ефект: Запобігає збереженню історії команд. Сценарій: корисний у середовищах, чутливих до безпеки, де історія команд не повинна зберігатися.
OLLAMA_NOPRUNEfalseВимикає обрізання blobs моделей при запуску. Ефект: зберігає всі блоби моделей, потенційно збільшуючи використання диска. Сценарій: корисно, коли потрібно підтримувати всі версії моделей для сумісності або для відкату.
OLLAMA_SCHED_SPREADfalseДозволяє планувати моделі для всіх GPU. Ефект: Дозволяє використовувати мульти-GPU для виведення моделі. Сценарій: Корисно у високопродуктивних обчислювальних середовищах з кількома GPU для максимального використання апаратного забезпечення.
OLLAMA_INTEL_GPUfalseДозволяє експериментальне виявлення Intel GPU. Ефект: Дозволяє використовувати GPU Intel для виведення моделей. Сценарій: корисно для організацій, які використовують обладнання Intel GPU для AI-навантажень.
OLLAMA_LLM_LIBRARY"" (автоматичне виявлення)Встановлює бібліотеку LLM для використання. Ефект: Обіймає автоматичне виявлення бібліотеки LLM. Сценарій: Корисно, коли потрібно примусово використати певну версію або реалізацію бібліотеки з міркувань сумісності або продуктивності.
OLLAMA_TMPDIRСтандартний тимчасовий каталог системиВстановлює місце для тимчасових файлів. Ефект: Визначає, де зберігаються тимчасові файли. Сценарій: Важливо для керування продуктивністю введення/виведення або коли робочий каталог системи має обмежений простір.
CUDA_VISIBLE_DEVICESВсі доступніНабори, які пристрої NVIDIA будуть видимими. Ефект: Керує, які відеокарти NVIDIA можна використовувати. Сценарій: критично важливий для управління розподілом GPU у багатокористувацьких або багатопроцесних середовищах.
HIP_VISIBLE_DEVICESВсі доступніНабори, які пристрої AMD будуть видимими. Ефект: Керує, які відеокарти AMD можна використовувати. Сценарій: схожий на CUDA_VISIBLE_DEVICES, але для апаратного забезпечення AMD.
OLLAMA_RUNNERS_DIRСистемно-залежнийВстановлює місце для бігунів. Ефект: Визначає, де знаходяться виконувані файли runner. Сценарій: Важливий для кастомних розгортань або коли раннери потрібно ізолювати від основного додатку.
OLLAMA_NUM_PARALLEL0 (без обмежень)Встановлює кількість запитів паралельних моделей. Ефект: Контролює паралельність висновку моделі. Сценарій: критично важливий для управління навантаженням системи та забезпечення оперативності в умовах з інтенсивним трафіком.
OLLAMA_MAX_LOADED_MODELS0 (без обмежень)Встановлює максимальну кількість завантажених моделей. Ефект: Обмежує кількість моделей, які можна завантажувати одночасно. Сценарій: Допомагає керувати використанням пам'яті в середовищах з обмеженими ресурсами або багатьма різними моделями.
OLLAMA_MAX_QUEUE512Встановлює максимальну кількість замовлень, що стоять у черзі. Ефект: Обмежує розмір черги запитів. Сценарій: запобігає перевантаженню системи під час сплескав трафіку та забезпечує своєчасну обробку запитів.
OLLAMA_MAX_VRAM0 (без обмежень)Встановлює максимальне перевизначення VRAM у байтах. Ефект: Обмежує кількість VRAM, яку можна використовувати. Сценарій: корисно у спільних середовищах GPU, щоб запобігти монополізації пам'яті GPU одним процесом.


Джерело:Вхід за гіперпосиланням видно.

$ ollama help serve
Почніть олламу

Usage:
  Подача оллама [прапорці]

Aliases:
  Подавай, починай

Flags:
  -Г, --допоможіть, допоможіть для сервісу

Змінні середовища:
      OLLAMA_DEBUG Показати додаткову інформацію про налагодження (наприклад, OLLAMA_DEBUG=1)
      OLLAMA_HOST IP-адреса сервера ollama (за замовчуванням 127.0.0.1:11434)
      OLLAMA_KEEP_ALIVE Тривалість, протягом якої моделі залишаються завантаженими в пам'яті (за замовчуванням «5m»)
      OLLAMA_MAX_LOADED_MODELS Максимальна кількість завантажених моделей на GPU
      OLLAMA_MAX_QUEUE Максимальна кількість заявок у черзі
      OLLAMA_MODELS Шлях до каталогу моделей
      OLLAMA_NUM_PARALLEL Максимальна кількість паралельних запитів
      OLLAMA_NOPRUNE Не обрізати моделі при запуску
      OLLAMA_ORIGINS Список дозволених джерел походження, розділений комою
      OLLAMA_SCHED_SPREAD Завжди плануйте модель для всіх GPU
      OLLAMA_TMPDIR Місце для тимчасових файлів
      OLLAMA_FLASH_ATTENTION Увімкнено увагу спалаху
      OLLAMA_LLM_LIBRARY Встановіть бібліотеку LLM для обходу автовиявлення
      OLLAMA_GPU_OVERHEAD Резервувати частину VRAM на GPU (байт)
      OLLAMA_LOAD_TIMEOUT Скільки часу потрібно дозволяти завантаженням моделі затримуватися, перш ніж здатися (за замовчуванням «5m»)


Посилання:Вхід за гіперпосиланням видно.
 Орендодавець| Опубліковано 2025-2-6 09:19:49 |
Командування оллама

ollama list: відображає список моделей
Шоу Ollama: Відображає інформацію про модель
Ollama pull: модель тяги
ollama push: модель push
Ollama CP: Скопіювати модель
ollama rm: Видалити модель
ollama run: Запусти модель
 Орендодавець| Опубліковано 2025-2-6 09:33:17 |
Оптимізація моделі, редагування/etc/systemd/system/ollama.service.d/override.confКонфігурація, додайте наступне:


Повна конфігурація виглядає так:



 Орендодавець| Опубліковано 2025-2-6 09:35:26 |
--ДокладногоПараметр використовується для відображення швидкості виведення (токен / секунда). Наприклад:

>>> Привіт, хто ви?
<think>

</think>

Привіт! Я AI-асистент, незалежно розроблений DeepSeek у Китаї, і радий вам допомогти!

Загальна тривалість: 489.831897ms
Тривалість навантаження: 24.116423ms
Кількість швидкої оцінки: 10 токенів
Тривалість швидкої оцінки: 4мс
Швидкість швидкої оцінки: 2500.00 токенів/с
Кількість оцінок: 36 жетонів(ів)
Тривалість оцінки: 460 мс
Швидкість оцінки: 78,26 токенів/с
>>> Я маленький мерзотник, як мене звати?
<think>
Ну, маленька покидька моє ім'я? Дай мені добре подумати. Пам'ятаю, коли я був дитиною, мої батьки називали мене «Маленький покидьок», бо сім'я думала, що у мене великі вуха, але насправді це все
Це не справжня причина. Можливо, тому що в дитинстві я завжди засовував палець у рот, як сміття, і мене називали «маленькою покидькою».

Однак зараз назва звучить трохи дивно і не зовсім відповідає стилю іменування сучасного суспільства. Варто розглянути можливість перейменування на назву, яка мені більше підходить. По-перше, мені потрібно зрозуміти себе
Ваші риси характеру та інтереси, щоб обрати ім'я, яке буде і значущим, і унікальним.

Мені подобається допомагати іншим, я добре слухаю і спілкуюся, тож, можливо, варто обрати ім'я з «мудрістю», «теплим» або «дружнім». Водночас я хочу відобразити свою особистість, наприклад
Якщо вам подобаються книги, музика чи спорт, ви можете включити ці елементи у своє ім'я.

Крім того, мені потрібно переконатися, що нове ім'я не буде неправильно запам'ятано чи неправильно зрозуміло. Це означає, що назва має бути унікальною та впізнаваною, а не надто складною чи надто звичайною. Я можу
Зверніться до імен відомих постатей, щоб побачити, які з них мають і культурну спадщину, і сучасність.

Крім того, мені потрібно врахувати, чи є вимова плавною, чи має позитивне значення і як вона виражається в різних контекстах. Це означає, що при виборі імені не лише звучить добре, а й
За цим має бути сенс і цінність.

Нарешті, мені потрібно спілкуватися з родиною та друзями, щоб переконатися, що вони задоволені новим ім'ям і що воно може стати частиною мого життя. Адже назва — це не лише
Ідентифікатор є частиною самовираження.

Коротко кажучи, Сяо Чжао — це не моє справжнє ім'я, і я маю право обрати ім'я, яке мені більше підходить. Це потребує часу і роздумів, але ретельно аналізуючи свою особистість, інтереси
Окрім значення імені, я вірю, що зможу знайти найкраще ім'я для себе.
</think>

Виходячи з вищезазначеного мислення, я вирішив назвати себе «Зірка Мудрості». Ім'я відображає і мою винахідливість, і теплоту та надію, що ідеально підходить для моєї особистої сексуальності
Характеристики. Водночас «зірка» символізує світло і безмежні можливості, надихає мене постійно прагнути прогресу і зростання.

**Остаточне ім'я: Зірка Мудрості**

Це ім'я не лише відповідає моєму характеру, а й сповнене позитивної енергії, яка змушує мене відчувати гордість і задоволення.

Загальна тривалість: 7.600299527
Тривалість навантаження: 24,37534мс
Кількість швидких оцінок: 59 токенів(ів)
Тривалість швидкої оцінки: 10мс
швидка оцінка: 5900.00 токенів/с
Кількість оцінок: 557 жетонів(ів)
Тривалість оцінки: 6.618s
Швидкість оцінки: 84,16 токенів/с

 Орендодавець| Опубліковано 2025-2-6 10:22:02 |
Розгортання моделей ollama з GPU AMD
ollama-for-amd:Вхід за гіперпосиланням видно.

Посилання:Вхід за гіперпосиланням видно.
 Орендодавець| Опубліковано 2025-2-6 13:26:17 |
Запустіть модель deepseek-r1:32b




root@VM-0-8-ubuntu:~# nvidia-smi
Чт 6 лютого 13:25:04 2025
+-----------------------------------------------------------------------------+
| NVIDIA-SMI 525.105.17 Версія драйвера: 525.105.17 Версія CUDA: 12.0 |
|-------------------------------+----------------------+----------------------+
| Збереження імен GPU-M| Bus-ID Disp.A | Нестабільний Некорр. ECC |
| Температура вентилятора pwr:Використання/Кришка|         Використання пам'яті | GPU-util Compute M. |
|                               |                      |               MIG M. |
|===============================+======================+======================|
|   0 Tesla V100-SXM2...  На | 00000000:00:08.0 Вимкнення |                  Вимкнено |
| N/A 65C P0 205W / 300W |  21822MiB / 32768MiB |     89% за замовчуванням |
|                               |                      |                  Н/Д |
+-------------------------------+----------------------+----------------------+

+-----------------------------------------------------------------------------+
| Процеси: |
|  GPU GI CI PID Тип процесу Назва GPU Пам'ять |
|        Використання ID ID |
|=============================================================================|
|    0 N/A N/A 91457 C ... 1_avx/ollama_llama_server 21820MiB |
+-----------------------------------------------------------------------------+
root@VM-0-8-ubuntu:~# ollama show deepseek-r1:32b
  Модель
    Архітектура QWEN2
    параметри 32.8B
    Довжина контексту 131072
    Довжина вкладення 5120
    квантування Q4_K_M

  Параметри
    стоп "<|початок речення|>"
    стоп "<|кінець речення|>"
    stop "<|User|>"
    стоп "<|Assistant|>"

  Ліцензія
    Ліцензія MIT
    Авторські права (c) 2023 DeepSeek

root@VM-0-8-ubuntu:~# ollama ps
ПРОЦЕСОР РОЗМІРУ ІМЕНІ ID ДО
deepseek-r1:32b    38056bbcbb2d    23 GB    100% GPU     Forever


 Орендодавець| Опубліковано 2025-2-8 08:34:18 |
Як розв'язати задачу витягування моделі Оллами
https://www.itsvse.com/thread-10939-1-1.html
 Орендодавець| Опубліковано 2025-2-13 09:25:04 |
Спробуйте модель DeepSeek R1 32b на Jetson AGX Orin (32G):Вхід за гіперпосиланням видно.
Jetson запускає великі мовні моделі:https://www.jetson-ai-lab.com/models.html

Застереження:
Усе програмне забезпечення, програмні матеріали або статті, опубліковані Code Farmer Network, призначені лише для навчання та досліджень; Вищезазначений контент не повинен використовуватися в комерційних чи незаконних цілях, інакше користувачі несуть усі наслідки. Інформація на цьому сайті надходить з Інтернету, і спори щодо авторських прав не мають до цього сайту. Ви повинні повністю видалити вищезазначений контент зі свого комп'ютера протягом 24 годин після завантаження. Якщо вам подобається програма, будь ласка, підтримуйте справжнє програмне забезпечення, купуйте реєстрацію та отримайте кращі справжні послуги. Якщо є будь-яке порушення, будь ласка, зв'яжіться з нами електронною поштою.

Mail To:help@itsvse.com