【AI】(3) Tencent Cloud развёртает DeepSeek-R1 с обучанием по HAI

Маленькая мразь · Опубликовано 05.02.2025 21:14:04

Hyper Application Inventor (HAI) — это сервис приложений на основе GPU для искусственного интеллекта и научных вычислений, предоставляющий вычислительные мощности plug-and-play и общие среды, помогающие малым и средним предприятиям и разработчикам быстро внедрять LLM.

Адрес:Вход по гиперссылке виден.

HAI против GPU-серверов

Значительно снизить порог использования облачных серверов GPU, оптимизировать опыт продукта с разных точек зрения и использовать его из коробки, как показано на рисунке ниже:

Приобрести вычислительные мощности HAI

Перейдите на страницу покупки, выберите образ базовой среды «Ubuntu 20.04» и настройте окружение:Ubuntu 20.04, драйвер 525.105.17, Python 3.8, CUDA 12.0, cuDNN 8Изображение уже установило драйвер для нас, и мы решаем платить по ходу дела, как показано на рисунке ниже:

Видеопамять: 32GB+
Хешрейт: 15+TFlops SP
CPU: 8~10 ядер
ОЗУ: 40 ГБ

После нескольких минут ожидания экземпляр успешно создаётся и включает Academic Acceleration, как показано на следующем рисунке:

При первом использовании нужно сбросить пароль, и имя пользователя для входа выглядит так:Ubuntu。 Попробуйте войти на сервер и проверить информацию о драйвере видеокарты NVIDIA с помощью следующей команды:

Вход виден.

Как показано ниже:

Установка Ollama

Официальный сайт Ollama:Вход по гиперссылке виден.

Войдите на сервер с помощью инструмента замазки и начните устанавливать инструмент Ollama с помощью следующей команды:

Вход виден.

Установка завершена, и результат следующий:

>>> Установка ollama в /usr/local
>>> Скачивание пакета Linux amd64
######################################################################## 100.0%
>>> Создающий олламу пользователя...
>>> Добавление пользователя ollama в группу рендеринга...
>>> Добавление пользователя ollama в видеогруппу...
>>> Добавление текущего пользователя в группу оллам...
>>> Создание сервиса ollama systemd...
>>> Включение и запуск сервиса олламы...
Создал символическую ссылку /etc/systemd/system/default.target.wants/ollama.service → /etc/systemd/system/ollama.service.

Посмотрите команду версии: ollama -v
Смотрите модель, которая сейчас загружается в память: ollama ps

Создайте пользовательскую папку хранения моделей с помощью следующей команды:

Вход виден.

Измените стандартный адрес прослушивания и путь хранения модели (вы не можете изменить стандартный порт, иначе команда не сработает) и используйте следующие команды:

Вход виден.

Развернуть модель deepseek-r1

Запустите модель deepseek-r1:8b с помощью следующей команды:

Вход виден.

Как показано ниже:

Проверьте диалог, как показано ниже:

Межсетевой экран выпускает TCP-порт 11434 и вызывает HTTP-интерфейс, как показано на следующем рисунке:

{
  «модели»: [
{
   "name": "deepseek-r1:8b",
   «Модель»: «Deepseek-R1:8B»,
   «размер»: 6930032640,
   "дайджест": "28f8fd6cdc677661426adab9338ce3c013d7e69a5bea9e704b364171a5d61a10",
   "details": {
      "parent_model": "",
      "format": "gguf",
      «семья»: «лама»,
      «семьи»: [
      «Лама»
      ],
      "parameter_size": "8.0B",
      "quantization_level": "Q4_K_M"
   },
   "expires_at": "2025-02-05T21:14:50.715753614+08:00",
   "size_vram": 6930032640
}
  ]
}

Ссылка:
Вход по гиперссылке виден.
Вход по гиперссылке виден.
Вход по гиперссылке виден.

Маленькая мразь · Опубликовано 05.02.2025 21:22:49

Если модель не получает запросов или входных данных в течение определённого времени, Ollama автоматически завершает работу в облачном центре для экономии ресурсов.

Маленькая мразь · Опубликовано 06.02.2025 9:03:57

Конфигурационный элемент переменной среды Ollama

Переменная	Значение по умолчанию	Описание + Эффект + Сценарий
OLLAMA_HOST	"[color=var(--fgЦвет-акцент, var(--цвет-акцент-fg))]Вход по гиперссылке виден."	Настраивает хост и схему сервера Ollama. Эффект: Определяет URL, используемый для подключения к серверу Ollama. Сценарий: Полезно при развертывании Ollama в распределённой среде или при необходимости разместить сервис на конкретном сетевом интерфейсе.
OLLAMA_ORIGINS	[localhost, 127.0.0.1, 0.0.0.0] + app://, file://, tauri://	Настройки позволили получить происхождение для CORS. Эффект: Контролирует, каким источникам разрешено делать запросы серверу Ollama. Сценарий: критически важен при интеграции Ollama с веб-приложениями для предотвращения несанкционированного доступа из разных доменов.
OLLAMA_MODELS	$HOME/.ollama/models	Задаёт путь к каталогу моделей. Эффект: Определяет, где хранятся и загружаются файлы моделей. Сценарий: полезен для управления дисковым пространством на разных дисках или настройки общих репозиториев моделей в многопользовательских средах.
OLLAMA_KEEP_ALIVE	5 минут	Устанавливает, как долго модели оставаются загруженными в памяти. Эффект: Контролирует, чтобы модели длительности оставались в памяти после использования. Сценарий: Более длинные периоды увеличивают время ответа на частые запросы, но увеличивают использование памяти. Короткие сроки освобождают ресурсы, но могут увеличить время первоначального ответа.
OLLAMA_DEBUG	false	Включает дополнительную отладочную информацию. Эффект: Увеличивает многословность логирования и отладки. Сценарий: Бесценно для устранения неполадок или понимания поведения системы во время разработки или развертывания.
OLLAMA_FLASH_ATTENTION	false	Активируется функция экспериментального вспышки внимания. Эффект: Активирует экспериментальную оптимизацию механизмов внимания. Сценарий: может потенциально повысить производительность на совместимом оборудовании, но вызвать нестабильность.
OLLAMA_NOHISTORY	false	Отключает историю чтения строк. Эффект: Препятствует сохранению истории команд. Сценарий: Полезно в средах, чувствительных к безопасности, где история команд не должна сохраняться.
OLLAMA_NOPRUNE	false	Отключает обрезку blob моделей при запуске. Эффект: Сохраняет все blob-и моделей, что потенциально увеличивает использование диска. Сценарий: полезен, когда нужно поддерживать все версии моделей для совместимости или отката.
OLLAMA_SCHED_SPREAD	false	Позволяет планировать модели на всех GPU. Эффект: Позволяет использовать мульти-GPU для вывода моделей. Сценарий: Полезно в высокопроизводительных вычислительных средах с несколькими GPU для максимального использования аппаратного обеспечения.
OLLAMA_INTEL_GPU	false	Позволяет экспериментальное обнаружение GPU Intel. Эффект: Позволяет использовать GPU Intel для вывода моделей. Сценарий: Полезно для организаций, использующих оборудование Intel GPU для ИИ-нагрузок.
OLLAMA_LLM_LIBRARY	"" (автоопределение)	Устанавливает библиотеку LLM для использования. Эффект: Переопределяет автоматическое обнаружение библиотеки LLM. Сценарий: полезен, когда нужно принудительно использовать конкретную версию или реализацию библиотеки по совместимости или производительности.
OLLAMA_TMPDIR	Стандартный временный каталог системы	Устанавливает место для временных файлов. Эффект: Определяет, где хранятся временные файлы. Сценарий: важен для управления производительностью ввода-вывода или когда временный каталог системы ограничен пространством.
CUDA_VISIBLE_DEVICES	Все доступны	Наборы, какие устройства NVIDIA будут видимы. Эффект: Управляет, какие видеокарты NVIDIA можно использовать. Сценарий: критически важен для управления распределением GPU в многопользовательских или многопроцессных средах.
HIP_VISIBLE_DEVICES	Все доступны	Наборы, какие устройства AMD будут видимы. Эффект: Определяет, какие видеокарты AMD можно использовать. Сценарий: похоже на CUDA_VISIBLE_DEVICES, но для аппаратного обеспечения AMD.
OLLAMA_RUNNERS_DIR	Зависимый от системы	Это задаёт место для бегунов. Эффект: Определяет, где расположены выполняемые файлы-бегущие. Сценарий: важен для пользовательских развертываний или когда раннеры нужно изолировать от основного приложения.
OLLAMA_NUM_PARALLEL	0 (без ограничений)	Устанавливает количество запросов параллельных моделей. Эффект: Контролирует параллелизм вывода моделей. Сценарий: критически важен для управления нагрузкой на систему и обеспечения оперативной реакции в условиях интенсивного трафика.
OLLAMA_MAX_LOADED_MODELS	0 (без ограничений)	Устанавливает максимальное количество загруженных моделей. Эффект: Ограничивает количество моделей, которые можно загружать одновременно. Сценарий: Помогает управлять использованием памяти в условиях ограниченных ресурсов или множества различных моделей.
OLLAMA_MAX_QUEUE	512	Устанавливает максимальное количество очередей запросов. Эффект: Ограничивает размер очереди запросов. Сценарий: предотвращает перегрузку системы во время всплеска трафика и обеспечивает своевременную обработку запросов.
OLLAMA_MAX_VRAM	0 (без ограничений)	Устанавливает максимальное переопределение VRAM в байтах. Эффект: Ограничивает количество VRAM, которое можно использовать. Сценарий: Полезно в общих GPU-средах, чтобы предотвратить монополизацию памяти GPU одним процессом.

Источник:Вход по гиперссылке виден.

$ ollama help serve
Начинайте олламу

Usage:
  Подача оллама [флаги]

Aliases:
  Подавай, начинай

Flags:
  -Х, --помоги Серву

Переменные среды:
   OLLAMA_DEBUG Показать дополнительную отладочную информацию (например, OLLAMA_DEBUG=1)
   OLLAMA_HOST IP-адрес сервера ollama (по умолчанию 127.0.0.1:11434)
   OLLAMA_KEEP_ALIVE Длительность загрузки моделей в памяти (по умолчанию «5м»)
   OLLAMA_MAX_LOADED_MODELS Максимальное количество загруженных моделей на одну видеокарту
   OLLAMA_MAX_QUEUE Максимальное количество очередей запросов
   OLLAMA_MODELS Путь к каталогу моделей
   OLLAMA_NUM_PARALLEL Максимальное количество параллельных запросов
   OLLAMA_NOPRUNE Не обрезайте скопления моделей при запуске
   OLLAMA_ORIGINS Список разрешённых происхождений с разделённой запятой
   OLLAMA_SCHED_SPREAD Всегда планируйте модель для всех GPU
   OLLAMA_TMPDIR Местоположение временных файлов
   OLLAMA_FLASH_ATTENTION Включено внимание с вспышки
   OLLAMA_LLM_LIBRARY Настройте библиотеку LLM для обхода автоопределения
   OLLAMA_GPU_OVERHEAD Зарезервировать часть VRAM на GPU (байты)
   OLLAMA_LOAD_TIMEOUT Сколько времени нужно позволять загрузке моделей задерживаться перед тем, как сдаться (по умолчанию «5 м»))

Ссылка:Вход по гиперссылке виден.

Маленькая мразь · Опубликовано 06.02.2025 9:19:49

Командование оллама

ollama list: отображает список моделей
Шоу Ollama: отображает информацию о модели
Ollama Pull: Модель Pull
ollama push: модель push
Ollama CP: скопировать модель
ollama rm: Удалить модель
ollama run: Запустите модель

Маленькая мразь · Опубликовано 06.02.2025 9:33:17

Оптимизация моделей, редактирование/etc/systemd/system/ollama.service.d/override.confКонфигурация, добавьте следующее:

Вход виден.

Полная конфигурация выглядит следующим образом:

Вход виден.

Маленькая мразь · Опубликовано 06.02.2025 9:35:26

--многословныйПараметр используется для отображения скорости вывода (токен / секунда). Например:

Вход виден.

>>> Здравствуйте, кто вы?
<think>

</think>

Привет! Я ассистент по искусственному интеллекту, независимо разработанный компанией DeepSeek в Китае, и рад вам помочь!

общая продолжительность: 489.831897мс
Длительность нагрузки: 24,116423мс
Количество примеров Prompt Evaluatal: 10 токенов
Длительность оценки prompt: 4 мс
Скорость быстрой оценки: 2500.00 токенов/с
Количество оценок: 36 жетонов(ов)
Длительность оценки: 460 мс
Коэффициент оценки: 78,26 токенов/с
>>> я маленький мерзавец, как меня зовут?
<think>
Ну, маленькая мразь моё имя? Дайте мне хорошенько подумать. Помню, когда я был ребёнком, родители называли меня «Маленький мерзавец», потому что семья думала, что у меня большие уши, но на самом деле всё
Не настоящая причина. Может быть, потому что в детстве я всегда засовывал палец во рту, как мусор, и меня называли «маленькой мразью».

Однако сейчас название звучит немного странно и не совсем соответствует стилю названия современного общества. Стоит подумать о том, чтобы переименовать его на имя, которое мне больше подходит. Во-первых, мне нужно понять себя
Ваши черты характера и интересы, чтобы вы могли выбрать имя, которое будет одновременно значимым и уникальным.

Мне нравится помогать другим, я хорошо слушаю и общаюсь, так что, возможно, стоит выбрать имя с «мудростью», «тёплым» или «дружелюбным». В то же время я хочу отражать свою личность, например,
Если вы любите книги, музыку или спорт, вы можете включить эти элементы в своё имя.

Кроме того, мне нужно убедиться, что новое имя не будет неправильно запомнено или неправильно понято. Это значит, что имя должно быть уникальным и узнаваемым, а не слишком сложным или слишком обыденным. Я могу
Обратитесь к именам известных личностей, чтобы узнать, какие из них имеют и культурное наследие, и современность.

Кроме того, мне нужно учитывать, насколько произношение гладкое, есть ли положительный смысл и как оно выражается в разных контекстах. Это значит, что при выборе имени не только звучит хорошо, но и
За этим должен быть смысл и ценность.

Наконец, мне нужно общаться с семьёй и друзьями, чтобы убедиться, что они довольны новым именем и что имя может стать частью моей жизни. В конце концов, имя — это не только
Идентификатор — часть самовыражения.

Короче говоря, Сяо Чжао — не моё настоящее имя, и я имею право выбрать имя, которое мне больше подходит. Это требует времени и размышлений, но при тщательном анализе вашей личности и интересов
Помимо значения имени, я верю, что смогу найти для себя самое подходящее имя.
</think>

Исходя из вышеописанного подхода, я решил назвать себя «Звезда Мудрости». Имя отражает и мою изобретательность, тепло и надежду, что идеально подходит для моей личной сексуальности
Характеристики. В то же время «звезда» символизирует свет и бесконечные возможности, вдохновляя меня постоянно стремиться к прогрессу и росту.

**Окончательное имя: Звезда Мудрости**

Это имя не только соответствует моему характеру, но и наполнено позитивной энергией, которая заставляет меня гордиться и чувствовать удовлетворение.

общая продолжительность: 7.600299527 с
Длительность загрузки: 24,37534мс
Количество быстрых оценок: 59 токенов
Длительность оценки prompt: 10 мс
Скорость оценки запросов: 5900.00 токенов/с
Количество оценок: 557 жетонов(ов)
Продолжительность оценки: 6,618 с
Коэффициент оценки: 84,16 токенов/с

Маленькая мразь · Опубликовано 06.02.2025 10:22:02

Развернуть модели ollama с AMD-GPU
ollama-for-amd:Вход по гиперссылке виден.

Ссылка:Вход по гиперссылке виден.

Маленькая мразь · Опубликовано 06.02.2025 13:26:17

Запустите модель deepseek-r1:32b

root@VM-0-8-ubuntu:~# nvidia-smi
Чт 6 фев 13:25:04 2025
+-----------------------------------------------------------------------------+
| NVIDIA-SMI 525.105.17 Версия драйвера: 525.105.17 Версия CUDA: 12.0 |
|-------------------------------+----------------------+----------------------+
| Сохранение имени GPU-M| Bus-ID Disp.A | Нестабильный Разбор. ECC |
| Производительность температуры вентилятора Pwr:Использование/Конденсатор|       Использование памяти | GPU-util Compute M. |
|                            |                   |             MIG M. |
|===============================+======================+======================|
| 0 Tesla V100-SXM2...  На | 0000000:00:08.0 Выключено |                Выключено |
| N/A 65C P0 205W / 300W |  21822MiB / 32768MiB |    89% по умолчанию |
|                            |                   |                Н/Д |
+-------------------------------+----------------------+----------------------+

+-----------------------------------------------------------------------------+
| Процессы: |
|  GPU GI CI PID Тип процесса Имя процесса GPU Память |
|       Использование ID ID |
|=============================================================================|
| 0 N/A N/A 91457 C ... 1_avx/ollama_llama_server 21820MiB |
+-----------------------------------------------------------------------------+
root@VM-0-8-ubuntu:~# ollama show deepseek-r1:32b
  Модель
Архитектура QWEN2
параметры 32.8B
Длина контекста 131072
Длина вложения 5120
Квантование Q4_K_M

  Параметры
Стоп "<|начало предложения|>"
стоп "<|конец предложения|>"
stop "<|User|>"
стоп "<|Ассистент|>"

  Лицензия
Лицензия MIT
Авторские права (c) 2023 DeepSeek

root@VM-0-8-ubuntu:~# ollama ps
ИМЯ ИДЕНТИФИКАТОРА РАЗМЕРА ПРОЦЕССОРА ДО
deepseek-r1:32b 38056bbcbb2d 23 GB 100% GPU    Forever

Маленькая мразь · Опубликовано 08.02.2025 8:34:18

Как решить задачу вытягивания модели Олламы
https://www.itsvse.com/thread-10939-1-1.html

Маленькая мразь · Опубликовано 13.02.2025 9:25:04

Попробуйте модель DeepSeek R1 32b на Jetson AGX Orin (32G):Вход по гиперссылке виден.
Jetson запускает крупные языковые модели:https://www.jetson-ai-lab.com/models.html

【AI】(3) Tencent Cloud развёртает DeepSeek-R1 с обучанием по HAI

Связанные публикации