Эта статья является зеркальной статьёй машинного перевода, пожалуйста, нажмите здесь, чтобы перейти к оригиналу.

Вид: 2394|Ответ: 10

【AI】(3) Tencent Cloud развёртает DeepSeek-R1 с обучанием по HAI

[Скопировать ссылку]
Опубликовано 2025-2-5 21:14:04 | | | |
Hyper Application Inventor (HAI) — это сервис приложений на основе GPU для искусственного интеллекта и научных вычислений, предоставляющий вычислительные мощности plug-and-play и общие среды, помогающие малым и средним предприятиям и разработчикам быстро внедрять LLM.

Адрес:Вход по гиперссылке виден.

HAI против GPU-серверов

Значительно снизить порог использования облачных серверов GPU, оптимизировать опыт продукта с разных точек зрения и использовать его из коробки, как показано на рисунке ниже:



Приобрести вычислительные мощности HAI

Перейдите на страницу покупки, выберите образ базовой среды «Ubuntu 20.04» и настройте окружение:Ubuntu 20.04, драйвер 525.105.17, Python 3.8, CUDA 12.0, cuDNN 8Изображение уже установило драйвер для нас, и мы решаем платить по ходу дела, как показано на рисунке ниже:



Видеопамять: 32GB+
Хешрейт: 15+TFlops SP
CPU: 8~10 ядер
ОЗУ: 40 ГБ

После нескольких минут ожидания экземпляр успешно создаётся и включает Academic Acceleration, как показано на следующем рисунке:



При первом использовании нужно сбросить пароль, и имя пользователя для входа выглядит так:Ubuntu。 Попробуйте войти на сервер и проверить информацию о драйвере видеокарты NVIDIA с помощью следующей команды:


Как показано ниже:


Установка Ollama

Официальный сайт Ollama:Вход по гиперссылке виден.

Войдите на сервер с помощью инструмента замазки и начните устанавливать инструмент Ollama с помощью следующей команды:


Установка завершена, и результат следующий:
>>> Установка ollama в /usr/local
>>> Скачивание пакета Linux amd64
######################################################################## 100.0%
>>> Создающий олламу пользователя...
>>> Добавление пользователя ollama в группу рендеринга...
>>> Добавление пользователя ollama в видеогруппу...
>>> Добавление текущего пользователя в группу оллам...
>>> Создание сервиса ollama systemd...
>>> Включение и запуск сервиса олламы...
Создал символическую ссылку /etc/systemd/system/default.target.wants/ollama.service → /etc/systemd/system/ollama.service.

Посмотрите команду версии: ollama -v
Смотрите модель, которая сейчас загружается в память: ollama ps

Создайте пользовательскую папку хранения моделей с помощью следующей команды:

Измените стандартный адрес прослушивания и путь хранения модели (вы не можете изменить стандартный порт, иначе команда не сработает) и используйте следующие команды:


Развернуть модель deepseek-r1

Запустите модель deepseek-r1:8b с помощью следующей команды:


Как показано ниже:



Проверьте диалог, как показано ниже:



Межсетевой экран выпускает TCP-порт 11434 и вызывает HTTP-интерфейс, как показано на следующем рисунке:



{
  «модели»: [
    {
      "name": "deepseek-r1:8b",
      «Модель»: «Deepseek-R1:8B»,
      «размер»: 6930032640,
      "дайджест": "28f8fd6cdc677661426adab9338ce3c013d7e69a5bea9e704b364171a5d61a10",
      "details": {
        "parent_model": "",
        "format": "gguf",
        «семья»: «лама»,
        «семьи»: [
          «Лама»
        ],
        "parameter_size": "8.0B",
        "quantization_level": "Q4_K_M"
      },
      "expires_at": "2025-02-05T21:14:50.715753614+08:00",
      "size_vram": 6930032640
    }
  ]
}

Ссылка:
Вход по гиперссылке виден.
Вход по гиперссылке виден.
Вход по гиперссылке виден.




Предыдущий:[ИИ] (2) Разница между версиями DeepSeek-V3 и R1
Следующий:[AI] (4) Используйте Open WebUI для вызова модели DeepSeek-R1
 Хозяин| Опубликовано 2025-2-5 21:22:49 |
Если модель не получает запросов или входных данных в течение определённого времени, Ollama автоматически завершает работу в облачном центре для экономии ресурсов.
 Хозяин| Опубликовано 2025-2-6 09:03:57 |
Конфигурационный элемент переменной среды Ollama

ПеременнаяЗначение по умолчаниюОписание + Эффект + Сценарий
OLLAMA_HOST"[color=var(--fgЦвет-акцент, var(--цвет-акцент-fg))]Вход по гиперссылке виден."Настраивает хост и схему сервера Ollama. Эффект: Определяет URL, используемый для подключения к серверу Ollama. Сценарий: Полезно при развертывании Ollama в распределённой среде или при необходимости разместить сервис на конкретном сетевом интерфейсе.
OLLAMA_ORIGINS[localhost, 127.0.0.1, 0.0.0.0] + app://, file://, tauri://Настройки позволили получить происхождение для CORS. Эффект: Контролирует, каким источникам разрешено делать запросы серверу Ollama. Сценарий: критически важен при интеграции Ollama с веб-приложениями для предотвращения несанкционированного доступа из разных доменов.
OLLAMA_MODELS$HOME/.ollama/modelsЗадаёт путь к каталогу моделей. Эффект: Определяет, где хранятся и загружаются файлы моделей. Сценарий: полезен для управления дисковым пространством на разных дисках или настройки общих репозиториев моделей в многопользовательских средах.
OLLAMA_KEEP_ALIVE5 минутУстанавливает, как долго модели оставаются загруженными в памяти. Эффект: Контролирует, чтобы модели длительности оставались в памяти после использования. Сценарий: Более длинные периоды увеличивают время ответа на частые запросы, но увеличивают использование памяти. Короткие сроки освобождают ресурсы, но могут увеличить время первоначального ответа.
OLLAMA_DEBUGfalseВключает дополнительную отладочную информацию. Эффект: Увеличивает многословность логирования и отладки. Сценарий: Бесценно для устранения неполадок или понимания поведения системы во время разработки или развертывания.
OLLAMA_FLASH_ATTENTIONfalseАктивируется функция экспериментального вспышки внимания. Эффект: Активирует экспериментальную оптимизацию механизмов внимания. Сценарий: может потенциально повысить производительность на совместимом оборудовании, но вызвать нестабильность.
OLLAMA_NOHISTORYfalseОтключает историю чтения строк. Эффект: Препятствует сохранению истории команд. Сценарий: Полезно в средах, чувствительных к безопасности, где история команд не должна сохраняться.
OLLAMA_NOPRUNEfalseОтключает обрезку blob моделей при запуске. Эффект: Сохраняет все blob-и моделей, что потенциально увеличивает использование диска. Сценарий: полезен, когда нужно поддерживать все версии моделей для совместимости или отката.
OLLAMA_SCHED_SPREADfalseПозволяет планировать модели на всех GPU. Эффект: Позволяет использовать мульти-GPU для вывода моделей. Сценарий: Полезно в высокопроизводительных вычислительных средах с несколькими GPU для максимального использования аппаратного обеспечения.
OLLAMA_INTEL_GPUfalseПозволяет экспериментальное обнаружение GPU Intel. Эффект: Позволяет использовать GPU Intel для вывода моделей. Сценарий: Полезно для организаций, использующих оборудование Intel GPU для ИИ-нагрузок.
OLLAMA_LLM_LIBRARY"" (автоопределение)Устанавливает библиотеку LLM для использования. Эффект: Переопределяет автоматическое обнаружение библиотеки LLM. Сценарий: полезен, когда нужно принудительно использовать конкретную версию или реализацию библиотеки по совместимости или производительности.
OLLAMA_TMPDIRСтандартный временный каталог системыУстанавливает место для временных файлов. Эффект: Определяет, где хранятся временные файлы. Сценарий: важен для управления производительностью ввода-вывода или когда временный каталог системы ограничен пространством.
CUDA_VISIBLE_DEVICESВсе доступныНаборы, какие устройства NVIDIA будут видимы. Эффект: Управляет, какие видеокарты NVIDIA можно использовать. Сценарий: критически важен для управления распределением GPU в многопользовательских или многопроцессных средах.
HIP_VISIBLE_DEVICESВсе доступныНаборы, какие устройства AMD будут видимы. Эффект: Определяет, какие видеокарты AMD можно использовать. Сценарий: похоже на CUDA_VISIBLE_DEVICES, но для аппаратного обеспечения AMD.
OLLAMA_RUNNERS_DIRЗависимый от системыЭто задаёт место для бегунов. Эффект: Определяет, где расположены выполняемые файлы-бегущие. Сценарий: важен для пользовательских развертываний или когда раннеры нужно изолировать от основного приложения.
OLLAMA_NUM_PARALLEL0 (без ограничений)Устанавливает количество запросов параллельных моделей. Эффект: Контролирует параллелизм вывода моделей. Сценарий: критически важен для управления нагрузкой на систему и обеспечения оперативной реакции в условиях интенсивного трафика.
OLLAMA_MAX_LOADED_MODELS0 (без ограничений)Устанавливает максимальное количество загруженных моделей. Эффект: Ограничивает количество моделей, которые можно загружать одновременно. Сценарий: Помогает управлять использованием памяти в условиях ограниченных ресурсов или множества различных моделей.
OLLAMA_MAX_QUEUE512Устанавливает максимальное количество очередей запросов. Эффект: Ограничивает размер очереди запросов. Сценарий: предотвращает перегрузку системы во время всплеска трафика и обеспечивает своевременную обработку запросов.
OLLAMA_MAX_VRAM0 (без ограничений)Устанавливает максимальное переопределение VRAM в байтах. Эффект: Ограничивает количество VRAM, которое можно использовать. Сценарий: Полезно в общих GPU-средах, чтобы предотвратить монополизацию памяти GPU одним процессом.


Источник:Вход по гиперссылке виден.

$ ollama help serve
Начинайте олламу

Usage:
  Подача оллама [флаги]

Aliases:
  Подавай, начинай

Flags:
  -Х, --помоги Серву

Переменные среды:
      OLLAMA_DEBUG Показать дополнительную отладочную информацию (например, OLLAMA_DEBUG=1)
      OLLAMA_HOST IP-адрес сервера ollama (по умолчанию 127.0.0.1:11434)
      OLLAMA_KEEP_ALIVE Длительность загрузки моделей в памяти (по умолчанию «5м»)
      OLLAMA_MAX_LOADED_MODELS Максимальное количество загруженных моделей на одну видеокарту
      OLLAMA_MAX_QUEUE Максимальное количество очередей запросов
      OLLAMA_MODELS Путь к каталогу моделей
      OLLAMA_NUM_PARALLEL Максимальное количество параллельных запросов
      OLLAMA_NOPRUNE Не обрезайте скопления моделей при запуске
      OLLAMA_ORIGINS Список разрешённых происхождений с разделённой запятой
      OLLAMA_SCHED_SPREAD Всегда планируйте модель для всех GPU
      OLLAMA_TMPDIR Местоположение временных файлов
      OLLAMA_FLASH_ATTENTION Включено внимание с вспышки
      OLLAMA_LLM_LIBRARY Настройте библиотеку LLM для обхода автоопределения
      OLLAMA_GPU_OVERHEAD Зарезервировать часть VRAM на GPU (байты)
      OLLAMA_LOAD_TIMEOUT Сколько времени нужно позволять загрузке моделей задерживаться перед тем, как сдаться (по умолчанию «5 м»))


Ссылка:Вход по гиперссылке виден.
 Хозяин| Опубликовано 2025-2-6 09:19:49 |
Командование оллама

ollama list: отображает список моделей
Шоу Ollama: отображает информацию о модели
Ollama Pull: Модель Pull
ollama push: модель push
Ollama CP: скопировать модель
ollama rm: Удалить модель
ollama run: Запустите модель
 Хозяин| Опубликовано 2025-2-6 09:33:17 |
Оптимизация моделей, редактирование/etc/systemd/system/ollama.service.d/override.confКонфигурация, добавьте следующее:


Полная конфигурация выглядит следующим образом:



 Хозяин| Опубликовано 2025-2-6 09:35:26 |
--многословныйПараметр используется для отображения скорости вывода (токен / секунда). Например:

>>> Здравствуйте, кто вы?
<think>

</think>

Привет! Я ассистент по искусственному интеллекту, независимо разработанный компанией DeepSeek в Китае, и рад вам помочь!

общая продолжительность: 489.831897мс
Длительность нагрузки: 24,116423мс
Количество примеров Prompt Evaluatal: 10 токенов
Длительность оценки prompt: 4 мс
Скорость быстрой оценки: 2500.00 токенов/с
Количество оценок: 36 жетонов(ов)
Длительность оценки: 460 мс
Коэффициент оценки: 78,26 токенов/с
>>> я маленький мерзавец, как меня зовут?
<think>
Ну, маленькая мразь моё имя? Дайте мне хорошенько подумать. Помню, когда я был ребёнком, родители называли меня «Маленький мерзавец», потому что семья думала, что у меня большие уши, но на самом деле всё
Не настоящая причина. Может быть, потому что в детстве я всегда засовывал палец во рту, как мусор, и меня называли «маленькой мразью».

Однако сейчас название звучит немного странно и не совсем соответствует стилю названия современного общества. Стоит подумать о том, чтобы переименовать его на имя, которое мне больше подходит. Во-первых, мне нужно понять себя
Ваши черты характера и интересы, чтобы вы могли выбрать имя, которое будет одновременно значимым и уникальным.

Мне нравится помогать другим, я хорошо слушаю и общаюсь, так что, возможно, стоит выбрать имя с «мудростью», «тёплым» или «дружелюбным». В то же время я хочу отражать свою личность, например,
Если вы любите книги, музыку или спорт, вы можете включить эти элементы в своё имя.

Кроме того, мне нужно убедиться, что новое имя не будет неправильно запомнено или неправильно понято. Это значит, что имя должно быть уникальным и узнаваемым, а не слишком сложным или слишком обыденным. Я могу
Обратитесь к именам известных личностей, чтобы узнать, какие из них имеют и культурное наследие, и современность.

Кроме того, мне нужно учитывать, насколько произношение гладкое, есть ли положительный смысл и как оно выражается в разных контекстах. Это значит, что при выборе имени не только звучит хорошо, но и
За этим должен быть смысл и ценность.

Наконец, мне нужно общаться с семьёй и друзьями, чтобы убедиться, что они довольны новым именем и что имя может стать частью моей жизни. В конце концов, имя — это не только
Идентификатор — часть самовыражения.

Короче говоря, Сяо Чжао — не моё настоящее имя, и я имею право выбрать имя, которое мне больше подходит. Это требует времени и размышлений, но при тщательном анализе вашей личности и интересов
Помимо значения имени, я верю, что смогу найти для себя самое подходящее имя.
</think>

Исходя из вышеописанного подхода, я решил назвать себя «Звезда Мудрости». Имя отражает и мою изобретательность, тепло и надежду, что идеально подходит для моей личной сексуальности
Характеристики. В то же время «звезда» символизирует свет и бесконечные возможности, вдохновляя меня постоянно стремиться к прогрессу и росту.

**Окончательное имя: Звезда Мудрости**

Это имя не только соответствует моему характеру, но и наполнено позитивной энергией, которая заставляет меня гордиться и чувствовать удовлетворение.

общая продолжительность: 7.600299527 с
Длительность загрузки: 24,37534мс
Количество быстрых оценок: 59 токенов
Длительность оценки prompt: 10 мс
Скорость оценки запросов: 5900.00 токенов/с
Количество оценок: 557 жетонов(ов)
Продолжительность оценки: 6,618 с
Коэффициент оценки: 84,16 токенов/с

 Хозяин| Опубликовано 2025-2-6 10:22:02 |
Развернуть модели ollama с AMD-GPU
ollama-for-amd:Вход по гиперссылке виден.

Ссылка:Вход по гиперссылке виден.
 Хозяин| Опубликовано 2025-2-6 13:26:17 |
Запустите модель deepseek-r1:32b




root@VM-0-8-ubuntu:~# nvidia-smi
Чт 6 фев 13:25:04 2025
+-----------------------------------------------------------------------------+
| NVIDIA-SMI 525.105.17 Версия драйвера: 525.105.17 Версия CUDA: 12.0 |
|-------------------------------+----------------------+----------------------+
| Сохранение имени GPU-M| Bus-ID Disp.A | Нестабильный Разбор. ECC |
| Производительность температуры вентилятора Pwr:Использование/Конденсатор|         Использование памяти | GPU-util Compute M. |
|                               |                      |               MIG M. |
|===============================+======================+======================|
|   0 Tesla V100-SXM2...  На | 0000000:00:08.0 Выключено |                  Выключено |
| N/A 65C P0 205W / 300W |  21822MiB / 32768MiB |     89% по умолчанию |
|                               |                      |                  Н/Д |
+-------------------------------+----------------------+----------------------+

+-----------------------------------------------------------------------------+
| Процессы: |
|  GPU GI CI PID Тип процесса Имя процесса GPU Память |
|        Использование ID ID |
|=============================================================================|
|    0 N/A N/A 91457 C ... 1_avx/ollama_llama_server 21820MiB |
+-----------------------------------------------------------------------------+
root@VM-0-8-ubuntu:~# ollama show deepseek-r1:32b
  Модель
    Архитектура QWEN2
    параметры 32.8B
    Длина контекста 131072
    Длина вложения 5120
    Квантование Q4_K_M

  Параметры
    Стоп "<|начало предложения|>"
    стоп "<|конец предложения|>"
    stop "<|User|>"
    стоп "<|Ассистент|>"

  Лицензия
    Лицензия MIT
    Авторские права (c) 2023 DeepSeek

root@VM-0-8-ubuntu:~# ollama ps
ИМЯ ИДЕНТИФИКАТОРА РАЗМЕРА ПРОЦЕССОРА ДО
deepseek-r1:32b    38056bbcbb2d    23 GB    100% GPU     Forever


 Хозяин| Опубликовано 2025-2-8 08:34:18 |
Как решить задачу вытягивания модели Олламы
https://www.itsvse.com/thread-10939-1-1.html
 Хозяин| Опубликовано 2025-2-13 09:25:04 |
Попробуйте модель DeepSeek R1 32b на Jetson AGX Orin (32G):Вход по гиперссылке виден.
Jetson запускает крупные языковые модели:https://www.jetson-ai-lab.com/models.html

Отказ:
Всё программное обеспечение, программные материалы или статьи, публикуемые Code Farmer Network, предназначены исключительно для учебных и исследовательских целей; Вышеуказанный контент не должен использоваться в коммерческих или незаконных целях, иначе пользователи несут все последствия. Информация на этом сайте взята из Интернета, и споры по авторским правам не имеют отношения к этому сайту. Вы должны полностью удалить вышеуказанный контент с компьютера в течение 24 часов после загрузки. Если вам нравится программа, пожалуйста, поддержите подлинное программное обеспечение, купите регистрацию и получите лучшие подлинные услуги. Если есть нарушение, пожалуйста, свяжитесь с нами по электронной почте.

Mail To:help@itsvse.com