Тази статия е огледална статия за машинен превод, моля, кликнете тук, за да преминете към оригиналната статия.

Изглед: 2394|Отговор: 10

【AI】(3) Tencent Cloud внедрява DeepSeek-R1 с HAI tutorial

[Копирай линк]
Публикувано на 2025-2-5 21:14:04 | | | |
Hyper Application Inventor (HAI) е GPU продукт за приложения за изкуствен интелект и научни изчисления, предоставящ plug-and-play изчислителна мощ и общи среди, за да помогне на малки и средни предприятия и разработчици бързо да внедрят LLM модели.

Адрес:Входът към хиперлинк е видим.

HAI срещу GPU сървъри

Значително намалете прага за използване на GPU облачен сървър, оптимизирайте продуктовото изживяване от различни ъгли и го използвайте веднага, както е показано на фигурата по-долу:



Закупете изчислителна мощност на HAI

Отидете на страницата за покупка, изберете основния образ на средата "Ubuntu 20.04" и конфигурирайте средата:Ubuntu 20.04, Драйвер 525.105.17, Python 3.8, CUDA 12.0, cuDNN 8Изображението вече е инсталирало драйвера за нас и ние избираме да плащаме в движение, както е показано на фигурата по-долу:



Видео памет: 32GB+
Хашрейт: 15+TFlops SP
CPU: 8~10 ядра
RAM: 40GB

След няколко минути изчакване инстанцията се създава успешно и се включва Academic Acceleration, както е показано на следващата фигура:



Първия път, когато го използвате, трябва да рестартирате паролата си, а потребителското име за вход е:Ubuntu。 Опитайте да влезете в сървъра и да проверите информацията за драйвера на NVIDIA GPU с следната команда:


Както е показано по-долу:


Инсталирай Ollama

Официален уебсайт на Оллама:Входът към хиперлинк е видим.

Влезте в сървъра чрез инструмента за замазка и започнете да инсталирате инструмента Ollama със следната команда:


Инсталацията е завършена, а изходът е следният:
>>> Инсталиране на ollama в /usr/local
>>> Изтегляне на Linux amd64 пакета
######################################################################## 100.0%
>>> Създаване на оллама потребител...
>>> Добавяне на ollama user към рендер групата...
>>> Добавяне на оллама потребител към видео групата...
>>> Добавяне на настоящ потребител към групата оллама...
>>> Създаване на ollama systemd услуга...
>>> Включване и стартиране на оллама услугата...
Създадох симлинк /etc/systemd/system/default.target.wants/ollama.service → /etc/systemd/system/ollama.service.

Вижте версията: ollama -v
Вижте модела, който в момента е зареден в паметта: ollama ps

Създайте папка за съхранение на персонализиран модел със следната команда:

Променете стандартния адрес за слушане и пътя към съхранението на модела (не можете да промените стандартния порт, иначе командата ще се провали) и използвайте следните команди:


Разгръщане на deepseek-r1 модела

Стартирайте модела deepseek-r1:8b със следната команда:


Както е показано по-долу:



Тествайте диалога, както е показано по-долу:



Защитната стена освобождава TCP порт 11434 и извиква HTTP интерфейса, както е показано на следната фигура:



{
  "модели": [
    {
      "Име": "Deepseek-R1:8B",
      "модел": "deepseek-r1:8b",
      "размер": 6930032640,
      "дайджест": "28f8fd6cdc677661426adab9338ce3c013d7e69a5bea9e704b364171a5d61a10",
      "детайли": {
        "parent_model": "",
        "format": "gguf",
        "семейство": "лама",
        "семейства": [
          "лама"
        ],
        "parameter_size": "8.0B",
        "quantization_level": "Q4_K_M"
      },
      "expires_at": "2025-02-05T21:14:50.715753614+08:00",
      "size_vram": 6930032640
    }
  ]
}

Препратка:
Входът към хиперлинк е видим.
Входът към хиперлинк е видим.
Входът към хиперлинк е видим.




Предишен:[AI] (2) Разликата между версиите на DeepSeek-V3 и R1
Следващ:[AI] (4) Използвайте Open WebUI, за да извикнете модела DeepSeek-R1
 Хазяин| Публикувано на 2025-2-5 21:22:49 |
Ако моделът не получава заявки или входове за определен период от време, Ollama автоматично прекратява модела в облачния център, за да пести ресурси.
 Хазяин| Публикувано на 2025-2-6 09:03:57 |
Конфигурационен елемент на променливата на околната среда на ollama

ПроменливСтандартна стойностОписание + Ефект + Сценарий
OLLAMA_HOST"[color=var(--fgЦвят-акцент, var(--цвят-акцент-fg))]Входът към хиперлинк е видим."Конфигурира хоста и схемата за сървъра на Ollama. Ефект: Определя URL адреса, използван за свързване към сървъра Ollama. Сценарий: Полезен при внедряване на Ollama в разпределена среда или когато трябва да експонирате услугата на конкретен мрежов интерфейс.
OLLAMA_ORIGINS[localhost, 127.0.0.1, 0.0.0.0] + app://, file://, tauri://Конфигурациите позволяват произход на CORS. Ефект: Контролира кои origins имат право да правят заявки към сървъра на Ollama. Сценарий: Критичен при интегриране на Ollama с уеб приложения за предотвратяване на неоторизиран достъп от различни домейни.
OLLAMA_MODELS$HOME/.ollama/modelsЗадава пътя към директорията с модели. Ефект: Определя къде се съхраняват и зареждат моделните файлове. Сценарий: Полезен за управление на дисково пространство на различни устройства или за настройване на споделени хранилища за модели в многопотребителски среди.
OLLAMA_KEEP_ALIVE5 минутиОпределя колко дълго моделите остават заредени в паметта. Ефект: Контролира моделите за продължителност, които остават в паметта след употреба. Сценарий: По-дългите периоди подобряват времето за отговор при чести заявки, но увеличават използването на памет. По-кратките периоди освобождават ресурси, но могат да удължат началните времена за реакция.
OLLAMA_DEBUGfalseАктивира допълнителна информация за отстраняване на грешки. Ефект: Увеличава многословността при логване и отстраняване на грешки. Сценарий: Безценен за отстраняване на проблеми или разбиране на поведението на системата по време на разработка или внедряване.
OLLAMA_FLASH_ATTENTIONfalseАктивира експерименталната функция за внимание на светкавицата. Ефект: Активира експериментална оптимизация за механизмите на вниманието. Сценарий: Може потенциално да подобри производителността на съвместим хардуер, но може да доведе до нестабилност.
OLLAMA_NOHISTORYfalseДеактивира историята на линиите на четене. Ефект: Предотвратява запазването на историята на командите. Сценарий: Полезно в среди, чувствителни към сигурността, където историята на командите не трябва да се запазва.
OLLAMA_NOPRUNEfalseИзключва подрязването на blob-овете на модела при стартиране. Ефект: Запазва всички модели blob-ове, потенциално увеличавайки използването на диска. Сценарий: Полезен, когато трябва да поддържате всички версии на модела за съвместимост или връщане назад.
OLLAMA_SCHED_SPREADfalseПозволява планиране на модели за всички GPU-та. Ефект: Позволява използването на мулти-GPU за извеждане на модели. Сценарий: Полезно в високопроизводителни изчислителни среди с множество графични процесори за максимално използване на хардуера.
OLLAMA_INTEL_GPUfalseПозволява експериментално откриване на Intel GPU. Ефект: Позволява използването на Intel GPU за извеждане на модели. Сценарий: Полезен за организации, които използват Intel GPU хардуер за AI задачи.
OLLAMA_LLM_LIBRARY"" (автоматично откриване)Настройва LLM библиотеката да използва. Ефект: Отменя автоматичното откриване на библиотеката на LLM. Сценарий: Полезен, когато трябва да наложиш определена библиотечна версия или имплементация поради съвместимост или производителност.
OLLAMA_TMPDIRСистемна временна директория по подразбиранеЗадава местоположението за временни файлове. Ефект: Определя къде се съхраняват временните файлове. Сценарий: Важен за управление на производителността на I/O или когато временната директория на системата има ограничено място.
CUDA_VISIBLE_DEVICESВсички са наличниОпределя кои NVIDIA устройства са видими. Ефект: Контролира кои NVIDIA GPU могат да се използват. Сценарий: Критичен за управление на разпределението на GPU в многопотребителски или многопроцесни среди.
HIP_VISIBLE_DEVICESВсички са наличниКомплекти кои AMD устройства са видими. Ефект: Контролира кои AMD GPU могат да се използват. Сценарий: Подобно на CUDA_VISIBLE_DEVICES, но за хардуера на AMD.
OLLAMA_RUNNERS_DIRЗависим от систематаОпределя местоположението за бегачите. Ефект: Определя къде се намират изпълнимите файлове на runner. Сценарий: Важен за персонализирани внедрявания или когато рънърите трябва да бъдат изолирани от основното приложение.
OLLAMA_NUM_PARALLEL0 (неограничен)Задава броя на заявките за паралелни модели. Ефект: Контролира съвместимостта на изводите на модела. Сценарий: Критично за управление на натоварването на системата и осигуряване на отзивчивост в среди с интензивен трафик.
OLLAMA_MAX_LOADED_MODELS0 (неограничен)Определя максималния брой заредени модели. Ефект: Ограничава броя на моделите, които могат да се зареждат едновременно. Сценарий: Помага за управление на използването на памет в среди с ограничени ресурси или с много различни модели.
OLLAMA_MAX_QUEUE512Задава максимален брой опашени заявки. Ефект: Ограничава размера на опашката за заявки. Сценарий: Предотвратява претоварване на системата по време на пикове в трафика и осигурява навременна обработка на заявките.
OLLAMA_MAX_VRAM0 (неограничен)Задава максимален VRAM override в байтове. Ефект: Ограничава количеството VRAM, което може да се използва. Сценарий: Полезно в споделени GPU среди, за да се предотврати монополизиране на GPU паметта от един процес.


Източник:Входът към хиперлинк е видим.

$ ollama help serve
Започнете оллама

Usage:
  Оллама сервис [флагове]

Aliases:
  Сервирай, стартирай

Flags:
  -Х, --помощ за Серв

Променливи на средата:
      OLLAMA_DEBUG Покажи допълнителна информация за отстраняване на грешки (напр. OLLAMA_DEBUG=1)
      OLLAMA_HOST IP адрес на сървъра ollama (по подразбиране 127.0.0.1:11434)
      OLLAMA_KEEP_ALIVE Продължителността, през която моделите остават заредени в паметта (по подразбиране "5m")
      OLLAMA_MAX_LOADED_MODELS Максимален брой заредени модели на GPU
      OLLAMA_MAX_QUEUE Максимален брой заявки в опашка
      OLLAMA_MODELS Пътят към директорията с модели
      OLLAMA_NUM_PARALLEL Максимален брой паралелни заявки
      OLLAMA_NOPRUNE Не подрязвайте моделните blob-ове при стартиране
      OLLAMA_ORIGINS Списък с разрешени произходи, разделени със запетая
      OLLAMA_SCHED_SPREAD Винаги планирайте модела за всички GPU
      OLLAMA_TMPDIR Местоположение за временни файлове
      OLLAMA_FLASH_ATTENTION Активирано внимание на светкавицата
      OLLAMA_LLM_LIBRARY Настрой LLM библиотеката да заобикаля автоматичното откриване
      OLLAMA_GPU_OVERHEAD Резервирайте част от VRAM на GPU (байтове)
      OLLAMA_LOAD_TIMEOUT Колко време да се остави натоварването на модела да се забави преди да се откаже (по подразбиране "5m")


Препратка:Входът към хиперлинк е видим.
 Хазяин| Публикувано на 2025-2-6 09:19:49 |
Команда Оллама

ollama списък: Показва списък с модели
Ollama show: Показва информация за модела
Ollama Pull: модел за дърпане
ollama push: модел на push
Ollama CP: копирай модел
ollama rm: Изтрий модел
ollama run: Бягане на модел
 Хазяин| Публикувано на 2025-2-6 09:33:17 |
Оптимизация на модела, редактиране/etc/systemd/system/ollama.service.d/override.confКонфигурация, добавете следното:


Пълната конфигурация е следната:



 Хазяин| Публикувано на 2025-2-6 09:35:26 |
--многословенПараметърът се използва за показване на скоростта на извеждане (токен / секунда). Например:

>>> Здравейте, кой сте вие?
<think>

</think>

Здравейте! Аз съм AI асистент, независимо разработен от DeepSeek в Китай, и с удоволствие ще ви помогна!

Обща продължителност: 489.831897ms
Продължителност на натоварването: 24.116423ms
Брой на бързи оценки: 10 токена(а)
Продължителност на бързата оценка: 4ms
Бърза оценка: 2500.00 токена/с
Брой оценки: 36 жетона(и)
Продължителност на оценката: 460ms
Процент на оценка: 78.26 токена/с
>>> Аз съм малък боклук, как се казвам?
<think>
Е, малката ли е моето име? Нека помисля внимателно. Спомням си, когато бях дете, родителите ми ме кръстиха "Малкият изрод", защото семейството ми мислеше, че имам големи уши, но всъщност това беше всичко
Не е истинската причина. Може би защото като дете винаги си слагам пръста в устата като боклук, затова ме наричаха "малък боклук".

Въпреки това, името сега звучи малко странно и не пасва напълно на стила на именуване в днешното общество. Трябва да обмисля да го преименувам с име, което ми подхожда повече. Първо, трябва да разбера себе си
Вашите личностни черти и интереси, така че можете да изберете име, което е едновременно значимо и уникално.

Обичам да помагам на другите и съм добър в слушането и комуникацията, така че може би избери име с "мъдрост", "топло" или "приятелски настроено". В същото време искам да отразя и личността си, като например
Ако обичате книги, музика или спорт, можете да включите тези елементи в името си.

Освен това трябва да се уверя, че новото име няма да бъде погрешно запомнено или разбрано погрешно. Това означава, че името трябва да бъде уникално и разпознаваемо, а не твърде сложно или твърде обикновено. Мога
Вижте имената на някои известни личности, за да видите кои имат както културно наследство, така и модерност.

Освен това трябва да разгледам дали произношението е гладко, дали има положително значение и как се изразява в различни контексти. Това означава, че при избора на име не само звучи добре, но и
Зад него трябва да има смисъл и стойност.

Накрая, трябва да комуникирам със семейството и приятелите си, за да се уверя, че са доволни от новото име и че името може да бъде част от живота ми. В крайна сметка, името не е само
Идентификаторът е част от самоизразяването.

Накратко, Сяо Джао не е истинското ми име и имам право да избера име, което ми подхожда повече. Отнема време и мислене, но чрез внимателен анализ на личността и интересите ви
Освен значението на името, вярвам, че ще мога да намеря най-подходящото име за себе си.
</think>

Въз основа на горния начин на мислене реших да се кръстя "Звездата на мъдростта". Името отразява както изобретателността ми, така и топлината и надеждата ми, което го прави идеално за моята лична сексуалност
Характеристики. В същото време "звездата" символизира светлина и безкрайни възможности, вдъхновявайки ме постоянно да преследвам напредък и растеж.

**Финализирано име: Звезда на мъдростта**

Това име не само съвпада с моята личност, но и е изпълнено с положителна енергия, която ме кара да се чувствам много горда и удовлетворена.

Обща продължителност: 7.600299527s
Продължителност на натоварването: 24.37534ms
Брой на бърза оценка: 59 жетона(и)
Продължителност на бързата оценка: 10ms
Бърза оценка: 5900.00 токена/с
Брой оценки: 557 жетона(а)
Продължителност на оценката: 6.618s
Оценителна стойност: 84.16 токена/с

 Хазяин| Публикувано на 2025-2-6 10:22:02 |
Внедряване на ollama модели с AMD GPU
ollama-for-amd:Входът към хиперлинк е видим.

Препратка:Входът към хиперлинк е видим.
 Хазяин| Публикувано на 2025-2-6 13:26:17 |
Пусни модела deepseek-r1:32b




root@VM-0-8-ubuntu:~# nvidia-smi
Чет 6 фев 13:25:04 2025
+-----------------------------------------------------------------------------+
| NVIDIA-SMI 525.105.17 Версия на драйвера: 525.105.17 CUDA версия: 12.0 |
|-------------------------------+----------------------+----------------------+
| Запазване на името на GPU - M| Bus-ID Disp.A | Волатилен Некор. ECC |
| Производителност на температурата на вентилатора pwr:Използване/Таван|         Използване на паметта | GPU-util Compute M. |
|                               |                      |               MIG M. |
|===============================+======================+======================|
|   0 Tesla V100-SXM2...  На | 00000000:00:08.0 Изключение |                  Изключено |
| N/A 65C P0 205W / 300W |  21822MiB / 32768MiB |     89% по подразбиране |
|                               |                      |                  Н/Д |
+-------------------------------+----------------------+----------------------+

+-----------------------------------------------------------------------------+
| Процеси: |
|  GPU GI CI PID Тип Име на процес GPU Памет |
|        Използване на ID ID |
|=============================================================================|
|    0 Н/А Н/Д 91457 C ... 1_avx/ollama_llama_server 21820MiB |
+-----------------------------------------------------------------------------+
root@VM-0-8-ubuntu:~# ollama show deepseek-r1:32b
  Модел
    Архитектура QWEN2
    параметри 32.8B
    Дължина на контекста 131072
    Дължина на вграждане 5120
    Квантуване Q4_K_M

  Параметри
    Спри "<|начало на изречение|>"
    Спри "<|край на изречение|>"
    спри "<|Потребител|>"
    спри "<|Асистент|>"

  Лиценз
    Лиценз MIT
    Авторски права (c) 2023 DeepSeek

root@VM-0-8-ubuntu:~# ollama ps
ПРОЦЕСОРЪТ ЗА РАЗМЕР НА ИДЕНТИФИКАТОРА НА ИМЕТО ДО
deepseek-r1:32b    38056bbcbb2d    23 GB    100% GPU     Forever


 Хазяин| Публикувано на 2025-2-8 08:34:18 |
Как да се реши проблема с изтеглянето на модела на Оллама
https://www.itsvse.com/thread-10939-1-1.html
 Хазяин| Публикувано на 2025-2-13 09:25:04 |
Опитайте модела DeepSeek R1 32b на Jetson AGX Orin (32G):Входът към хиперлинк е видим.
Jetson управлява големи езикови модели:https://www.jetson-ai-lab.com/models.html

Отричане:
Целият софтуер, програмни материали или статии, публикувани от Code Farmer Network, са само за учебни и изследователски цели; Горното съдържание не трябва да се използва за търговски или незаконни цели, в противен случай потребителите ще понесат всички последствия. Информацията на този сайт идва от интернет, а споровете за авторски права нямат нищо общо с този сайт. Трябва напълно да изтриете горното съдържание от компютъра си в рамките на 24 часа след изтеглянето. Ако ви харесва програмата, моля, подкрепете оригинален софтуер, купете регистрация и получете по-добри услуги. Ако има нарушение, моля, свържете се с нас по имейл.

Mail To:help@itsvse.com