【AI】(3) 텐센트 클라우드, HAI 튜토리얼이 포함된 DeepSeek-R1 배포

작은 쓰레기 같은 놈들 · 게시됨 2025. 2. 5. 오후 9:14:04

Hyper Application Inventor(HAI)는 AI 및 과학 컴퓨팅을 위한 GPU 애플리케이션 서비스 제품으로, 플러그 앤 플레이 컴퓨팅 파워와 일반 환경을 제공하여 중소기업과 개발자들이 LLM을 신속하게 배포할 수 있도록 돕습니다.

주소:하이퍼링크 로그인이 보입니다.

HAI와 GPU 서버

GPU 클라우드 서버 사용 기준을 크게 낮추고, 제품 경험을 여러 각도에서 최적화하며, 아래 그림에서 보듯이 바로 사용할 수 있습니다:

HAI 컴퓨팅 파워 구매

구매 페이지로 가서 기본 환경 "Ubuntu 20.04" 이미지를 선택한 후 환경을 구성하세요:Ubuntu 20.04, 드라이버 525.105.17, Python 3.8, CUDA 12.0, cuDNN 8이미지는 이미 드라이버를 설치해 두었고, 우리는 아래 그림에서 보듯이 진행 중을 지불하기로 했습니다:

비디오 메모리: 32GB+
해시레이트: 15+TFlops SP
CPU: 8~10코어
RAM: 40GB

몇 분간 기다린 후, 인스턴스가 성공적으로 생성되고 학업 가속이 켜집니다. 아래 그림에서 확인할 수 있습니다:

처음 사용할 때는 비밀번호를 재설정해야 하며, 로그인 사용자 이름은 다음과 같습니다:우분투。 서버에 로그인해서 다음 명령어로 NVIDIA GPU 드라이버 정보를 확인해 보세요:

로그인이 보이네요.

아래에 나와 있습니다:

올라마 설치

올라마 공식 웹사이트:하이퍼링크 로그인이 보입니다.

퍼티 툴로 서버에 로그인한 후 다음 명령어로 Ollama 툴 설치를 시작하세요:

로그인이 보이네요.

설치가 완료되었으며, 결과물은 다음과 같습니다:

>>> /usr/local에 ollama 설치
>>> 리눅스 amd64 번들 다운로드
######################################################################## 100.0%
>>> 올라마 사용자 생성...
>>> ollama 사용자를 렌더링 그룹에 추가하기...
>>> 올라마 사용자 비디오 그룹에 추가하기...
>>> 현재 사용자를 올라마 그룹에 추가하는 중...
>>> 올라마 시스템 서비스 만들기...
>>> 올라마 서비스 활성화 및 시작...
/etc/systemd/system/ollama.service → 심볼링크 /etc/systemd/system/ollama.service 생성.

버전 명령어를 확인해 보세요: ollama -v
현재 메모리에 로드된 모델을 보세요: ollama ps.

다음 명령어로 맞춤형 모델 저장 폴더를 생성하세요:

로그인이 보이네요.

기본 리스닝 주소와 모델 저장 경로를 수정하세요(기본 포트를 수정하면 명령이 실패합니다) 그리고 다음 명령어를 사용하세요:

로그인이 보이네요.

deepseek-r1 모델 배포

deepseek-r1:8b 모델을 다음 명령어로 실행하세요:

로그인이 보이네요.

아래에 나와 있습니다:

아래에 표시된 대화 내용을 테스트해 보세요:

방화벽은 TCP 포트 11434를 해제하고 HTTP 인터페이스를 호출하며, 다음 그림에서 확인할 수 있습니다:

{
  "모델": [
{
   "이름": "deepseek-r1:8b",
   "모델": "딥시크-R1:8B",
   "크기": 6930032640,
   "다이제스트": "28F8FD6cdc677661426adab9338ce3C013D7E69A5bea9E704B364171A5D61A10",
   "세부사항": {
      "parent_model": "",
      "format": "gguf",
      "가족": "라마",
      "가족": [
      "라마"
      ],
      "parameter_size": "8.0B",
      "quantization_level": "Q4_K_M"
   },
   "expires_at": "2025-02-05T21:14:50.715753614+08:00",
   "size_vram": 6930032640
}
  ]
}

참조:
하이퍼링크 로그인이 보입니다.
하이퍼링크 로그인이 보입니다.
하이퍼링크 로그인이 보입니다.

작은 쓰레기 같은 놈들 · 게시됨 2025. 2. 5. 오후 9:22:49

모델이 일정 기간 요청이나 입력을 받지 못하면, Ollama는 자원을 절약하기 위해 클라우드 센터에서 모델을 자동으로 종료합니다.

작은 쓰레기 같은 놈들 · 게시됨 2025. 2. 6. 오전 9:03:57

Ollama 환경 변수 구성 항목

변수	기본 값	설명 + 효과 + 시나리오
OLLAMA_HOST	"[color=var(--fgColor-accent, var(--color-accent-fg))]하이퍼링크 로그인이 보입니다."	Ollama 서버의 호스트와 스킴을 구성합니다. 효과: Ollama 서버에 접속하는 데 사용되는 URL을 결정합니다. 시나리오: 분산 환경에서 Ollama를 배포하거나 특정 네트워크 인터페이스에 서비스를 노출해야 할 때 유용합니다.
OLLAMA_ORIGINS	[localhost, 127.0.0.1, 0.0.0.0] + app://, file://, tauri://	컨figure는 CORS의 기원을 가능하게 했습니다. 효과: 어떤 오리진이 올라마 서버에 요청을 할 수 있는지 제어합니다. 시나리오: Ollama를 웹 애플리케이션과 통합할 때 서로 다른 도메인에서 무단 접근을 방지하기 위해 매우 중요합니다.
OLLAMA_MODELS	$HOME/.ollama/models	모델을 가진 디렉터리로 가는 경로를 설정합니다. 효과: 모델 파일이 저장되고 로드되는 위치를 결정합니다. 시나리오: 서로 다른 드라이브의 디스크 공간을 관리하거나 다중 사용자 환경에서 공유 모델 저장소를 설정하는 데 유용합니다.
OLLAMA_KEEP_ALIVE	5분	모델이 메모리에 얼마나 오래 로드되는지 설정합니다. 효과: 사용 후 모델 지속 시간을 메모리에 남기도록 제어합니다. 시나리오: 더 긴 시간 동안 빈번한 쿼리에 대한 응답 시간은 개선되지만 메모리 사용량이 증가합니다. 짧은 시간은 자원을 확보하지만 초기 대응 시간이 늘어날 수 있습니다.
OLLAMA_DEBUG	false	추가 디버그 정보를 활성화합니다. 효과: 로그와 디버깅 출력의 장황함을 증가시킵니다. 시나리오: 문제 해결이나 개발 또는 배포 중 시스템 동작을 이해하는 데 매우 유용합니다.
OLLAMA_FLASH_ATTENTION	false	실험적인 플래시 주의 기능을 활성화합니다. 효과: 주의 메커니즘에 대한 실험적 최적화를 활성화합니다. 시나리오: 호환 하드웨어에서 성능을 향상시킬 수 있지만 불안정성을 초래할 수 있습니다.
OLLAMA_NOHISTORY	false	리드라인 히스토리를 비활성화합니다. 효과: 명령 기록이 저장되는 것을 막습니다. 시나리오: 명령 이력을 유지해서는 안 되는 보안 민감 환경에서 유용합니다.
OLLAMA_NOPRUNE	false	시작 시 모델 블롭의 가지치기를 비활성화합니다. 효과: 모든 모델 블롭을 유지하여 디스크 사용량을 증가시킬 수 있습니다. 시나리오: 호환성이나 롤백 목적으로 모든 모델 버전을 유지해야 할 때 유용합니다.
OLLAMA_SCHED_SPREAD	false	모든 GPU에서 모델을 스케줄링할 수 있습니다. 효과: 모델 추론을 위한 다중 GPU 사용을 가능하게 합니다. 시나리오: 다중 GPU가 탑재된 고성능 컴퓨팅 환경에서 하드웨어 활용도를 극대화하는 데 유리합니다.
OLLAMA_INTEL_GPU	false	실험적인 인텔 GPU 감지 기능을 지원합니다. 효과: 모델 추론을 위해 인텔 GPU를 사용할 수 있습니다. 시나리오: AI 워크로드에 인텔 GPU 하드웨어를 활용하는 조직에 유용합니다.
OLLAMA_LLM_LIBRARY	"" (자동 감지)	LLM 라이브러리를 사용하도록 설정합니다. 효과: LLM 라이브러리의 자동 감지를 무시함. 시나리오: 호환성이나 성능 문제로 특정 라이브러리 버전이나 구현을 강제해야 할 때 유용합니다.
OLLAMA_TMPDIR	시스템 기본 임시 디렉터리	임시 파일 위치를 설정합니다. 효과: 임시 파일이 저장되는 위치를 결정합니다. 시나리오: I/O 성능 관리나 시스템 임시 디렉터리 공간이 제한적일 때 중요합니다.
CUDA_VISIBLE_DEVICES	모두 이용 가능합니다	NVIDIA 기기가 보이는 세트입니다. 효과: 사용할 수 있는 NVIDIA GPU를 제어합니다. 시나리오: 다중 사용자 또는 다중 프로세스 환경에서 GPU 할당을 관리하는 데 매우 중요합니다.
HIP_VISIBLE_DEVICES	모두 이용 가능합니다	어떤 AMD 기기가 보이는지 설정하는 것입니다. 효과: 어떤 AMD GPU를 사용할 수 있는지 제어합니다. 시나리오: CUDA_VISIBLE_DEVICES와 비슷하지만 AMD 하드웨어를 위한 것입니다.
OLLAMA_RUNNERS_DIR	시스템 의존성	러너의 위치를 정해. 효과: 러너 실행 파일이 어디에 위치하는지 결정합니다. 시나리오: 커스텀 배포나 러너를 메인 애플리케이션에서 분리해야 할 때 중요합니다.
OLLAMA_NUM_PARALLEL	0 (무제한)	병렬 모델 요청 횟수를 설정합니다. 효과: 모델 추론의 동시성을 제어합니다. 시나리오: 시스템 부하 관리와 고트래픽 환경에서 반응성 확보에 매우 중요합니다.
OLLAMA_MAX_LOADED_MODELS	0 (무제한)	최대 장착 모델 수를 설정합니다. 효과: 동시에 로드할 수 있는 모델 수를 제한합니다. 시나리오: 제한된 자원이나 다양한 모델이 있는 환경에서 메모리 사용량을 관리하는 데 도움을 줍니다.
OLLAMA_MAX_QUEUE	512	대기열에 있는 최대 요청 수를 설정합니다. 효과: 요청 대기열 크기를 제한합니다. 시나리오: 트래픽 급증 시 시스템 과부하를 방지하고 요청의 적시 처리를 보장합니다.
OLLAMA_MAX_VRAM	0 (무제한)	최대 VRAM 오버라이드 용량을 바이트 단위로 설정합니다. 효과: 사용할 수 있는 VRAM 양을 제한합니다. 시나리오: 공유 GPU 환경에서 단일 프로세스가 GPU 메모리를 독점하는 것을 방지하는 데 유용합니다.

근원:하이퍼링크 로그인이 보입니다.

$ 올라마 도와서 서브
올라마 시작해

Usage:
  올라마 서브 [깃발]

Aliases:
  서브, 시작

Flags:
  -h, --서브 도움

환경 변수:
   OLLAMA_DEBUG 추가 디버그 정보 표시 (예: OLLAMA_DEBUG=1)
   OLLAMA_HOST 올라마 서버의 IP 주소 (기본 127.0.0.1:11434)
   OLLAMA_KEEP_ALIVE 모델이 메모리에 로드되는 시간 (기본 "5m")
   OLLAMA_MAX_LOADED_MODELS GPU당 최대 로드된 모델 수
   OLLAMA_MAX_QUEUE 대기열 요청 최대 수
   OLLAMA_MODELS 모델 디렉터리로 가는 경로
   OLLAMA_NUM_PARALLEL 최대 병렬 요청 수
   OLLAMA_NOPRUNE 시작 시 모델 블롭을 가지치기하지 마세요
   OLLAMA_ORIGINS 허용된 기원 목록은 쉼표로 구분되어 있습니다
   OLLAMA_SCHED_SPREAD 항상 모든 GPU에 걸쳐 모델을 스케줄링하세요
   OLLAMA_TMPDIR 임시 파일 위치
   OLLAMA_FLASH_ATTENTION 플래시 주의 활성화
   OLLAMA_LLM_LIBRARY 자동 감지를 우회하도록 LLM 라이브러리를 설정하세요
   OLLAMA_GPU_OVERHEAD GPU당 VRAM 일부(바이트)를 예약하세요
   OLLAMA_LOAD_TIMEOUT 모델 부하가 멈추기 전까지 얼마나 오래 허용해야 하나요 (기본값 "5m")

참조:하이퍼링크 로그인이 보입니다.

작은 쓰레기 같은 놈들 · 게시됨 2025. 2. 6. 오전 9:19:49

올라마 사령부

올라마 리스트: 모델 목록을 표시합니다
올라마 쇼: 모델 정보를 표시합니다
올라마 풀: 풀 모델
올라마 푸시: 푸시 모델
올라마 CP: 모델 복사
ollama rm: 모델 삭제
올라마 런: 모델 하나 돌려

작은 쓰레기 같은 놈들 · 게시됨 2025. 2. 6. 오전 9:33:17

모델 최적화, 편집/etc/systemd/system/ollama.service.d/override.conf구성, 다음을 추가하세요:

로그인이 보이네요.

전체 구성은 다음과 같습니다:

로그인이 보이네요.

작은 쓰레기 같은 놈들 · 게시됨 2025. 2. 6. 오전 9:35:26

--자세한이 매개변수는 추론 속도(토큰/초)를 나타내는 데 사용됩니다. 예를 들어:

로그인이 보이네요.

>>> 안녕하세요, 누구세요?
<think>

</think>

안녕하세요! 저는 중국 DeepSeek에서 독립적으로 개발한 AI 어시스턴트이며, 여러분께 기쁘게 봉사합니다!

총 시간: 489.831897ms
로딩 시간: 24.116423ms
프롬프트 평가 횟수: 10 토큰
프로프 평가 시간: 4ms
프롬프트 평가 속도: 2500.00 토큰/초
평가 횟수: 36 토큰
평가 시간: 460ms
평가율: 78.26 토큰/초
>>> 나는 작은 쓰레기야, 내 이름이 뭐지?
<think>
내 이름이 쓰레기야? 좀 더 생각해볼게. 어렸을 때 부모님이 제 귀가 크다고 생각해서 저를 '작은 쓰레기'라고 지어주셨던 게 기억나요. 하지만 사실 그게 전부였어요
진짜 이유는 아니에요. 아마도 어렸을 때 손가락을 쓰레기처럼 입에 넣어서 '작은 쓰레기'라고 불렸기 때문일 거예요.

하지만 지금은 이름이 다소 이상하게 들리고, 오늘날 사회의 이름 스타일과는 조금 맞지 않습니다. 나한테 더 잘 맞는 이름으로 이름을 바꾸는 것도 고려해야겠어. 먼저, 나는 자기 자신을 이해해야 한다
당신의 성격 특성과 관심사를 고려하여 의미 있고 독특한 이름을 선택할 수 있습니다.

저는 다른 사람을 돕는 걸 좋아하고 경청과 소통에 능숙하니, '지혜', '따뜻함', '친근함'이 들어간 이름을 고르는 것도 좋을 것 같아요. 동시에 제 성격도 반영하고 싶습니다. 예를 들어
책, 음악, 스포츠를 좋아한다면 이 요소들을 이름에 포함시킬 수 있습니다.

더 나아가, 새 이름이 잘못 기억되거나 오해받지 않도록 해야 합니다. 즉, 이름은 너무 복잡하거나 평범하지 않고, 독특하고 인지하기 쉬워야 합니다. 할 수 있습니다
잘 알려진 인물들의 이름을 참고하여 문화적 유산과 현대성을 모두 가진 인물을 찾아보세요.

또한 발음이 부드럽은지, 긍정적인 의미가 있는지, 그리고 다양한 맥락에서 어떻게 표현되는지도 고려해야 합니다. 즉, 이름을 고를 때는 단지 좋게 들릴 뿐만 아니라
그 뒤에는 의미와 가치가 있어야 합니다.

마지막으로, 가족과 친구들과 소통해서 새 이름에 만족하고 그 이름이 제 삶의 일부가 될 수 있는지 확인해야 합니다. 결국 이름은 단지
정체성은 자기 표현의 일부입니다.

요컨대, 샤오자오는 내 진짜 이름이 아니고, 나에게 더 잘 맞는 이름을 선택할 권리가 있어. 시간과 생각이 필요하지만, 자신의 성격과 관심사를 신중히 분석함으로써
이름의 의미뿐만 아니라, 저에게 가장 적합한 이름을 찾을 수 있을 거라 믿습니다.
</think>

위의 생각 과정을 바탕으로 저는 스스로를 "지혜의 별"이라고 부르기로 결정했습니다. 이 이름은 제 창의성과 따뜻함, 희망을 모두 반영해 제 개인적인 성적 정체성에 완벽히 어울립니다
특성. 동시에 '별'은 빛과 무한한 가능성을 상징하며, 저에게 끊임없이 발전과 성장을 추구하도록 영감을 줍니다.

**최종 명칭: 지혜의 별**

이 이름은 제 성격과 잘 어울릴 뿐만 아니라, 긍정적인 에너지로 가득 차 있어 저를 매우 자랑스럽고 만족스럽게 만듭니다.

총 시간: 7.600299527초
로드 시간: 24.37534ms
프롬프트 평가 횟수: 59 토큰
즉각 평가 지속 시간: 10ms
즉각 평가 속도: 5900.00 토큰/초
평가 수: 557 토큰
평가 기간: 6.618초
평가율: 84.16 토큰/초

작은 쓰레기 같은 놈들 · 게시됨 2025. 2. 6. 오전 10:22:02

AMD GPU가 탑재된 ollama 모델을 배포하기
ollama-for-amd:하이퍼링크 로그인이 보입니다.

참조:하이퍼링크 로그인이 보입니다.

작은 쓰레기 같은 놈들 · 게시됨 2025. 2. 6. 오후 1:26:17

deepseek-r1:32b 모델을 실행하세요

root@VM-0-8-ubuntu:~# nvidia-smi
2025년 2월 6일 목요일 13:25:04
+-----------------------------------------------------------------------------+
| NVIDIA-SMI 525.105.17 드라이버 버전: 525.105.17 CUDA 버전: 12.0 |
|-------------------------------+----------------------+----------------------+
| GPU 이름 Persistence-M| 버스 식별 배분번호 | 불안정한 언코어. ECC |
| 팬 온도 퍼프 PWR: 사용량/캡|       메모리 사용 | GPU 유틸리티 컴퓨트 M. |
|                            |                   |             미그 M. |
|===============================+======================+======================|
| 0 테슬라 V100-SXM2...  On | 00000000:00:08.0 꺼짐 |                꺼져 |
| 해당 없음 65C P0 205W / 300W |  21822MiB / 32768MiB |    89% 디폴트 |
|                            |                   |                해당 없음 |
+-------------------------------+----------------------+----------------------+

+-----------------------------------------------------------------------------+
| 프로세스: |
|  GPU GI CI PID 타입 프로세스 이름 GPU 메모리 |
|       ID ID 사용 |
|=============================================================================|
| 0 해당 없음 91457 C ... 1_avx/ollama_llama_server 21820MiB |
+-----------------------------------------------------------------------------+
root@VM-0-8-Ubuntu:~# 올라마 쇼 딥시크-R1:32B
  모델
아키텍처 QWEN2
매개변수 32.8B
맥락 길이 131072
임베딩 길이 5120
양자화 Q4_K_M

  매개 변수
멈춰 "<|문장 시작|>"
멈춰 "문장 끝<|>"
"<|User|>"
멈춰 "<|조수|>"

  면허
MIT 라이선스
저작권 (c) 2023 딥시크

root@VM-0-8-ubuntu:~# ollama PS
이름 ID 크기 프로세서는
deepseek-r1:32b 38056bbcbb2d 23 GB 100% GPU    Forever

작은 쓰레기 같은 놈들 · 게시됨 2025. 2. 8. 오전 8:34:18

올라마 모델 풀 문제 해결 방법
https://www.itsvse.com/thread-10939-1-1.html

작은 쓰레기 같은 놈들 · 게시됨 2025. 2. 13. 오전 9:25:04

Jetson AGX Orin (32G)에서 DeepSeek R1 32b 모델을 경험해보세요:하이퍼링크 로그인이 보입니다.
Jetson은 대규모 언어 모델을 운영합니다:https://www.jetson-ai-lab.com/models.html

【AI】(3) 텐센트 클라우드, HAI 튜토리얼이 포함된 DeepSeek-R1 배포

관련 게시물