이 글은 기계 번역의 미러 문서이며, 원본 기사로 바로 이동하려면 여기를 클릭해 주세요.

보기: 2394|회답: 10

【AI】(3) 텐센트 클라우드, HAI 튜토리얼이 포함된 DeepSeek-R1 배포

[링크 복사]
2025-2-5 21:14:04에 게시됨 | | | |
Hyper Application Inventor(HAI)는 AI 및 과학 컴퓨팅을 위한 GPU 애플리케이션 서비스 제품으로, 플러그 앤 플레이 컴퓨팅 파워와 일반 환경을 제공하여 중소기업과 개발자들이 LLM을 신속하게 배포할 수 있도록 돕습니다.

주소:하이퍼링크 로그인이 보입니다.

HAI와 GPU 서버

GPU 클라우드 서버 사용 기준을 크게 낮추고, 제품 경험을 여러 각도에서 최적화하며, 아래 그림에서 보듯이 바로 사용할 수 있습니다:



HAI 컴퓨팅 파워 구매

구매 페이지로 가서 기본 환경 "Ubuntu 20.04" 이미지를 선택한 후 환경을 구성하세요:Ubuntu 20.04, 드라이버 525.105.17, Python 3.8, CUDA 12.0, cuDNN 8이미지는 이미 드라이버를 설치해 두었고, 우리는 아래 그림에서 보듯이 진행 중을 지불하기로 했습니다:



비디오 메모리: 32GB+
해시레이트: 15+TFlops SP
CPU: 8~10코어
RAM: 40GB

몇 분간 기다린 후, 인스턴스가 성공적으로 생성되고 학업 가속이 켜집니다. 아래 그림에서 확인할 수 있습니다:



처음 사용할 때는 비밀번호를 재설정해야 하며, 로그인 사용자 이름은 다음과 같습니다:우분투。 서버에 로그인해서 다음 명령어로 NVIDIA GPU 드라이버 정보를 확인해 보세요:


아래에 나와 있습니다:


올라마 설치

올라마 공식 웹사이트:하이퍼링크 로그인이 보입니다.

퍼티 툴로 서버에 로그인한 후 다음 명령어로 Ollama 툴 설치를 시작하세요:


설치가 완료되었으며, 결과물은 다음과 같습니다:
>>> /usr/local에 ollama 설치
>>> 리눅스 amd64 번들 다운로드
######################################################################## 100.0%
>>> 올라마 사용자 생성...
>>> ollama 사용자를 렌더링 그룹에 추가하기...
>>> 올라마 사용자 비디오 그룹에 추가하기...
>>> 현재 사용자를 올라마 그룹에 추가하는 중...
>>> 올라마 시스템 서비스 만들기...
>>> 올라마 서비스 활성화 및 시작...
/etc/systemd/system/ollama.service → 심볼링크 /etc/systemd/system/ollama.service 생성.

버전 명령어를 확인해 보세요: ollama -v
현재 메모리에 로드된 모델을 보세요: ollama ps.

다음 명령어로 맞춤형 모델 저장 폴더를 생성하세요:

기본 리스닝 주소와 모델 저장 경로를 수정하세요(기본 포트를 수정하면 명령이 실패합니다) 그리고 다음 명령어를 사용하세요:


deepseek-r1 모델 배포

deepseek-r1:8b 모델을 다음 명령어로 실행하세요:


아래에 나와 있습니다:



아래에 표시된 대화 내용을 테스트해 보세요:



방화벽은 TCP 포트 11434를 해제하고 HTTP 인터페이스를 호출하며, 다음 그림에서 확인할 수 있습니다:



{
  "모델": [
    {
      "이름": "deepseek-r1:8b",
      "모델": "딥시크-R1:8B",
      "크기": 6930032640,
      "다이제스트": "28F8FD6cdc677661426adab9338ce3C013D7E69A5bea9E704B364171A5D61A10",
      "세부사항": {
        "parent_model": "",
        "format": "gguf",
        "가족": "라마",
        "가족": [
          "라마"
        ],
        "parameter_size": "8.0B",
        "quantization_level": "Q4_K_M"
      },
      "expires_at": "2025-02-05T21:14:50.715753614+08:00",
      "size_vram": 6930032640
    }
  ]
}

참조:
하이퍼링크 로그인이 보입니다.
하이퍼링크 로그인이 보입니다.
하이퍼링크 로그인이 보입니다.




이전의:[AI] (2) DeepSeek-V3와 R1 버전의 차이점
다음:[AI] (4) Open WebUI를 사용하여 DeepSeek-R1 모델을 호출하기
 집주인| 2025-2-5 21:22:49에 게시됨 |
모델이 일정 기간 요청이나 입력을 받지 못하면, Ollama는 자원을 절약하기 위해 클라우드 센터에서 모델을 자동으로 종료합니다.
 집주인| 2025-2-6 09:03:57에 게시됨 |
Ollama 환경 변수 구성 항목

변수기본 값설명 + 효과 + 시나리오
OLLAMA_HOST"[color=var(--fgColor-accent, var(--color-accent-fg))]하이퍼링크 로그인이 보입니다."Ollama 서버의 호스트와 스킴을 구성합니다. 효과: Ollama 서버에 접속하는 데 사용되는 URL을 결정합니다. 시나리오: 분산 환경에서 Ollama를 배포하거나 특정 네트워크 인터페이스에 서비스를 노출해야 할 때 유용합니다.
OLLAMA_ORIGINS[localhost, 127.0.0.1, 0.0.0.0] + app://, file://, tauri://컨figure는 CORS의 기원을 가능하게 했습니다. 효과: 어떤 오리진이 올라마 서버에 요청을 할 수 있는지 제어합니다. 시나리오: Ollama를 웹 애플리케이션과 통합할 때 서로 다른 도메인에서 무단 접근을 방지하기 위해 매우 중요합니다.
OLLAMA_MODELS$HOME/.ollama/models모델을 가진 디렉터리로 가는 경로를 설정합니다. 효과: 모델 파일이 저장되고 로드되는 위치를 결정합니다. 시나리오: 서로 다른 드라이브의 디스크 공간을 관리하거나 다중 사용자 환경에서 공유 모델 저장소를 설정하는 데 유용합니다.
OLLAMA_KEEP_ALIVE5분모델이 메모리에 얼마나 오래 로드되는지 설정합니다. 효과: 사용 후 모델 지속 시간을 메모리에 남기도록 제어합니다. 시나리오: 더 긴 시간 동안 빈번한 쿼리에 대한 응답 시간은 개선되지만 메모리 사용량이 증가합니다. 짧은 시간은 자원을 확보하지만 초기 대응 시간이 늘어날 수 있습니다.
OLLAMA_DEBUGfalse추가 디버그 정보를 활성화합니다. 효과: 로그와 디버깅 출력의 장황함을 증가시킵니다. 시나리오: 문제 해결이나 개발 또는 배포 중 시스템 동작을 이해하는 데 매우 유용합니다.
OLLAMA_FLASH_ATTENTIONfalse실험적인 플래시 주의 기능을 활성화합니다. 효과: 주의 메커니즘에 대한 실험적 최적화를 활성화합니다. 시나리오: 호환 하드웨어에서 성능을 향상시킬 수 있지만 불안정성을 초래할 수 있습니다.
OLLAMA_NOHISTORYfalse리드라인 히스토리를 비활성화합니다. 효과: 명령 기록이 저장되는 것을 막습니다. 시나리오: 명령 이력을 유지해서는 안 되는 보안 민감 환경에서 유용합니다.
OLLAMA_NOPRUNEfalse시작 시 모델 블롭의 가지치기를 비활성화합니다. 효과: 모든 모델 블롭을 유지하여 디스크 사용량을 증가시킬 수 있습니다. 시나리오: 호환성이나 롤백 목적으로 모든 모델 버전을 유지해야 할 때 유용합니다.
OLLAMA_SCHED_SPREADfalse모든 GPU에서 모델을 스케줄링할 수 있습니다. 효과: 모델 추론을 위한 다중 GPU 사용을 가능하게 합니다. 시나리오: 다중 GPU가 탑재된 고성능 컴퓨팅 환경에서 하드웨어 활용도를 극대화하는 데 유리합니다.
OLLAMA_INTEL_GPUfalse실험적인 인텔 GPU 감지 기능을 지원합니다. 효과: 모델 추론을 위해 인텔 GPU를 사용할 수 있습니다. 시나리오: AI 워크로드에 인텔 GPU 하드웨어를 활용하는 조직에 유용합니다.
OLLAMA_LLM_LIBRARY"" (자동 감지)LLM 라이브러리를 사용하도록 설정합니다. 효과: LLM 라이브러리의 자동 감지를 무시함. 시나리오: 호환성이나 성능 문제로 특정 라이브러리 버전이나 구현을 강제해야 할 때 유용합니다.
OLLAMA_TMPDIR시스템 기본 임시 디렉터리임시 파일 위치를 설정합니다. 효과: 임시 파일이 저장되는 위치를 결정합니다. 시나리오: I/O 성능 관리나 시스템 임시 디렉터리 공간이 제한적일 때 중요합니다.
CUDA_VISIBLE_DEVICES모두 이용 가능합니다NVIDIA 기기가 보이는 세트입니다. 효과: 사용할 수 있는 NVIDIA GPU를 제어합니다. 시나리오: 다중 사용자 또는 다중 프로세스 환경에서 GPU 할당을 관리하는 데 매우 중요합니다.
HIP_VISIBLE_DEVICES모두 이용 가능합니다어떤 AMD 기기가 보이는지 설정하는 것입니다. 효과: 어떤 AMD GPU를 사용할 수 있는지 제어합니다. 시나리오: CUDA_VISIBLE_DEVICES와 비슷하지만 AMD 하드웨어를 위한 것입니다.
OLLAMA_RUNNERS_DIR시스템 의존성러너의 위치를 정해. 효과: 러너 실행 파일이 어디에 위치하는지 결정합니다. 시나리오: 커스텀 배포나 러너를 메인 애플리케이션에서 분리해야 할 때 중요합니다.
OLLAMA_NUM_PARALLEL0 (무제한)병렬 모델 요청 횟수를 설정합니다. 효과: 모델 추론의 동시성을 제어합니다. 시나리오: 시스템 부하 관리와 고트래픽 환경에서 반응성 확보에 매우 중요합니다.
OLLAMA_MAX_LOADED_MODELS0 (무제한)최대 장착 모델 수를 설정합니다. 효과: 동시에 로드할 수 있는 모델 수를 제한합니다. 시나리오: 제한된 자원이나 다양한 모델이 있는 환경에서 메모리 사용량을 관리하는 데 도움을 줍니다.
OLLAMA_MAX_QUEUE512대기열에 있는 최대 요청 수를 설정합니다. 효과: 요청 대기열 크기를 제한합니다. 시나리오: 트래픽 급증 시 시스템 과부하를 방지하고 요청의 적시 처리를 보장합니다.
OLLAMA_MAX_VRAM0 (무제한)최대 VRAM 오버라이드 용량을 바이트 단위로 설정합니다. 효과: 사용할 수 있는 VRAM 양을 제한합니다. 시나리오: 공유 GPU 환경에서 단일 프로세스가 GPU 메모리를 독점하는 것을 방지하는 데 유용합니다.


근원:하이퍼링크 로그인이 보입니다.

$ 올라마 도와서 서브
올라마 시작해

Usage:
  올라마 서브 [깃발]

Aliases:
  서브, 시작

Flags:
  -h, --서브 도움

환경 변수:
      OLLAMA_DEBUG 추가 디버그 정보 표시 (예: OLLAMA_DEBUG=1)
      OLLAMA_HOST 올라마 서버의 IP 주소 (기본 127.0.0.1:11434)
      OLLAMA_KEEP_ALIVE 모델이 메모리에 로드되는 시간 (기본 "5m")
      OLLAMA_MAX_LOADED_MODELS GPU당 최대 로드된 모델 수
      OLLAMA_MAX_QUEUE 대기열 요청 최대 수
      OLLAMA_MODELS 모델 디렉터리로 가는 경로
      OLLAMA_NUM_PARALLEL 최대 병렬 요청 수
      OLLAMA_NOPRUNE 시작 시 모델 블롭을 가지치기하지 마세요
      OLLAMA_ORIGINS 허용된 기원 목록은 쉼표로 구분되어 있습니다
      OLLAMA_SCHED_SPREAD 항상 모든 GPU에 걸쳐 모델을 스케줄링하세요
      OLLAMA_TMPDIR 임시 파일 위치
      OLLAMA_FLASH_ATTENTION 플래시 주의 활성화
      OLLAMA_LLM_LIBRARY 자동 감지를 우회하도록 LLM 라이브러리를 설정하세요
      OLLAMA_GPU_OVERHEAD GPU당 VRAM 일부(바이트)를 예약하세요
      OLLAMA_LOAD_TIMEOUT 모델 부하가 멈추기 전까지 얼마나 오래 허용해야 하나요 (기본값 "5m")


참조:하이퍼링크 로그인이 보입니다.
 집주인| 2025-2-6 09:19:49에 게시됨 |
올라마 사령부

올라마 리스트: 모델 목록을 표시합니다
올라마 쇼: 모델 정보를 표시합니다
올라마 풀: 풀 모델
올라마 푸시: 푸시 모델
올라마 CP: 모델 복사
ollama rm: 모델 삭제
올라마 런: 모델 하나 돌려
 집주인| 2025-2-6 09:33:17에 게시됨 |
모델 최적화, 편집/etc/systemd/system/ollama.service.d/override.conf구성, 다음을 추가하세요:


전체 구성은 다음과 같습니다:



 집주인| 2025-2-6 09:35:26에 게시됨 |
--자세한이 매개변수는 추론 속도(토큰/초)를 나타내는 데 사용됩니다. 예를 들어:

>>> 안녕하세요, 누구세요?
<think>

</think>

안녕하세요! 저는 중국 DeepSeek에서 독립적으로 개발한 AI 어시스턴트이며, 여러분께 기쁘게 봉사합니다!

총 시간: 489.831897ms
로딩 시간: 24.116423ms
프롬프트 평가 횟수: 10 토큰
프로프 평가 시간: 4ms
프롬프트 평가 속도: 2500.00 토큰/초
평가 횟수: 36 토큰
평가 시간: 460ms
평가율: 78.26 토큰/초
>>> 나는 작은 쓰레기야, 내 이름이 뭐지?
<think>
내 이름이 쓰레기야? 좀 더 생각해볼게. 어렸을 때 부모님이 제 귀가 크다고 생각해서 저를 '작은 쓰레기'라고 지어주셨던 게 기억나요. 하지만 사실 그게 전부였어요
진짜 이유는 아니에요. 아마도 어렸을 때 손가락을 쓰레기처럼 입에 넣어서 '작은 쓰레기'라고 불렸기 때문일 거예요.

하지만 지금은 이름이 다소 이상하게 들리고, 오늘날 사회의 이름 스타일과는 조금 맞지 않습니다. 나한테 더 잘 맞는 이름으로 이름을 바꾸는 것도 고려해야겠어. 먼저, 나는 자기 자신을 이해해야 한다
당신의 성격 특성과 관심사를 고려하여 의미 있고 독특한 이름을 선택할 수 있습니다.

저는 다른 사람을 돕는 걸 좋아하고 경청과 소통에 능숙하니, '지혜', '따뜻함', '친근함'이 들어간 이름을 고르는 것도 좋을 것 같아요. 동시에 제 성격도 반영하고 싶습니다. 예를 들어
책, 음악, 스포츠를 좋아한다면 이 요소들을 이름에 포함시킬 수 있습니다.

더 나아가, 새 이름이 잘못 기억되거나 오해받지 않도록 해야 합니다. 즉, 이름은 너무 복잡하거나 평범하지 않고, 독특하고 인지하기 쉬워야 합니다. 할 수 있습니다
잘 알려진 인물들의 이름을 참고하여 문화적 유산과 현대성을 모두 가진 인물을 찾아보세요.

또한 발음이 부드럽은지, 긍정적인 의미가 있는지, 그리고 다양한 맥락에서 어떻게 표현되는지도 고려해야 합니다. 즉, 이름을 고를 때는 단지 좋게 들릴 뿐만 아니라
그 뒤에는 의미와 가치가 있어야 합니다.

마지막으로, 가족과 친구들과 소통해서 새 이름에 만족하고 그 이름이 제 삶의 일부가 될 수 있는지 확인해야 합니다. 결국 이름은 단지
정체성은 자기 표현의 일부입니다.

요컨대, 샤오자오는 내 진짜 이름이 아니고, 나에게 더 잘 맞는 이름을 선택할 권리가 있어. 시간과 생각이 필요하지만, 자신의 성격과 관심사를 신중히 분석함으로써
이름의 의미뿐만 아니라, 저에게 가장 적합한 이름을 찾을 수 있을 거라 믿습니다.
</think>

위의 생각 과정을 바탕으로 저는 스스로를 "지혜의 별"이라고 부르기로 결정했습니다. 이 이름은 제 창의성과 따뜻함, 희망을 모두 반영해 제 개인적인 성적 정체성에 완벽히 어울립니다
특성. 동시에 '별'은 빛과 무한한 가능성을 상징하며, 저에게 끊임없이 발전과 성장을 추구하도록 영감을 줍니다.

**최종 명칭: 지혜의 별**

이 이름은 제 성격과 잘 어울릴 뿐만 아니라, 긍정적인 에너지로 가득 차 있어 저를 매우 자랑스럽고 만족스럽게 만듭니다.

총 시간: 7.600299527초
로드 시간: 24.37534ms
프롬프트 평가 횟수: 59 토큰
즉각 평가 지속 시간: 10ms
즉각 평가 속도: 5900.00 토큰/초
평가 수: 557 토큰
평가 기간: 6.618초
평가율: 84.16 토큰/초

 집주인| 2025-2-6 10:22:02에 게시됨 |
AMD GPU가 탑재된 ollama 모델을 배포하기
ollama-for-amd:하이퍼링크 로그인이 보입니다.

참조:하이퍼링크 로그인이 보입니다.
 집주인| 2025-2-6 13:26:17에 게시됨 |
deepseek-r1:32b 모델을 실행하세요




root@VM-0-8-ubuntu:~# nvidia-smi
2025년 2월 6일 목요일 13:25:04
+-----------------------------------------------------------------------------+
| NVIDIA-SMI 525.105.17 드라이버 버전: 525.105.17 CUDA 버전: 12.0 |
|-------------------------------+----------------------+----------------------+
| GPU 이름 Persistence-M| 버스 식별 배분번호 | 불안정한 언코어. ECC |
| 팬 온도 퍼프 PWR: 사용량/캡|         메모리 사용 | GPU 유틸리티 컴퓨트 M. |
|                               |                      |               미그 M. |
|===============================+======================+======================|
|   0 테슬라 V100-SXM2...  On | 00000000:00:08.0 꺼짐 |                  꺼져 |
| 해당 없음 65C P0 205W / 300W |  21822MiB / 32768MiB |     89% 디폴트 |
|                               |                      |                  해당 없음 |
+-------------------------------+----------------------+----------------------+

+-----------------------------------------------------------------------------+
| 프로세스: |
|  GPU GI CI PID 타입 프로세스 이름 GPU 메모리 |
|        ID ID 사용 |
|=============================================================================|
|    0 해당 없음 91457 C ... 1_avx/ollama_llama_server 21820MiB |
+-----------------------------------------------------------------------------+
root@VM-0-8-Ubuntu:~# 올라마 쇼 딥시크-R1:32B
  모델
    아키텍처 QWEN2
    매개변수 32.8B
    맥락 길이 131072
    임베딩 길이 5120
    양자화 Q4_K_M

  매개 변수
    멈춰 "<|문장 시작|>"
    멈춰 "문장 끝<|>"
    "<|User|>"
    멈춰 "<|조수|>"

  면허
    MIT 라이선스
    저작권 (c) 2023 딥시크

root@VM-0-8-ubuntu:~# ollama PS
이름 ID 크기 프로세서는
deepseek-r1:32b    38056bbcbb2d    23 GB    100% GPU     Forever


 집주인| 2025-2-8 08:34:18에 게시됨 |
올라마 모델 풀 문제 해결 방법
https://www.itsvse.com/thread-10939-1-1.html
 집주인| 2025-2-13 09:25:04에 게시됨 |
Jetson AGX Orin (32G)에서 DeepSeek R1 32b 모델을 경험해보세요:하이퍼링크 로그인이 보입니다.
Jetson은 대규모 언어 모델을 운영합니다:https://www.jetson-ai-lab.com/models.html

면책 조항:
Code Farmer Network에서 발행하는 모든 소프트웨어, 프로그래밍 자료 또는 기사는 학습 및 연구 목적으로만 사용됩니다; 위 내용은 상업적 또는 불법적인 목적으로 사용되지 않으며, 그렇지 않으면 모든 책임이 사용자에게 부담됩니다. 이 사이트의 정보는 인터넷에서 가져온 것이며, 저작권 분쟁은 이 사이트와는 관련이 없습니다. 위 내용은 다운로드 후 24시간 이내에 컴퓨터에서 완전히 삭제해야 합니다. 프로그램이 마음에 드신다면, 진짜 소프트웨어를 지원하고, 등록을 구매하며, 더 나은 진짜 서비스를 받아주세요. 침해가 있을 경우 이메일로 연락해 주시기 바랍니다.

Mail To:help@itsvse.com