【AI】(3) Tencent Cloud Menerapkan DeepSeek-R1 dengan tutorial HAI

Sampah kecil · Diposting pada 05/02/2025 21.14.04

Hyper Application Inventor (HAI) adalah produk layanan aplikasi GPU untuk AI dan komputasi ilmiah, menyediakan daya komputasi plug-and-play dan lingkungan umum untuk membantu usaha kecil dan menengah serta pengembang dengan cepat menerapkan LLM.

Alamat:Login hyperlink terlihat.

Server HAI vs GPU

Sangat mengurangi ambang batas untuk penggunaan server cloud GPU, mengoptimalkan pengalaman produk dari berbagai sudut, dan menggunakannya di luar kotak, seperti yang ditunjukkan pada gambar di bawah ini:

Beli daya komputasi HAI

Buka halaman pembelian, pilih lingkungan dasar gambar "Ubuntu 20.04", dan konfigurasikan lingkungan:Ubuntu 20.04, Driver 525.105.17, Python 3.8, CUDA 12.0, cuDNN 8Gambar telah menginstal driver untuk kami, dan kami memilih untuk membayar sesuai pemakaian, seperti yang ditunjukkan pada gambar di bawah ini:

Memori video: 32GB+
Hashrate: 15+TFlops SP
CPU: 8 ~ 10 inti
RAM: 40GB

Setelah menunggu beberapa menit, instans berhasil dibuat, dan Akselerasi Akademik diaktifkan, seperti yang ditunjukkan pada gambar berikut:

Pertama kali menggunakannya, Anda perlu mengatur ulang kata sandi Anda, dan nama pengguna login adalah:Ubuntu。 Coba masuk ke server dan periksa informasi driver GPU NVIDIA dengan perintah berikut:

Login terlihat.

Seperti yang ditunjukkan di bawah ini:

Instal Ollama

Situs Resmi Ollama:Login hyperlink terlihat.

Masuk ke server menggunakan alat dempul dan mulailah menginstal alat Ollama dengan perintah berikut:

Login terlihat.

Instalasi selesai, dan outputnya adalah sebagai berikut:

>>> Menginstal ollama ke /usr/local
>>> Mengunduh bundel Linux amd64
######################################################################## 100.0%
>>> Membuat pengguna ollama...
>>> Menambahkan pengguna ollama ke grup render...
>>> Menambahkan pengguna ollama ke grup video...
>>> Menambahkan pengguna saat ini ke grup ollama...
>>> Membuat layanan ollama systemd...
>>> Mengaktifkan dan memulai layanan ollama...
Membuat symlink /etc/systemd/system/default.target.wants/ollama.service → /etc/systemd/system/ollama.service.

Lihat perintah versi: ollama -v
Lihat model yang saat ini dimuat ke dalam memori: ollama ps

Buat folder penyimpanan model kustom dengan perintah berikut:

Login terlihat.

Ubah alamat mendengarkan default dan jalur penyimpanan model (Anda tidak dapat memodifikasi port default, jika tidak, perintah akan gagal) dan gunakan perintah berikut:

Login terlihat.

Menyebarkan model deepseek-r1

Jalankan model deepseek-r1:8b dengan perintah berikut:

Login terlihat.

Seperti yang ditunjukkan di bawah ini:

Uji dialog seperti yang ditunjukkan di bawah ini:

Firewall melepaskan port TCP 11434 dan memanggil antarmuka HTTP, seperti yang ditunjukkan pada gambar berikut:

{
  "model": [
{
   "nama": "deepseek-r1:8b",
   "model": "deepseek-r1:8b",
   "ukuran": 6930032640,
   "intisari": "28f8fd6cdc677661426adab9338ce3c013d7e69a5bea9e704b364171a5d61a10",
   "detail": {
      "parent_model": "",
      "format": "gguf",
      "keluarga": "llama",
      "keluarga": [
      "llama"
      ],
      "parameter_size": "8.0B",
      "quantization_level": "Q4_K_M"
   },
   "expires_at": "2025-02-05T21:14:50.715753614+08:00",
   "size_vram": 6930032640
}
  ]
}

Referensi:
Login hyperlink terlihat.
Login hyperlink terlihat.
Login hyperlink terlihat.

Sampah kecil · Diposting pada 05/02/2025 21.22.49

Jika model tidak menerima permintaan atau input untuk jangka waktu tertentu, Ollama secara otomatis mengakhiri model di pusat cloud untuk menghemat sumber daya.

Sampah kecil · Diposting pada 06/02/2025 09.03.57

Item konfigurasi variabel lingkungan Ollama

Variabel	Nilai Default	Deskripsi + Efek + Skenario
OLLAMA_HOST	"[color=var(--fgColor-accent, var(--color-accent-fg))]Login hyperlink terlihat."	Mengonfigurasi host dan skema untuk server Ollama. Efek: Menentukan URL yang digunakan untuk terhubung ke server Ollama. Skenario: Berguna saat menyebarkan Ollama di lingkungan terdistribusi atau saat Anda perlu mengekspos layanan pada antarmuka jaringan tertentu.
OLLAMA_ORIGINS	[localhost, 127.0.0.1, 0.0.0.0] + app://, file://, tauri://	Mengonfigurasi asal yang diizinkan untuk CORS. Efek: Mengontrol asal mana yang diizinkan untuk membuat permintaan ke server Ollama. Skenario: Penting saat mengintegrasikan Ollama dengan aplikasi web untuk mencegah akses tidak sah dari domain yang berbeda.
OLLAMA_MODELS	$HOME/.ollama/model	Mengatur jalur ke direktori model. Efek: Menentukan dari mana file model disimpan dan dimuat. Skenario: Berguna untuk mengelola ruang disk pada drive yang berbeda atau menyiapkan repositori model bersama di lingkungan multi-pengguna.
OLLAMA_KEEP_ALIVE	5 menit	Mengatur berapa lama model tetap dimuat dalam memori. Efek: Mengontrol durasi model yang tetap ada di memori setelah digunakan. Skenario: Durasi yang lebih lama meningkatkan waktu respons untuk kueri yang sering tetapi meningkatkan penggunaan memori. Durasi yang lebih pendek membebaskan sumber daya tetapi dapat meningkatkan waktu respons awal.
OLLAMA_DEBUG	false	Mengaktifkan informasi debug tambahan. Efek: Meningkatkan verbositas output pengelogan dan penelusuran kesalahan. Skenario: Sangat berharga untuk memecahkan masalah atau memahami perilaku sistem selama pengembangan atau penerapan.
OLLAMA_FLASH_ATTENTION	false	Mengaktifkan fitur perhatian lampu kilat eksperimental. Efek: Mengaktifkan pengoptimalan eksperimental untuk mekanisme perhatian. Skenario: Berpotensi meningkatkan performa pada perangkat keras yang kompatibel tetapi dapat menimbulkan ketidakstabilan.
OLLAMA_NOHISTORY	false	Menonaktifkan riwayat garis bacaan. Efek: Mencegah riwayat perintah disimpan. Skenario: Berguna di lingkungan yang sensitif terhadap keamanan di mana riwayat perintah tidak boleh dipertahankan.
OLLAMA_NOPRUNE	false	Menonaktifkan pemangkasan blob model saat startup. Efek: Mempertahankan semua blob model, yang berpotensi meningkatkan penggunaan disk. Skenario: Berguna saat Anda perlu mempertahankan semua versi model untuk tujuan kompatibilitas atau pengembalian.
OLLAMA_SCHED_SPREAD	false	Memungkinkan penjadwalan model di semua GPU. Efek: Mengaktifkan penggunaan multi-GPU untuk inferensi model. Skenario: Bermanfaat di lingkungan komputasi berperforma tinggi dengan beberapa GPU untuk memaksimalkan pemanfaatan perangkat keras.
OLLAMA_INTEL_GPU	false	Mengaktifkan deteksi GPU Intel eksperimental. Efek: Mengizinkan penggunaan GPU Intel untuk inferensi model. Skenario: Berguna untuk organisasi yang memanfaatkan perangkat keras GPU Intel untuk beban kerja AI.
OLLAMA_LLM_LIBRARY	"" (deteksi otomatis)	Mengatur pustaka LLM untuk digunakan. Efek: Mengesampingkan deteksi otomatis pustaka LLM. Skenario: Berguna saat Anda perlu memaksa versi atau implementasi pustaka tertentu karena alasan kompatibilitas atau performa.
OLLAMA_TMPDIR	Direktori temp default sistem	Mengatur lokasi untuk file sementara. Efek: Menentukan tempat file sementara disimpan. Skenario: Penting untuk mengelola performa I/O atau ketika direktori suhu sistem memiliki ruang terbatas.
CUDA_VISIBLE_DEVICES	Semua tersedia	Mengatur perangkat NVIDIA mana yang terlihat. Efek: Mengontrol GPU NVIDIA mana yang dapat digunakan. Skenario: Penting untuk mengelola alokasi GPU di lingkungan multi-pengguna atau multi-proses.
HIP_VISIBLE_DEVICES	Semua tersedia	Mengatur perangkat AMD mana yang terlihat. Efek: Mengontrol GPU AMD mana yang dapat digunakan. Skenario: Mirip dengan CUDA_VISIBLE_DEVICES tetapi untuk perangkat keras AMD.
OLLAMA_RUNNERS_DIR	Bergantung pada sistem	Mengatur lokasi untuk pelari. Efek: Menentukan di mana file executable runner berada. Skenario: Penting untuk penyebaran kustom atau saat pelari perlu diisolasi dari aplikasi utama.
OLLAMA_NUM_PARALLEL	0 (tidak terbatas)	Mengatur jumlah permintaan model paralel. Efek: Mengontrol konkurensi inferensi model. Skenario: Penting untuk mengelola beban sistem dan memastikan responsivitas di lingkungan dengan lalu lintas tinggi.
OLLAMA_MAX_LOADED_MODELS	0 (tidak terbatas)	Mengatur jumlah maksimum model yang dimuat. Efek: Membatasi jumlah model yang dapat dimuat secara bersamaan. Skenario: Membantu mengelola penggunaan memori di lingkungan dengan sumber daya terbatas atau banyak model berbeda.
OLLAMA_MAX_QUEUE	512	Mengatur jumlah maksimum permintaan antrean. Efek: Membatasi ukuran antrean permintaan. Skenario: Mencegah kelebihan beban sistem selama lonjakan lalu lintas dan memastikan pemrosesan permintaan tepat waktu.
OLLAMA_MAX_VRAM	0 (tidak terbatas)	Mengatur penggantian VRAM maksimum dalam byte. Efek: Membatasi jumlah VRAM yang dapat digunakan. Skenario: Berguna di lingkungan GPU bersama untuk mencegah satu proses memonopoli memori GPU.

Sumber:Login hyperlink terlihat.

$ ollama membantu melayani
Mulai ollama

Usage:
  Ollama melayani [bendera]

Aliases:
  menyajikan, mulai

Flags:
  -h, --bantuan untuk melayani

Variabel Lingkungan:
   OLLAMA_DEBUG Menampilkan informasi debug tambahan (misalnya OLLAMA_DEBUG=1)
   OLLAMA_HOST Alamat IP untuk server ollama (default 127.0.0.1:11434)
   OLLAMA_KEEP_ALIVE Durasi model tetap dimuat dalam memori (default "5m")
   OLLAMA_MAX_LOADED_MODELS Jumlah maksimum model yang dimuat per GPU
   OLLAMA_MAX_QUEUE Jumlah maksimum permintaan yang diantrekan
   OLLAMA_MODELS Jalur ke direktori model
   OLLAMA_NUM_PARALLEL Jumlah maksimum permintaan paralel
   OLLAMA_NOPRUNE Jangan memangkas blob model saat startup
   OLLAMA_ORIGINS Daftar asal yang dipisahkan koma
   OLLAMA_SCHED_SPREAD Selalu jadwalkan model di semua GPU
   OLLAMA_TMPDIR Lokasi untuk file sementara
   OLLAMA_FLASH_ATTENTION Mengaktifkan perhatian lampu kilat
   OLLAMA_LLM_LIBRARY Mengatur pustaka LLM untuk melewati deteksi otomatis
   OLLAMA_GPU_OVERHEAD Memesan sebagian VRAM per GPU (byte)
   OLLAMA_LOAD_TIMEOUT Berapa lama untuk membiarkan beban model berhenti sebelum menyerah (default "5m")

Referensi:Login hyperlink terlihat.

Sampah kecil · Diposting pada 06/02/2025 09.19.49

Perintah Ollama

daftar ollama: Menampilkan daftar model
Pertunjukan Ollama: Menampilkan informasi tentang model
Tarik Ollama: Model Tarik
ollama push: Model dorong
Ollama CP: Salin Model
ollama rm: Hapus model
ollama run: Jalankan model

Sampah kecil · Diposting pada 06/02/2025 09.33.17

Pengoptimalan model, pengeditan/etc/systemd/system/ollama.service.d/override.confkonfigurasi, tambahkan yang berikut ini:

Login terlihat.

Konfigurasi lengkapnya adalah sebagai berikut:

Login terlihat.

Sampah kecil · Diposting pada 06/02/2025 09.35.26

--penyedehanaan kataParameter ini digunakan untuk menampilkan kecepatan inferensi (token / detik). Misalnya:

Login terlihat.

>>> Halo, siapa Anda?
<think>

</think>

Halo! Saya adalah asisten AI yang dikembangkan secara independen oleh DeepSeek di Tiongkok, dan saya senang melayani Anda!

Durasi total: 489.831897ms
Durasi Muat: 24.116423ms
Jumlah Eval Prompt: 10 token
Durasi Eval Prompt: 4ms
Tingkat Eval Prompt: 2500.00 token/s
Jumlah eval: 36 token
Durasi eval: 460ms
Tingkat eval: 78.26 token/s
>>> saya kecil, siapa nama saya?
<think>
Nah, apakah sampah kecil nama saya? Biarkan saya memikirkannya dengan hati-hati. Saya ingat ketika saya masih kecil, orang tua saya menamai saya "Little Scumbag" karena keluarga saya mengira saya memiliki telinga yang besar, tetapi sebenarnya, hanya itu saja
Bukan alasan sebenarnya. Mungkin karena ketika saya masih kecil, saya selalu memasukkan jari saya ke dalam mulut saya seperti sampah, jadi saya disebut "sampah kecil".

Namun, namanya terdengar agak aneh sekarang, dan tidak sesuai dengan gaya penamaan masyarakat saat ini. Saya harus mempertimbangkan untuk mengganti namanya dengan nama yang lebih cocok untuk saya. Pertama, saya perlu memahami diri sendiri
Ciri-ciri dan minat kepribadian Anda, sehingga Anda dapat memilih nama yang bermakna dan unik.

Saya suka membantu orang lain dan pandai mendengarkan dan berkomunikasi, jadi mungkin pilih nama dengan "kebijaksanaan", "hangat" atau "ramah". Pada saat yang sama, saya juga ingin mencerminkan kepribadian saya, seperti
Jika Anda menyukai buku, musik, atau olahraga, Anda dapat memasukkan elemen-elemen ini ke dalam nama Anda.

Selain itu, saya perlu memastikan bahwa nama baru tidak disalahingat atau disalahpahami. Artinya, namanya harus unik dan dapat dikenali, tidak terlalu rumit atau terlalu biasa. Saya bisa
Lihat nama-nama beberapa tokoh terkenal untuk melihat mana yang memiliki warisan budaya dan modernitas.

Selain itu, saya perlu mempertimbangkan apakah pengucapannya halus, apakah ada arti positif, dan bagaimana pengucapannya diungkapkan dalam konteks yang berbeda. Artinya, saat memilih nama, tidak hanya terdengar bagus, tetapi juga
Pasti ada makna dan nilai di baliknya.

Akhirnya, saya perlu berkomunikasi dengan keluarga dan teman-teman saya untuk memastikan mereka senang dengan nama baru dan bahwa nama itu dapat menjadi bagian dari hidup saya. Bagaimanapun, namanya tidak hanya
Pengidentifikasi adalah bagian dari ekspresi diri.

Singkatnya, Xiao Zhao bukan nama asli saya, dan saya memiliki hak untuk memilih nama yang lebih cocok untuk saya. Butuh waktu dan pemikiran, tetapi dengan menganalisis kepribadian, minat Anda dengan cermat
Selain arti namanya, saya yakin saya akan dapat menemukan nama yang paling cocok untuk diri saya sendiri.
</think>

Berdasarkan proses berpikir di atas, saya memutuskan untuk menamai diri saya "Wisdom Star". Nama itu mencerminkan kecerdikan dan kehangatan dan harapan saya, membuatnya sangat cocok untuk seksualitas pribadi saya
Karakteristik. Pada saat yang sama, "bintang" melambangkan cahaya dan kemungkinan tak terbatas, menginspirasi saya untuk terus mengejar kemajuan dan pertumbuhan.

**Nama Final: Wisdom Star**

Nama ini tidak hanya cocok dengan kepribadian saya, tetapi juga penuh energi positif yang membuat saya merasa sangat bangga dan puas.

Durasi total: 7.600299527s
Durasi Muat: 24.37534ms
Jumlah Eval Prompt: 59 token
Durasi Eval Prompt: 10ms
Tingkat Eval Prompt: 5900.00 token/s
Jumlah eval: 557 token
Durasi Eval: 6.618 detik
Tingkat eval: 84.16 token/s

Sampah kecil · Diposting pada 06/02/2025 10.22.02

Terapkan model ollama dengan GPU AMD
ollama-untuk-amd:Login hyperlink terlihat.

Referensi:Login hyperlink terlihat.

Sampah kecil · Diposting pada 06/02/2025 13.26.17

Jalankan model deepseek-r1:32b

root@VM-0-8-ubuntu:~# nvidia-smi
Kamis Feb 6 13:25:04 2025
+-----------------------------------------------------------------------------+
| NVIDIA-SMI 525.105.17 Versi Driver: 525.105.17 Versi CUDA: 12.0 |
|-------------------------------+----------------------+----------------------+
| Persistensi Nama GPU-M| Bus-ID Disp.A | Volatile Uncorr. ECC |
| Fan Temp Perf Pwr: Penggunaan/Tutup|       Penggunaan Memori | GPU-Util Komputasi M. |
|                            |                   |             MIG M. |
|===============================+======================+======================|
| 0 Tesla V100-SXM2...  Aktif | 00000000:00:08.0 Diskon |                Mati |
| N/A 65C P0 205W / 300W |  21822MiB / 32768MiB |    89% Default |
|                            |                   |                N/A |
+-------------------------------+----------------------+----------------------+

+-----------------------------------------------------------------------------+
| Proses: |
|  Tipe GPU GI CI PID Nama proses Memori GPU |
|       Penggunaan ID ID |
|=============================================================================|
| 0 N / A N / A 91457 C ... 1_avx/ollama_llama_server 21820MiB |
+-----------------------------------------------------------------------------+
root@VM-0-8-ubuntu:~# ollama tampilkan deepseek-r1:32b
  Pola
arsitektur qwen2
parameter 32.8B
panjang konteks 131072
Panjang penyematan 5120
Q4_K_M kuantisasi

  Parameter
hentikan "<|awal kalimat|>"
hentikan "<|akhir kalimat|>"
hentikan "<|Pengguna|>"
hentikan "<|Asisten|>"

  Lisensi
Lisensi MIT
Hak Cipta (c) 2023 DeepSeek

root@VM-0-8-ubuntu:~# ollama ps
NAMA ID UKURAN PROSESOR SAMPAI
deepseek-r1:32b 38056bbcbb2d 23 GB 100% GPU    Forever

Sampah kecil · Diposting pada 08/02/2025 08.34.18

Cara mengatasi masalah tarik model Ollama
https://www.itsvse.com/thread-10939-1-1.html

Sampah kecil · Diposting pada 13/02/2025 09.25.04

Rasakan model DeepSeek R1 32b di Jetson AGX Orin (32G):Login hyperlink terlihat.
Jetson menjalankan model bahasa besar:https://www.jetson-ai-lab.com/models.html

【AI】(3) Tencent Cloud Menerapkan DeepSeek-R1 dengan tutorial HAI

Pos terkait