Artikel ini adalah artikel cermin dari terjemahan mesin, silakan klik di sini untuk melompat ke artikel aslinya.

Melihat: 2394|Jawab: 10

【AI】(3) Tencent Cloud Menerapkan DeepSeek-R1 dengan tutorial HAI

[Salin tautan]
Dipaparkan pada 2025-2-5 21:14:04 | | | |
Hyper Application Inventor (HAI) adalah produk layanan aplikasi GPU untuk AI dan komputasi ilmiah, menyediakan daya komputasi plug-and-play dan lingkungan umum untuk membantu usaha kecil dan menengah serta pengembang dengan cepat menerapkan LLM.

Alamat:Login hyperlink terlihat.

Server HAI vs GPU

Sangat mengurangi ambang batas untuk penggunaan server cloud GPU, mengoptimalkan pengalaman produk dari berbagai sudut, dan menggunakannya di luar kotak, seperti yang ditunjukkan pada gambar di bawah ini:



Beli daya komputasi HAI

Buka halaman pembelian, pilih lingkungan dasar gambar "Ubuntu 20.04", dan konfigurasikan lingkungan:Ubuntu 20.04, Driver 525.105.17, Python 3.8, CUDA 12.0, cuDNN 8Gambar telah menginstal driver untuk kami, dan kami memilih untuk membayar sesuai pemakaian, seperti yang ditunjukkan pada gambar di bawah ini:



Memori video: 32GB+
Hashrate: 15+TFlops SP
CPU: 8 ~ 10 inti
RAM: 40GB

Setelah menunggu beberapa menit, instans berhasil dibuat, dan Akselerasi Akademik diaktifkan, seperti yang ditunjukkan pada gambar berikut:



Pertama kali menggunakannya, Anda perlu mengatur ulang kata sandi Anda, dan nama pengguna login adalah:Ubuntu。 Coba masuk ke server dan periksa informasi driver GPU NVIDIA dengan perintah berikut:


Seperti yang ditunjukkan di bawah ini:


Instal Ollama

Situs Resmi Ollama:Login hyperlink terlihat.

Masuk ke server menggunakan alat dempul dan mulailah menginstal alat Ollama dengan perintah berikut:


Instalasi selesai, dan outputnya adalah sebagai berikut:
>>> Menginstal ollama ke /usr/local
>>> Mengunduh bundel Linux amd64
######################################################################## 100.0%
>>> Membuat pengguna ollama...
>>> Menambahkan pengguna ollama ke grup render...
>>> Menambahkan pengguna ollama ke grup video...
>>> Menambahkan pengguna saat ini ke grup ollama...
>>> Membuat layanan ollama systemd...
>>> Mengaktifkan dan memulai layanan ollama...
Membuat symlink /etc/systemd/system/default.target.wants/ollama.service → /etc/systemd/system/ollama.service.

Lihat perintah versi: ollama -v
Lihat model yang saat ini dimuat ke dalam memori: ollama ps

Buat folder penyimpanan model kustom dengan perintah berikut:

Ubah alamat mendengarkan default dan jalur penyimpanan model (Anda tidak dapat memodifikasi port default, jika tidak, perintah akan gagal) dan gunakan perintah berikut:


Menyebarkan model deepseek-r1

Jalankan model deepseek-r1:8b dengan perintah berikut:


Seperti yang ditunjukkan di bawah ini:



Uji dialog seperti yang ditunjukkan di bawah ini:



Firewall melepaskan port TCP 11434 dan memanggil antarmuka HTTP, seperti yang ditunjukkan pada gambar berikut:



{
  "model": [
    {
      "nama": "deepseek-r1:8b",
      "model": "deepseek-r1:8b",
      "ukuran": 6930032640,
      "intisari": "28f8fd6cdc677661426adab9338ce3c013d7e69a5bea9e704b364171a5d61a10",
      "detail": {
        "parent_model": "",
        "format": "gguf",
        "keluarga": "llama",
        "keluarga": [
          "llama"
        ],
        "parameter_size": "8.0B",
        "quantization_level": "Q4_K_M"
      },
      "expires_at": "2025-02-05T21:14:50.715753614+08:00",
      "size_vram": 6930032640
    }
  ]
}

Referensi:
Login hyperlink terlihat.
Login hyperlink terlihat.
Login hyperlink terlihat.




Mantan:[AI] (2) Perbedaan antara versi DeepSeek-V3 vs R1
Depan:[AI] (4) Gunakan Open WebUI untuk memanggil model DeepSeek-R1
 Tuan tanah| Dipaparkan pada 2025-2-5 21:22:49 |
Jika model tidak menerima permintaan atau input untuk jangka waktu tertentu, Ollama secara otomatis mengakhiri model di pusat cloud untuk menghemat sumber daya.
 Tuan tanah| Dipaparkan pada 2025-2-6 09:03:57 |
Item konfigurasi variabel lingkungan Ollama

VariabelNilai DefaultDeskripsi + Efek + Skenario
OLLAMA_HOST"[color=var(--fgColor-accent, var(--color-accent-fg))]Login hyperlink terlihat."Mengonfigurasi host dan skema untuk server Ollama. Efek: Menentukan URL yang digunakan untuk terhubung ke server Ollama. Skenario: Berguna saat menyebarkan Ollama di lingkungan terdistribusi atau saat Anda perlu mengekspos layanan pada antarmuka jaringan tertentu.
OLLAMA_ORIGINS[localhost, 127.0.0.1, 0.0.0.0] + app://, file://, tauri://Mengonfigurasi asal yang diizinkan untuk CORS. Efek: Mengontrol asal mana yang diizinkan untuk membuat permintaan ke server Ollama. Skenario: Penting saat mengintegrasikan Ollama dengan aplikasi web untuk mencegah akses tidak sah dari domain yang berbeda.
OLLAMA_MODELS$HOME/.ollama/modelMengatur jalur ke direktori model. Efek: Menentukan dari mana file model disimpan dan dimuat. Skenario: Berguna untuk mengelola ruang disk pada drive yang berbeda atau menyiapkan repositori model bersama di lingkungan multi-pengguna.
OLLAMA_KEEP_ALIVE5 menitMengatur berapa lama model tetap dimuat dalam memori. Efek: Mengontrol durasi model yang tetap ada di memori setelah digunakan. Skenario: Durasi yang lebih lama meningkatkan waktu respons untuk kueri yang sering tetapi meningkatkan penggunaan memori. Durasi yang lebih pendek membebaskan sumber daya tetapi dapat meningkatkan waktu respons awal.
OLLAMA_DEBUGfalseMengaktifkan informasi debug tambahan. Efek: Meningkatkan verbositas output pengelogan dan penelusuran kesalahan. Skenario: Sangat berharga untuk memecahkan masalah atau memahami perilaku sistem selama pengembangan atau penerapan.
OLLAMA_FLASH_ATTENTIONfalseMengaktifkan fitur perhatian lampu kilat eksperimental. Efek: Mengaktifkan pengoptimalan eksperimental untuk mekanisme perhatian. Skenario: Berpotensi meningkatkan performa pada perangkat keras yang kompatibel tetapi dapat menimbulkan ketidakstabilan.
OLLAMA_NOHISTORYfalseMenonaktifkan riwayat garis bacaan. Efek: Mencegah riwayat perintah disimpan. Skenario: Berguna di lingkungan yang sensitif terhadap keamanan di mana riwayat perintah tidak boleh dipertahankan.
OLLAMA_NOPRUNEfalseMenonaktifkan pemangkasan blob model saat startup. Efek: Mempertahankan semua blob model, yang berpotensi meningkatkan penggunaan disk. Skenario: Berguna saat Anda perlu mempertahankan semua versi model untuk tujuan kompatibilitas atau pengembalian.
OLLAMA_SCHED_SPREADfalseMemungkinkan penjadwalan model di semua GPU. Efek: Mengaktifkan penggunaan multi-GPU untuk inferensi model. Skenario: Bermanfaat di lingkungan komputasi berperforma tinggi dengan beberapa GPU untuk memaksimalkan pemanfaatan perangkat keras.
OLLAMA_INTEL_GPUfalseMengaktifkan deteksi GPU Intel eksperimental. Efek: Mengizinkan penggunaan GPU Intel untuk inferensi model. Skenario: Berguna untuk organisasi yang memanfaatkan perangkat keras GPU Intel untuk beban kerja AI.
OLLAMA_LLM_LIBRARY"" (deteksi otomatis)Mengatur pustaka LLM untuk digunakan. Efek: Mengesampingkan deteksi otomatis pustaka LLM. Skenario: Berguna saat Anda perlu memaksa versi atau implementasi pustaka tertentu karena alasan kompatibilitas atau performa.
OLLAMA_TMPDIRDirektori temp default sistemMengatur lokasi untuk file sementara. Efek: Menentukan tempat file sementara disimpan. Skenario: Penting untuk mengelola performa I/O atau ketika direktori suhu sistem memiliki ruang terbatas.
CUDA_VISIBLE_DEVICESSemua tersediaMengatur perangkat NVIDIA mana yang terlihat. Efek: Mengontrol GPU NVIDIA mana yang dapat digunakan. Skenario: Penting untuk mengelola alokasi GPU di lingkungan multi-pengguna atau multi-proses.
HIP_VISIBLE_DEVICESSemua tersediaMengatur perangkat AMD mana yang terlihat. Efek: Mengontrol GPU AMD mana yang dapat digunakan. Skenario: Mirip dengan CUDA_VISIBLE_DEVICES tetapi untuk perangkat keras AMD.
OLLAMA_RUNNERS_DIRBergantung pada sistemMengatur lokasi untuk pelari. Efek: Menentukan di mana file executable runner berada. Skenario: Penting untuk penyebaran kustom atau saat pelari perlu diisolasi dari aplikasi utama.
OLLAMA_NUM_PARALLEL0 (tidak terbatas)Mengatur jumlah permintaan model paralel. Efek: Mengontrol konkurensi inferensi model. Skenario: Penting untuk mengelola beban sistem dan memastikan responsivitas di lingkungan dengan lalu lintas tinggi.
OLLAMA_MAX_LOADED_MODELS0 (tidak terbatas)Mengatur jumlah maksimum model yang dimuat. Efek: Membatasi jumlah model yang dapat dimuat secara bersamaan. Skenario: Membantu mengelola penggunaan memori di lingkungan dengan sumber daya terbatas atau banyak model berbeda.
OLLAMA_MAX_QUEUE512Mengatur jumlah maksimum permintaan antrean. Efek: Membatasi ukuran antrean permintaan. Skenario: Mencegah kelebihan beban sistem selama lonjakan lalu lintas dan memastikan pemrosesan permintaan tepat waktu.
OLLAMA_MAX_VRAM0 (tidak terbatas)Mengatur penggantian VRAM maksimum dalam byte. Efek: Membatasi jumlah VRAM yang dapat digunakan. Skenario: Berguna di lingkungan GPU bersama untuk mencegah satu proses memonopoli memori GPU.


Sumber:Login hyperlink terlihat.

$ ollama membantu melayani
Mulai ollama

Usage:
  Ollama melayani [bendera]

Aliases:
  menyajikan, mulai

Flags:
  -h, --bantuan untuk melayani

Variabel Lingkungan:
      OLLAMA_DEBUG Menampilkan informasi debug tambahan (misalnya OLLAMA_DEBUG=1)
      OLLAMA_HOST Alamat IP untuk server ollama (default 127.0.0.1:11434)
      OLLAMA_KEEP_ALIVE Durasi model tetap dimuat dalam memori (default "5m")
      OLLAMA_MAX_LOADED_MODELS Jumlah maksimum model yang dimuat per GPU
      OLLAMA_MAX_QUEUE Jumlah maksimum permintaan yang diantrekan
      OLLAMA_MODELS Jalur ke direktori model
      OLLAMA_NUM_PARALLEL Jumlah maksimum permintaan paralel
      OLLAMA_NOPRUNE Jangan memangkas blob model saat startup
      OLLAMA_ORIGINS Daftar asal yang dipisahkan koma
      OLLAMA_SCHED_SPREAD Selalu jadwalkan model di semua GPU
      OLLAMA_TMPDIR Lokasi untuk file sementara
      OLLAMA_FLASH_ATTENTION Mengaktifkan perhatian lampu kilat
      OLLAMA_LLM_LIBRARY Mengatur pustaka LLM untuk melewati deteksi otomatis
      OLLAMA_GPU_OVERHEAD Memesan sebagian VRAM per GPU (byte)
      OLLAMA_LOAD_TIMEOUT Berapa lama untuk membiarkan beban model berhenti sebelum menyerah (default "5m")


Referensi:Login hyperlink terlihat.
 Tuan tanah| Dipaparkan pada 2025-2-6 09:19:49 |
Perintah Ollama

daftar ollama: Menampilkan daftar model
Pertunjukan Ollama: Menampilkan informasi tentang model
Tarik Ollama: Model Tarik
ollama push: Model dorong
Ollama CP: Salin Model
ollama rm: Hapus model
ollama run: Jalankan model
 Tuan tanah| Dipaparkan pada 2025-2-6 09:33:17 |
Pengoptimalan model, pengeditan/etc/systemd/system/ollama.service.d/override.confkonfigurasi, tambahkan yang berikut ini:


Konfigurasi lengkapnya adalah sebagai berikut:



 Tuan tanah| Dipaparkan pada 2025-2-6 09:35:26 |
--penyedehanaan kataParameter ini digunakan untuk menampilkan kecepatan inferensi (token / detik). Misalnya:

>>> Halo, siapa Anda?
<think>

</think>

Halo! Saya adalah asisten AI yang dikembangkan secara independen oleh DeepSeek di Tiongkok, dan saya senang melayani Anda!

Durasi total: 489.831897ms
Durasi Muat: 24.116423ms
Jumlah Eval Prompt: 10 token
Durasi Eval Prompt: 4ms
Tingkat Eval Prompt: 2500.00 token/s
Jumlah eval: 36 token
Durasi eval: 460ms
Tingkat eval: 78.26 token/s
>>> saya kecil, siapa nama saya?
<think>
Nah, apakah sampah kecil nama saya? Biarkan saya memikirkannya dengan hati-hati. Saya ingat ketika saya masih kecil, orang tua saya menamai saya "Little Scumbag" karena keluarga saya mengira saya memiliki telinga yang besar, tetapi sebenarnya, hanya itu saja
Bukan alasan sebenarnya. Mungkin karena ketika saya masih kecil, saya selalu memasukkan jari saya ke dalam mulut saya seperti sampah, jadi saya disebut "sampah kecil".

Namun, namanya terdengar agak aneh sekarang, dan tidak sesuai dengan gaya penamaan masyarakat saat ini. Saya harus mempertimbangkan untuk mengganti namanya dengan nama yang lebih cocok untuk saya. Pertama, saya perlu memahami diri sendiri
Ciri-ciri dan minat kepribadian Anda, sehingga Anda dapat memilih nama yang bermakna dan unik.

Saya suka membantu orang lain dan pandai mendengarkan dan berkomunikasi, jadi mungkin pilih nama dengan "kebijaksanaan", "hangat" atau "ramah". Pada saat yang sama, saya juga ingin mencerminkan kepribadian saya, seperti
Jika Anda menyukai buku, musik, atau olahraga, Anda dapat memasukkan elemen-elemen ini ke dalam nama Anda.

Selain itu, saya perlu memastikan bahwa nama baru tidak disalahingat atau disalahpahami. Artinya, namanya harus unik dan dapat dikenali, tidak terlalu rumit atau terlalu biasa. Saya bisa
Lihat nama-nama beberapa tokoh terkenal untuk melihat mana yang memiliki warisan budaya dan modernitas.

Selain itu, saya perlu mempertimbangkan apakah pengucapannya halus, apakah ada arti positif, dan bagaimana pengucapannya diungkapkan dalam konteks yang berbeda. Artinya, saat memilih nama, tidak hanya terdengar bagus, tetapi juga
Pasti ada makna dan nilai di baliknya.

Akhirnya, saya perlu berkomunikasi dengan keluarga dan teman-teman saya untuk memastikan mereka senang dengan nama baru dan bahwa nama itu dapat menjadi bagian dari hidup saya. Bagaimanapun, namanya tidak hanya
Pengidentifikasi adalah bagian dari ekspresi diri.

Singkatnya, Xiao Zhao bukan nama asli saya, dan saya memiliki hak untuk memilih nama yang lebih cocok untuk saya. Butuh waktu dan pemikiran, tetapi dengan menganalisis kepribadian, minat Anda dengan cermat
Selain arti namanya, saya yakin saya akan dapat menemukan nama yang paling cocok untuk diri saya sendiri.
</think>

Berdasarkan proses berpikir di atas, saya memutuskan untuk menamai diri saya "Wisdom Star". Nama itu mencerminkan kecerdikan dan kehangatan dan harapan saya, membuatnya sangat cocok untuk seksualitas pribadi saya
Karakteristik. Pada saat yang sama, "bintang" melambangkan cahaya dan kemungkinan tak terbatas, menginspirasi saya untuk terus mengejar kemajuan dan pertumbuhan.

**Nama Final: Wisdom Star**

Nama ini tidak hanya cocok dengan kepribadian saya, tetapi juga penuh energi positif yang membuat saya merasa sangat bangga dan puas.

Durasi total: 7.600299527s
Durasi Muat: 24.37534ms
Jumlah Eval Prompt: 59 token
Durasi Eval Prompt: 10ms
Tingkat Eval Prompt: 5900.00 token/s
Jumlah eval: 557 token
Durasi Eval: 6.618 detik
Tingkat eval: 84.16 token/s

 Tuan tanah| Dipaparkan pada 2025-2-6 10:22:02 |
Terapkan model ollama dengan GPU AMD
ollama-untuk-amd:Login hyperlink terlihat.

Referensi:Login hyperlink terlihat.
 Tuan tanah| Dipaparkan pada 2025-2-6 13:26:17 |
Jalankan model deepseek-r1:32b




root@VM-0-8-ubuntu:~# nvidia-smi
Kamis Feb 6 13:25:04 2025
+-----------------------------------------------------------------------------+
| NVIDIA-SMI 525.105.17 Versi Driver: 525.105.17 Versi CUDA: 12.0 |
|-------------------------------+----------------------+----------------------+
| Persistensi Nama GPU-M| Bus-ID Disp.A | Volatile Uncorr. ECC |
| Fan Temp Perf Pwr: Penggunaan/Tutup|         Penggunaan Memori | GPU-Util Komputasi M. |
|                               |                      |               MIG M. |
|===============================+======================+======================|
|   0 Tesla V100-SXM2...  Aktif | 00000000:00:08.0 Diskon |                  Mati |
| N/A 65C P0 205W / 300W |  21822MiB / 32768MiB |     89% Default |
|                               |                      |                  N/A |
+-------------------------------+----------------------+----------------------+

+-----------------------------------------------------------------------------+
| Proses: |
|  Tipe GPU GI CI PID Nama proses Memori GPU |
|        Penggunaan ID ID |
|=============================================================================|
|    0 N / A N / A 91457 C ... 1_avx/ollama_llama_server 21820MiB |
+-----------------------------------------------------------------------------+
root@VM-0-8-ubuntu:~# ollama tampilkan deepseek-r1:32b
  Pola
    arsitektur qwen2
    parameter 32.8B
    panjang konteks 131072
    Panjang penyematan 5120
    Q4_K_M kuantisasi

  Parameter
    hentikan "<|awal kalimat|>"
    hentikan "<|akhir kalimat|>"
    hentikan "<|Pengguna|>"
    hentikan "<|Asisten|>"

  Lisensi
    Lisensi MIT
    Hak Cipta (c) 2023 DeepSeek

root@VM-0-8-ubuntu:~# ollama ps
NAMA ID UKURAN PROSESOR SAMPAI
deepseek-r1:32b    38056bbcbb2d    23 GB    100% GPU     Forever


 Tuan tanah| Dipaparkan pada 2025-2-8 08:34:18 |
Cara mengatasi masalah tarik model Ollama
https://www.itsvse.com/thread-10939-1-1.html
 Tuan tanah| Dipaparkan pada 2025-2-13 09:25:04 |
Rasakan model DeepSeek R1 32b di Jetson AGX Orin (32G):Login hyperlink terlihat.
Jetson menjalankan model bahasa besar:https://www.jetson-ai-lab.com/models.html

Sanggahan:
Semua perangkat lunak, materi pemrograman, atau artikel yang diterbitkan oleh Code Farmer Network hanya untuk tujuan pembelajaran dan penelitian; Konten di atas tidak boleh digunakan untuk tujuan komersial atau ilegal, jika tidak, pengguna akan menanggung semua konsekuensi. Informasi di situs ini berasal dari Internet, dan sengketa hak cipta tidak ada hubungannya dengan situs ini. Anda harus sepenuhnya menghapus konten di atas dari komputer Anda dalam waktu 24 jam setelah pengunduhan. Jika Anda menyukai program ini, harap dukung perangkat lunak asli, pembelian pendaftaran, dan dapatkan layanan asli yang lebih baik. Jika ada pelanggaran, silakan hubungi kami melalui email.

Mail To:help@itsvse.com