Ten artykuł jest lustrzanym artykułem tłumaczenia maszynowego, kliknij tutaj, aby przejść do oryginalnego artykułu.

Widok: 2195|Odpowiedź: 1

[AI] (7) Wykorzystaj llama.cpp do wdrożenia modelu DeepSeek-R1 lokalnie

[Skopiuj link]
Opublikowano 2025-2-7 13:58:06 | | | |
llama.cpp Wprowadzenie

Model LLaMA Inference Meta (i inne) wykorzystujący czysty C/C++. Głównym celem llama.cpp umożliwienie inferencji LLM na różnych sprzęcie (lokalnych i w chmurze) przy minimalnym przygotowaniu i najnowocześniejszej wydajności.

  • Czysta implementacja C/C++ bez zależności
  • Apple Silicon jest najwyższej klasy – zoptymalizowany z ramami ARM NEON, Accelerate i Metal
  • AVX, AVX2, AVX512 i AMX obsługują architektury x86
  • Kwantyzacja całkowita 1,5-bitowa, 2-bitowa, 3-bitowa, 4-bitowa, 5-bitowa, 6-bitowa i 8-bitowa dla szybszego wnioskowania i zmniejszenia zużycia pamięci
  • Niestandardowe rdzenie CUDA do uruchamiania LLM-ów na kartach NVIDIA (karty AMD przez HIP i Moore Threads, MTT GPU przez MUSA)
  • Wsparcie backendowe Vulkan i SYCL
  • Hybrydowe wnioskowanie CPU+GPU, częściowo przyspieszające modele większe niż całkowita pojemność VRAM


Adres Github:Logowanie do linku jest widoczne.
Adres do pobrania:Logowanie do linku jest widoczne.

Pobierz llama.cpp

Po pierwsze, pobierz odpowiadającą wersję oprogramowania llama.cpp zgodnie z konfiguracją sprzętową swojego komputera, jak pokazano na poniższym rysunku:



AVX obsługuje działanie o szerokości 256 bitów.
AVX2 obsługuje również operacje o szerokości 256 bitów, ale dodaje wsparcie dla operacji całkowitoliczbowych oraz niektóre dodatkowe instrukcje.
AVX-512 obsługuje operacje o szerokości 512 bitów, zapewniając zwiększoną równoległość i wydajność, zwłaszcza przy obsłudze dużych ilości danych lub operacji zmiennoprzecinkowych.

Mój komputer działa wyłącznie na CPU i obsługuje zestaw instrukcji avx512, więc pobierz wersję "" z adresem pobrania:Logowanie do linku jest widoczne.Po zakończeniu pobrania rozpakuj go doD:\llama-b4658-bin-win-avx512-x64Katalog.

Pobierz model DeepSeek-R1

Adres do pobrania:Logowanie do linku jest widoczne.Ten artykuł zaczyna się od "DeepSeek-R1-Distill-Qwen-1.5B-Q3_K_L.ggufNa przykład.

Po prostu pobierz ją według własnej konfiguracji. Im wyższy poziom kwantyzacji, tym większy plik i dokładność modelu.

llama.cpp Wdrożenie modelu DeepSeek-R1

Wykonaj następujące polecenie w katalogu plików DeepSeek-R1-Distill-Qwen-1.5B-Q3_K_L.gguf:

Jak pokazano poniżej:



Otwórz ją za pomocą przeglądarkihttp://127.0.0.1:8080/Adres jest testowany zgodnie z poniższą ilustracją:



Dołączona jest konfiguracja parametrów biegu:Logowanie do linku jest widoczne.




Poprzedni:Frontend generuje plik .d.ts z pliku .js
Następny:Jak rozwiązać problem pull modelu Ollama
 Ziemianin| Opublikowano 2025-3-5 10:48:53 |
Społeczność modeli AI

Oficjalna strona Hugging Face:https://huggingface.co/
Domowe lustro z przytulającą twarzą:https://hf-mirror.com/
Modelscope Magic Matching:https://www.modelscope.cn/
Zrzeczenie się:
Całe oprogramowanie, materiały programistyczne lub artykuły publikowane przez Code Farmer Network służą wyłącznie celom edukacyjnym i badawczym; Powyższe treści nie mogą być wykorzystywane do celów komercyjnych ani nielegalnych, w przeciwnym razie użytkownicy ponoszą wszelkie konsekwencje. Informacje na tej stronie pochodzą z Internetu, a spory dotyczące praw autorskich nie mają z nią nic wspólnego. Musisz całkowicie usunąć powyższą zawartość z komputera w ciągu 24 godzin od pobrania. Jeśli spodoba Ci się program, wspieraj oryginalne oprogramowanie, kup rejestrację i korzystaj z lepszych, autentycznych usług. W przypadku naruszenia praw prosimy o kontakt mailowy.

Mail To:help@itsvse.com