llama.cpp Wprowadzenie
Model LLaMA Inference Meta (i inne) wykorzystujący czysty C/C++. Głównym celem llama.cpp umożliwienie inferencji LLM na różnych sprzęcie (lokalnych i w chmurze) przy minimalnym przygotowaniu i najnowocześniejszej wydajności.
- Czysta implementacja C/C++ bez zależności
- Apple Silicon jest najwyższej klasy – zoptymalizowany z ramami ARM NEON, Accelerate i Metal
- AVX, AVX2, AVX512 i AMX obsługują architektury x86
- Kwantyzacja całkowita 1,5-bitowa, 2-bitowa, 3-bitowa, 4-bitowa, 5-bitowa, 6-bitowa i 8-bitowa dla szybszego wnioskowania i zmniejszenia zużycia pamięci
- Niestandardowe rdzenie CUDA do uruchamiania LLM-ów na kartach NVIDIA (karty AMD przez HIP i Moore Threads, MTT GPU przez MUSA)
- Wsparcie backendowe Vulkan i SYCL
- Hybrydowe wnioskowanie CPU+GPU, częściowo przyspieszające modele większe niż całkowita pojemność VRAM
Adres Github:Logowanie do linku jest widoczne. Adres do pobrania:Logowanie do linku jest widoczne.
Pobierz llama.cpp
Po pierwsze, pobierz odpowiadającą wersję oprogramowania llama.cpp zgodnie z konfiguracją sprzętową swojego komputera, jak pokazano na poniższym rysunku:
AVX obsługuje działanie o szerokości 256 bitów. AVX2 obsługuje również operacje o szerokości 256 bitów, ale dodaje wsparcie dla operacji całkowitoliczbowych oraz niektóre dodatkowe instrukcje. AVX-512 obsługuje operacje o szerokości 512 bitów, zapewniając zwiększoną równoległość i wydajność, zwłaszcza przy obsłudze dużych ilości danych lub operacji zmiennoprzecinkowych.
Mój komputer działa wyłącznie na CPU i obsługuje zestaw instrukcji avx512, więc pobierz wersję "" z adresem pobrania:Logowanie do linku jest widoczne.Po zakończeniu pobrania rozpakuj go doD:\llama-b4658-bin-win-avx512-x64Katalog.
Pobierz model DeepSeek-R1
Adres do pobrania:Logowanie do linku jest widoczne.Ten artykuł zaczyna się od "DeepSeek-R1-Distill-Qwen-1.5B-Q3_K_L.ggufNa przykład.
Po prostu pobierz ją według własnej konfiguracji. Im wyższy poziom kwantyzacji, tym większy plik i dokładność modelu.
llama.cpp Wdrożenie modelu DeepSeek-R1
Wykonaj następujące polecenie w katalogu plików DeepSeek-R1-Distill-Qwen-1.5B-Q3_K_L.gguf:
Jak pokazano poniżej:
Otwórz ją za pomocą przeglądarkihttp://127.0.0.1:8080/Adres jest testowany zgodnie z poniższą ilustracją:
Dołączona jest konfiguracja parametrów biegu:Logowanie do linku jest widoczne.
|