llama.cpp Einführung
Inference Metas LLaMA-Modell (und andere) mit reinem C/C++. Das Hauptziel llama.cpp, LLM-Inferenz auf verschiedenen Hardware (lokal und in der Cloud) mit minimaler Einrichtung und modernster Leistung zu ermöglichen.
- Reine C/C++-Implementierung ohne Abhängigkeiten
- Apple Silicon ist erstklassig – optimiert mit ARM NEON, Accelerate und Metal Frameworks
- AVX, AVX2, AVX512 und AMX unterstützen x86-Architekturen
- 1,5-Bit-, 2-Bit-, 3-Bit-, 4-Bit-, 5-Bit-, 6-Bit- und 8-Bit-Ganzzahlquantisierung für schnellere Inferenz und reduzierten Speicherverbrauch
- Benutzerdefinierte CUDA-Kerne zum Ausführen von LLMs auf NVIDIA GPUs (AMD-GPUs über HIP und Moore Threads MTT-GPUs über MUSA)
- Backend-Unterstützung von Vulkan und SYCL
- CPU+GPU-Hybridinferenz, die Modelle teilweise beschleunigt, die größer sind als die gesamte VRAM-Kapazität
Github-Adresse:Der Hyperlink-Login ist sichtbar. Adresse herunterladen:Der Hyperlink-Login ist sichtbar.
Laden Sie llama.cpp
Laden Sie zunächst die entsprechende Version der llama.cpp-Software entsprechend der Hardware-Konfiguration Ihres Computers herunter, wie in der untenstehenden Abbildung gezeigt:
AVX unterstützt einen Betrieb mit 256-Bit-Breite. AVX2 unterstützt außerdem 256-Bit-breite Operationen, fügt jedoch Unterstützung für ganzzahlige Operationen sowie einige zusätzliche Befehle hinzu. Der AVX-512 unterstützt 512-Bit-breite Operationen und bietet so eine erhöhte Parallelität und Leistung, insbesondere bei großen Datenmengen oder Gleitkommaoperationen.
Mein Computer läuft mit reiner CPU und unterstützt den Befehlssatz avx512, also lade die """-Version herunter, Download-Adresse:Der Hyperlink-Login ist sichtbar.Nachdem der Download abgeschlossen ist, entpacken Sie ihn aufD:\llama-b4658-bin-win-avx512-x64Verzeichnis.
Laden Sie das DeepSeek-R1-Modell herunter
Adresse herunterladen:Der Hyperlink-Login ist sichtbar.Dieser Artikel beginnt mit "DeepSeek-R1-Distill-Qwen-1.5B-Q3_K_L.ggufZum Beispiel.
Lade es einfach nach deiner eigenen Konfiguration herunter. Je höher das Quantisierungsniveau, desto größer die Datei und desto höher die Genauigkeit des Modells.
llama.cpp Setzen Sie das DeepSeek-R1-Modell ein
Führen Sie folgenden Befehl im Dateiverzeichnis DeepSeek-R1-Distill-Qwen-1.5B-Q3_K_L.gguf aus:
Wie unten gezeigt:
Öffnen Sie es über einen Browserhttp://127.0.0.1:8080/Die Adresse wird wie unten angegeben getestet:
Angehängt ist die laufende Parameter-Konfiguration:Der Hyperlink-Login ist sichtbar.
|