Dieser Artikel ist ein Spiegelartikel der maschinellen Übersetzung, bitte klicken Sie hier, um zum Originalartikel zu springen.

Ansehen: 2195|Antwort: 1

[KI] (7) Verwenden Sie llama.cpp, um das DeepSeek-R1-Modell vor Ort einzusetzen

[Link kopieren]
Veröffentlicht am 07.02.2025, 13:58:06 | | | |
llama.cpp Einführung

Inference Metas LLaMA-Modell (und andere) mit reinem C/C++. Das Hauptziel llama.cpp, LLM-Inferenz auf verschiedenen Hardware (lokal und in der Cloud) mit minimaler Einrichtung und modernster Leistung zu ermöglichen.

  • Reine C/C++-Implementierung ohne Abhängigkeiten
  • Apple Silicon ist erstklassig – optimiert mit ARM NEON, Accelerate und Metal Frameworks
  • AVX, AVX2, AVX512 und AMX unterstützen x86-Architekturen
  • 1,5-Bit-, 2-Bit-, 3-Bit-, 4-Bit-, 5-Bit-, 6-Bit- und 8-Bit-Ganzzahlquantisierung für schnellere Inferenz und reduzierten Speicherverbrauch
  • Benutzerdefinierte CUDA-Kerne zum Ausführen von LLMs auf NVIDIA GPUs (AMD-GPUs über HIP und Moore Threads MTT-GPUs über MUSA)
  • Backend-Unterstützung von Vulkan und SYCL
  • CPU+GPU-Hybridinferenz, die Modelle teilweise beschleunigt, die größer sind als die gesamte VRAM-Kapazität


Github-Adresse:Der Hyperlink-Login ist sichtbar.
Adresse herunterladen:Der Hyperlink-Login ist sichtbar.

Laden Sie llama.cpp

Laden Sie zunächst die entsprechende Version der llama.cpp-Software entsprechend der Hardware-Konfiguration Ihres Computers herunter, wie in der untenstehenden Abbildung gezeigt:



AVX unterstützt einen Betrieb mit 256-Bit-Breite.
AVX2 unterstützt außerdem 256-Bit-breite Operationen, fügt jedoch Unterstützung für ganzzahlige Operationen sowie einige zusätzliche Befehle hinzu.
Der AVX-512 unterstützt 512-Bit-breite Operationen und bietet so eine erhöhte Parallelität und Leistung, insbesondere bei großen Datenmengen oder Gleitkommaoperationen.

Mein Computer läuft mit reiner CPU und unterstützt den Befehlssatz avx512, also lade die """-Version herunter, Download-Adresse:Der Hyperlink-Login ist sichtbar.Nachdem der Download abgeschlossen ist, entpacken Sie ihn aufD:\llama-b4658-bin-win-avx512-x64Verzeichnis.

Laden Sie das DeepSeek-R1-Modell herunter

Adresse herunterladen:Der Hyperlink-Login ist sichtbar.Dieser Artikel beginnt mit "DeepSeek-R1-Distill-Qwen-1.5B-Q3_K_L.ggufZum Beispiel.

Lade es einfach nach deiner eigenen Konfiguration herunter. Je höher das Quantisierungsniveau, desto größer die Datei und desto höher die Genauigkeit des Modells.

llama.cpp Setzen Sie das DeepSeek-R1-Modell ein

Führen Sie folgenden Befehl im Dateiverzeichnis DeepSeek-R1-Distill-Qwen-1.5B-Q3_K_L.gguf aus:

Wie unten gezeigt:



Öffnen Sie es über einen Browserhttp://127.0.0.1:8080/Die Adresse wird wie unten angegeben getestet:



Angehängt ist die laufende Parameter-Konfiguration:Der Hyperlink-Login ist sichtbar.




Vorhergehend:Das Frontend generiert eine .d.ts-Datei aus der .js-Datei
Nächster:Wie man das Ullama-Modell-Pull-Problem löst
 Vermieter| Veröffentlicht am 5.3.2025, 10:48:53 |
KI-Modell-Community

Offizielle Website von Hugging Face:https://huggingface.co/
Umarmungsgesicht – häuslicher Spiegel:https://hf-mirror.com/
Magic Matching Modellskop:https://www.modelscope.cn/
Verzichtserklärung:
Alle von Code Farmer Network veröffentlichten Software, Programmiermaterialien oder Artikel dienen ausschließlich Lern- und Forschungszwecken; Die oben genannten Inhalte dürfen nicht für kommerzielle oder illegale Zwecke verwendet werden, andernfalls tragen die Nutzer alle Konsequenzen. Die Informationen auf dieser Seite stammen aus dem Internet, und Urheberrechtsstreitigkeiten haben nichts mit dieser Seite zu tun. Sie müssen die oben genannten Inhalte innerhalb von 24 Stunden nach dem Download vollständig von Ihrem Computer löschen. Wenn Ihnen das Programm gefällt, unterstützen Sie bitte echte Software, kaufen Sie die Registrierung und erhalten Sie bessere echte Dienstleistungen. Falls es eine Verletzung gibt, kontaktieren Sie uns bitte per E-Mail.

Mail To:help@itsvse.com