llama.cpp Εισαγωγή
Συμπέρασμα Το μοντέλο LLaMA της Meta (και άλλα) χρησιμοποιώντας καθαρή C/C++. Ο πρωταρχικός στόχος llama.cpp να καταστεί δυνατή η εξαγωγή συμπερασμάτων LLM σε διάφορα υλικά (εσωτερικής εγκατάστασης και στο cloud) με ελάχιστη ρύθμιση και απόδοση αιχμής.
- Καθαρή υλοποίηση C/C++ χωρίς εξαρτήσεις
- Το πυρίτιο της Apple είναι κορυφαίο – βελτιστοποιημένο με πλαίσια ARM NEON, Accelerate και Metal
- Τα AVX, AVX2, AVX512 και AMX υποστηρίζουν αρχιτεκτονικές x86
- Κβαντισμός ακεραίων 1,5 bit, 2 bit, 3 bit, 4 bit, 5 bit, 6 bit και 8 bit για ταχύτερη εξαγωγή συμπερασμάτων και μειωμένη χρήση μνήμης
- Προσαρμοσμένοι πυρήνες CUDA για εκτέλεση LLM σε GPU NVIDIA (AMD GPU μέσω HIP και Moore Threads MTT GPU μέσω MUSA)
- Υποστήριξη υποστήριξης Vulkan και SYCL
- Υβριδικό συμπέρασμα CPU+GPU, μερικώς επιταχυνόμενα μοντέλα μεγαλύτερα από τη συνολική χωρητικότητα VRAM
Διεύθυνση Github:Η σύνδεση με υπερσύνδεσμο είναι ορατή. Λήψη Διεύθυνσης:Η σύνδεση με υπερσύνδεσμο είναι ορατή.
Λήψη llama.cpp
Αρχικά, κατεβάστε την αντίστοιχη έκδοση του λογισμικού llama.cpp σύμφωνα με τη διαμόρφωση υλικού του υπολογιστή σας, όπως φαίνεται στην παρακάτω εικόνα:
Το AVX υποστηρίζει ευρεία λειτουργία 256-bit. Το AVX2 υποστηρίζει επίσης λειτουργίες πλάτους 256-bit, αλλά προσθέτει υποστήριξη για ακέραιες λειτουργίες καθώς και ορισμένες πρόσθετες οδηγίες. Το AVX-512 υποστηρίζει λειτουργίες πλάτους 512 bit, παρέχοντας αυξημένο παραλληλισμό και απόδοση, ειδικά όταν πρόκειται για μεγάλες ποσότητες δεδομένων ή λειτουργίες κινητής υποδιαστολής.
Ο υπολογιστής μου λειτουργεί με καθαρή CPU και υποστηρίζει σύνολο εντολών avx512, οπότε κατεβάστε την έκδοση "", διεύθυνση λήψης:Η σύνδεση με υπερσύνδεσμο είναι ορατή.Αφού ολοκληρωθεί η λήψη, αποσυμπιέστε το στοD:\llama-b4658-bin-win-avx512-x64Κατάλογος.
Κατεβάστε το μοντέλο DeepSeek-R1
Λήψη Διεύθυνσης:Η σύνδεση με υπερσύνδεσμο είναι ορατή.Αυτό το άρθρο ξεκινά με "DeepSeek-R1-Απόσταξη-Qwen-1.5B-Q3_K_L.ggufΓια παράδειγμα.
Απλώς κατεβάστε το σύμφωνα με τη δική σας διαμόρφωση. Όσο υψηλότερο είναι το επίπεδο κβαντοποίησης, τόσο μεγαλύτερο είναι το αρχείο και τόσο μεγαλύτερη είναι η ακρίβεια του μοντέλου.
llama.cpp Αναπτύξτε το μοντέλο DeepSeek-R1
Εκτελέστε την ακόλουθη εντολή στον κατάλογο αρχείων DeepSeek-R1-Distill-Qwen-1.5B-Q3_K_L.gguf:
Οπως φαίνεται παρακάτω:
Ανοίξτε το χρησιμοποιώντας ένα πρόγραμμα περιήγησηςhttp://127.0.0.1:8080/Η διεύθυνση ελέγχεται όπως φαίνεται παρακάτω:
Επισυνάπτεται η διαμόρφωση της τρέχουσας παραμέτρου:Η σύνδεση με υπερσύνδεσμο είναι ορατή.
|