Δεν ήταν εύκολο να φτιάξω αυτό το λεξικό, πρώτα μου πήρε μια μέρα για να συσκευάσω και να ανεβάσω όλα τα είδη λεξικών που είχα αποθηκεύσει στον διακομιστή. και συσκεύασε και ανέβασε τα λεξικά που παρήγαγαν οι χρήστες του Διαδικτύου σε αυτό το φόρουμ για άλλη μια νύχτα. Ο διακομιστής επεξεργασίας λεξικών είναι δανεισμένος από έναν φίλο και ο νέος διακομιστής ιστού του φίλου πρέπει να είναι μια μηχανή αντιγραφής, οπότε είπα ψέματα ότι έφτιαξα ένα λεξικό για να επαναλαμβάνω και να ανιχνεύω την CPU και ο φίλος μου μου το δάνεισε ευχαρίστως για τρεις ημέρες. Διαμόρφωση: Τέσσερις σκληροί δίσκοι Xeon E3 3.10GHZ /32G DDR3 RAM / 250G SSD. Επανεγκατέστησα το Debian 6.0 64-bit. Χωρίς να υπολογίζονται οι μεταφορτώσεις και οι λήψεις, αυτό το λεξικό περνά από: 1. Συγχώνευση, συνολικά 101.6G μεγάλα αρχεία (αλλά αργότερα αποδείχθηκε τρομερή επανάληψη). 2. Καταργήστε το διπλό περιεχόμενο, αυτή είναι η πρώτη χρονοβόρα εργασία, χρειάστηκαν περισσότερες από 30 ώρες για την επεξεργασία του αρχείου 101.6G, εκ των οποίων η προηγούμενη πόρτα διαρροής 21 σταθμών βρήκα ότι έκανε συνολικά περίπου 100G όταν το περιεχόμενο ήταν αβέβαιο και ο αδύναμος κωδικός πρόσβασης ήταν περισσότερο από 1G. 3. Μεταβείτε σε χαρακτήρες εκτός από την κωδικοποίηση κινεζικών και ASCII, εδώ έκανα μερικές παρακάμψεις, αλλά αφού το δοκίμασα αρκετές φορές στο μηχάνημα πριν τολμήσω να το γράψω ομαδικά, αυτή τη φορά είναι η δεύτερη χρονοβόρα εργασία. Για να επιταχύνω αυτό το βήμα, χώρισα το λεξικό που επεξεργάστηκε στο δεύτερο βήμα σε δέκα μέρη και έτρεξα ταυτόχρονα την επεξεργασία κατά παρτίδες, η οποία διήρκεσε περίπου 25 ώρες. 4. Μετά τη συγχώνευση και την επεξεργασία του λεξικού, χρειάζονται 20 ώρες για την ταξινόμηση. 5. Ανακτήστε και συσκευάστε και δημοσιεύστε, και μετά την επεξεργασία περισσότερων από 100G λεξικών, υπάρχουν μόνο περισσότερα από 7G, γεγονός που δείχνει πόσο απρόσεκτοι και απρόσεκτοι ήταν οι φίλοι που έφτιαχναν λεξικά πριν. Μετά τον προγραμματισμό, έγραψα ένα σενάριο κελύφους για να το εκτελέσω χωρίς επίβλεψη και ανέβαινα κάθε τόσο για να ελέγξω το φορτίο του διακομιστή και στη συνέχεια να ελέγξω την πρόοδο επεξεργασίας του shell echo. Υπολογίζοντας, καθώς και ανεβάζοντας, κατεβάζοντας, συσκευάζοντας και δημοσιεύοντας, πέρασα συνολικά τέσσερις ημέρες φτιάχνοντας αυτό το λεξικό. Αρχικά, ο διακομιστής με δανείστηκε μόνο για τρεις ημέρες, αλλά δεν περίμενα ότι είχα εκτιμήσει λάθος το μέγεθος και τη δυσκολία του λεξικού. Ευτυχώς, κυκλοφόρησε σήμερα. Άλλωστε ήταν θέμα ανησυχίας. Απλώς εκτέλεσα τη συγχώνευση για να επαναλάβω στα κινέζικα και δεν πραγματοποίησα χειροκίνητο έλεγχο, έτσι οι χρήστες του Διαδικτύου που παραπονέθηκαν για την ποιότητα του λεξικού ήταν πολύ λυπημένοι, τελικά, δεν μπορούσα να περάσω χειροκίνητα από το λεξικό άνω των 100G. Μπορώ μόνο να εγγυηθώ ότι πρόκειται για μια συλλογή όλων των δημοφιλών λεξικών και ότι δεν υπάρχουν διπλότυπα. Επεξεργασία: awk+sed+vim Μέγεθος επεξεργασίας: περίπου 6.55G Διεύθυνση λήψης: (δωρεάν) 6.55G συνολικό συμπιεσμένο πακέτο: σύνδεσμος:https://pan.baidu.com/s/12LUdmUjPAA9mL_rSkdtPtQΚωδικός εξαγωγής:Τουρίστες, αν θέλετε να δείτε το κρυφό περιεχόμενο αυτής της ανάρτησης, παρακαλώ Απάντηση Αποσυμπιέστε τον κωδικό πρόσβασης:Τουρίστες, αν θέλετε να δείτε το κρυφό περιεχόμενο αυτής της ανάρτησης, παρακαλώ Απάντηση Εάν ορισμένοι χρήστες του Διαδικτύου λένε ότι το λεξικό είναι πολύ μεγάλο, μπορείτε να χρησιμοποιήσετε αυτήν τη μέθοδο: Χρησιμοποιήστε τη μέθοδο σε αυτό το σεμινάριοhttp://forum.anywlan.com/thread-151122-1-1.html
Εκτελέστε το όνομα λεξικού split -C 1000m Το όνομα του λεξικού εξόδου δεν θα χωριστεί σε σειρές για να χωριστεί το λεξικό σε πολλά μικρά αρχεία του 1G
|