Non è stato facile realizzare questo dizionario, prima mi ci è voluto un giorno per confezionare e caricare tutti i tipi di dizionari che avevo memorizzato sul server; e ha confezionato e caricato i dizionari prodotti dagli internauti in questo forum per un'altra sera; Il server di elaborazione del dizionario è preso in prestito da un amico, e il nuovo webserver dell'amico deve essere una fotocopiatrice, così ho mentito dicendo di aver creato un dizionario per ripetere e rilevare la CPU, e il mio amico me l'ha prestato volentieri per tre giorni; Configurazione: Quattro hard disk Xeon E3 3.10GHZ /32G DDR3 RAM / 250G SSD; Ho reinstallato Debian 6.0 64-bit; Escludendo caricamenti e download, questo dizionario percorre: 1. Merge, per un totale di 101,6G file grandi (ma poi si rivelò pessimo ripetitivo); 2. Rimuovere il contenuto duplicato, questo è il primo lavoro che richiede tempo, ci sono volute più di 30 ore per elaborare il file 101.6G, di cui la precedente fuga di notizie ha trovato 21 stazioni che portavano a circa 100G quando il contenuto era incerto e la password debole era superiore a 1G; 3. Passa a caratteri diversi dal cinese e dalla codifica ASCII, qui ho fatto qualche deviazione ma dopo averlo testato più volte sulla macchina prima di osare scriverlo in batch, questa volta è il secondo lavoro che richiede tempo. Per accelerare questo passaggio, ho diviso il dizionario elaborato nel secondo passaggio in dieci parti e ho eseguito l'elaborazione batch contemporaneamente, che ha richiesto circa 25 ore; 4. Dopo aver unito e elaborato il dizionario, ci vogliono 20 ore per ordinarlo. 5. Recuperare, confezionare e pubblicare, e dopo aver elaborato più di 100G dizionari, ne sono solo più di 7G, il che dimostra quanto fossero negligenti e negligenti gli amici che prima creavano dizionari. Dopo aver pianificato, ho scritto uno script shell per farlo girare senza assistenza, e ogni tanto sono andato a controllare il carico del server e poi l'avanzamento dell'elaborazione di shell echo. Calcolando, oltre a caricare, scaricare, confezionare e pubblicare, ho passato un totale di quattro giorni a realizzare questo dizionario; Inizialmente, il server mi aveva preso in prestito solo per tre giorni, ma non mi aspettavo di aver sbagliato la dimensione e la difficoltà del dizionario; Fortunatamente, è stato rilasciato oggi. Dopotutto, era una questione di preoccupazione. Ho semplicemente eseguito la fusione per ripeterla in cinese, e non ho effettuato una selezione manuale, quindi i netizen che si lamentavano della qualità del dizionario erano molto dispiaciuti, dopotutto non potevo esaminare manualmente il dizionario di più di 100G; Posso solo garantire che si tratta di una raccolta di tutti i dizionari popolari e che non ci sono duplicati. Elaborazione: awk+sed+vim Dimensione di elaborazione: circa 6,55G Download indirizzo: (gratuito) 6,55G pacchetto compresso complessivo: link:https://pan.baidu.com/s/12LUdmUjPAA9mL_rSkdtPtQCodice di estrazione:Turisti, se volete vedere il contenuto nascosto di questo post, vi prego Risposta Sblocca la password:Turisti, se volete vedere il contenuto nascosto di questo post, vi prego Risposta Se alcuni internauti dicono che il dizionario è troppo grande, puoi usare questo metodo: Usa il metodo di questo tutorialhttp://forum.anywlan.com/thread-151122-1-1.html
Esegui split -C 1000m nome del dizionario Il nome del dizionario di output non sarà suddiviso in righe per suddividere il dizionario in diversi piccoli file di 1G
|