Nu a fost ușor să fac acest dicționar, mai întâi mi-a luat o zi să împachetez și să încarc tot felul de dicționare pe care le aveam stocate pe server; și a ambalat și încărcat dicționarele produse de internauți pe acest forum pentru o altă seară; Serverul de procesare a dicționarului este împrumutat de la un prieten, iar noul server web al prietenului trebuie să fie o mașină de copiat, așa că am mințit că am făcut un dicționar pentru a repeta și detecta procesorul, iar prietenul meu mi l-a împrumutat cu plăcere pentru trei zile; Configurație: Patru hard disk-uri Xeon E3 3.10GHZ / 32G DDR3 RAM / 250G SSD; Am reinstalat Debian 6.0 pe 64 de biți; Fără a lua în calcul încărcările și descărcările, acest dicționar parcurge următoarele: 1. Fuziune, un total de 101,6G fișiere mari (dar care ulterior s-au dovedit a fi foarte slabe la repetiție); 2. Eliminarea conținutului duplicat, aceasta este prima lucrare care consumă mult timp, a durat mai mult de 30 de ore pentru procesarea fișierului 101.6G, din care scurgerile anterioare au găsit 21 de stații care însumau un total de aproximativ 100G când conținutul era incert, iar parola slabă era mai mare de 1G; 3. Treci la caractere în afară de chineză și codare ASCII, aici am făcut câteva ocoliri, dar după ce am testat de mai multe ori pe mașină înainte să îndrăznesc să scriu în lot, de data aceasta este a doua muncă care consumă mult timp. Pentru a accelera acest pas, am împărțit dicționarul procesat în al doilea pas în zece părți și am rulat procesarea în loturi simultan, ceea ce a durat aproximativ 25 de ore; 4. După combinarea și procesarea dicționarului, este nevoie de 20 de ore pentru a sorta. 5. Recuperează, ambalează și publică, iar după procesarea a peste 100G dicționare, există doar mai mult de 7G, ceea ce arată cât de neglijenți și neglijenți au fost prietenii care au creat dicționare înainte. După planificare, am scris un script shell pentru a-l rula fără supraveghere, și mergeam din când în când să verific încărcarea serverului și apoi să verific progresul procesării shell echo. Calculând, plus încărcarea, descărcarea, ambalarea și publicarea, am petrecut în total patru zile realizând acest dicționar; Inițial, serverul m-a împrumutat doar pentru trei zile, dar nu mă așteptam să fi estimat greșit dimensiunea și dificultatea dicționarului; Din fericire, a fost lansat astăzi. La urma urmei, era o chestiune de îngrijorare. Pur și simplu am executat fuziunea pentru a repeta în chineză și nu am făcut verificare manuală, așa că internauții care s-au plâns de calitatea dicționarului au fost foarte triști, până la urmă, nu am putut parcurge manual dicționarul de peste 100G; Pot doar garanta că aceasta este o colecție a tuturor dicționarelor populare și că nu există duplicate. Procesare: awk+sed+vim Dimensiunea procesării: aproximativ 6,55G Adresă descărcare: (gratuit) 6,55G pachet comprimat total: link:https://pan.baidu.com/s/12LUdmUjPAA9mL_rSkdtPtQCod de extracție:Turiști, dacă vreți să vedeți conținutul ascuns al acestei postări, vă rog Răspunde Dezifie parola:Turiști, dacă vreți să vedeți conținutul ascuns al acestei postări, vă rog Răspunde Dacă unii internauți spun că dicționarul este prea mare, poți folosi această metodă: Folosește metoda din acest tutorialhttp://forum.anywlan.com/thread-151122-1-1.html
Run split -C 1000m nume dicționar Numele dicționarului de ieșire nu va fi împărțit în rânduri pentru a împărți dicționarul în mai multe fișiere mici de 1G
|