Nebuvo lengva sukurti šį žodyną, pirmiausia man prireikė dienos, kad supakuotų ir įkeltų visų rūšių žodynus, kuriuos buvau išsaugojęs serveryje; ir supakavo bei įkėlė internautų sukurtus žodynus šiame forume dar vienai nakčiai; Žodyno apdorojimo serveris yra pasiskolintas iš draugo, o draugo naujasis žiniatinklio serveris turi būti kopijavimo mašina, todėl melavau, kad sukūriau žodyną, kad pakartočiau ir aptikčiau procesorių, o mano draugas mielai paskolino jį man trims dienoms; Konfigūracija: Keturi Xeon E3 3.10GHZ / 32G DDR3 RAM / 250G SSD kietieji diskai; Iš naujo įdiegiau Debian 6.0 64 bitų; Neskaičiuojant įkėlimų ir atsisiuntimų, šis žodynas pereina: 1. Sujungti, iš viso 101,6G didelių failų (bet vėliau pasirodė esąs baisus pasikartojimas); 2. Pašalinkite pasikartojantį turinį, tai yra pirmasis daug laiko reikalaujantis darbas, 101.6G failo apdorojimas užtruko daugiau nei 30 valandų, iš kurių ankstesnės nuotėkio durys 21 stotis radau iš viso apie 100G, kai turinys buvo neaiškus, o silpnas slaptažodis buvo didesnis nei 1G; 3. Eikite į simbolius, išskyrus kinų ir ASCII kodavimą, čia aš padariau keletą aplinkkelių, bet po bandymo kelis kartus mašinoje prieš išdrįsdamas parašyti jį partija, šį kartą yra antras daug laiko reikalaujantis darbas. Siekdamas pagreitinti šį žingsnį, antrame žingsnyje apdorotą žodyną padalinau į dešimt dalių ir tuo pačiu metu atlikau paketinį apdorojimą, kuris užtruko apie 25 valandas; 4. Sujungus ir apdorojus žodyną, rūšiavimas užtrunka 20 valandų. 5. Nuskaitykite, supakuokite ir paskelbkite, o apdorojus daugiau nei 100G žodynus, yra tik daugiau nei 7G, o tai rodo, kokie neatsargūs ir nerūpestingi draugai, kurie anksčiau kūrė žodynus. Po planavimo, aš parašiau apvalkalo scenarijų paleisti jį be priežiūros, ir aš nuėjau kas kartą, kad patikrinčiau serverio apkrovą ir tada patikrinti apdorojimo eigą apvalkalo aidas. Skaičiuodamas, taip pat įkeldamas, parsisiųsdamas, pakuodamas ir publikuodamas, iš viso praleidau keturias dienas kurdamas šį žodyną; Iš pradžių serveris mane pasiskolino tik trims dienoms, bet nesitikėjau, kad neteisingai įvertinau žodyno dydį ir sudėtingumą; Laimei, jis buvo išleistas šiandien. Galų gale, tai kėlė susirūpinimą. Aš tiesiog įvykdžiau susijungimą, kad pakartočiau kinų kalba, ir neatlikau rankinio patikrinimo, todėl internautai, kurie skundėsi žodyno kokybe, buvo labai liūdni, juk negalėjau rankiniu būdu pereiti per žodyną daugiau nei 100G; Galiu tik garantuoti, kad tai yra visų populiarių žodynų rinkinys ir kad nėra dublikatų. Apdorojimas: awk + sed + vim Apdorojimo dydis: apie 6.55G Atsisiuntimo adresas: (nemokamas) 6.55G bendras suspaustas paketas: nuoroda:https://pan.baidu.com/s/12LUdmUjPAA9mL_rSkdtPtQIštraukimo kodas:Turistai, jei norite pamatyti paslėptą šio įrašo turinį, prašome Atsakyti Išpakuokite slaptažodį:Turistai, jei norite pamatyti paslėptą šio įrašo turinį, prašome Atsakyti Jei kai kurie internautai sako, kad žodynas yra per didelis, galite naudoti šį metodą: Naudokite šioje pamokoje pateiktą metodąhttp://forum.anywlan.com/thread-151122-1-1.html
Paleiskite padalintą -C 1000m žodyno pavadinimą Išvesties žodyno pavadinimas nebus padalintas į eilutes, kad žodynas būtų padalintas į kelis mažus 1G failus
|