Izdelava tega slovarja ni bila lahka, najprej sem potreboval dan, da sem zapakiral in naložil vse vrste slovarjev, ki sem jih imel shranjene na strežniku; ter zapakirala in naložila slovarje, ki so jih pripravili uporabniki interneta na tem forumu, za še en večer; Strežnik za obdelavo slovarja sem si izposodil od prijatelja, njegov novi spletni strežnik pa mora biti kopirni stroj, zato sem lagal, da sem naredil slovar za ponavljanje in zaznavanje procesorja, in prijatelj mi ga je z veseljem posodil za tri dni; Konfiguracija: Štirje Xeon E3 3,10GHZ / 32G DDR3 RAM / 250G SSD trdi diski; Ponovno sem namestil Debian 6.0 64-bit; Ne štejemo nalaganj in prenosov, ta slovar prebiva: 1. Merge, skupaj 101,6G velikih datotek (kasneje pa se je izkazalo, da se ne ponavlja); 2. Odstraniti podvojeno vsebino, to je prvo zamudno delo, obdelava datoteke 101.6G je trajala več kot 30 ur, od katerih je prejšnjih 21 postaj z uhajajočimi vrati skupaj povzročilo približno 100G, ko je bila vsebina negotova, šibko geslo pa je bilo več kot 1G; 3. Pojdi na znake, ki niso kitajščina, in ASCII kodiranje, tukaj sem naredil nekaj ovinkov, a po večkratnem testiranju na stroju, preden sem si upal pisati v serijah, je tokrat drugo časovno zahtevno delo. Da bi pospešil ta korak, sem slovar, obdelan v drugem koraku, razdelil na deset delov in hkrati izvajal serijsko obdelavo, kar je trajalo približno 25 ur; 4. Po združitvi in obdelavi slovarja traja 20 ur za razvrščanje. 5. Pridobiti, zapakirati in objaviti, in po obdelavi več kot 100G slovarjev je ostalo le še več kot 7G, kar kaže, kako nepazljivi in malomarni so bili prijatelji, ki so prej ustvarjali slovarje. Po načrtovanju sem napisal shell skripto, ki jo je zagnala brez nadzora, občasno pa sem šel preverit obremenitev strežnika in nato potek obdelave shell echo. Z izračuni, nalaganjem, prenašanjem, pakiranjem in objavo sem skupaj štiri dni ustvarjal ta slovar; Sprva me je strežnik izposodil le za tri dni, a nisem pričakoval, da sem napačno ocenil velikost in zahtevnost slovarja; Na srečo je bil izdan danes. Navsezadnje je bilo to zadeva za skrb. Preprosto sem izvedel združitev, da bi se ponovila v kitajščini, in nisem izvajal ročnega pregledovanja, zato so bili uporabniki interneta, ki so se pritoževali nad kakovostjo slovarja, zelo žalostni, saj nisem mogel ročno pregledati slovarja z več kot 100G; Lahko le zagotovim, da gre za zbirko vseh priljubljenih slovarjev in da ni nobenih dvojnikov. Obdelava: awk+sed+vim Velikost procesiranja: približno 6,55G Naslov prenosa: (brezplačno) 6,55G celoten stisnjen paket: povezava:https://pan.baidu.com/s/12LUdmUjPAA9mL_rSkdtPtQEkstrakcijska koda:Turisti, če želite videti skrito vsebino te objave, prosim Odgovoriti Razzipajte geslo:Turisti, če želite videti skrito vsebino te objave, prosim Odgovoriti Če nekateri uporabniki interneta pravijo, da je slovar prevelik, lahko uporabite to metodo: Uporabite metodo iz tega vodičahttp://forum.anywlan.com/thread-151122-1-1.html
Run split -C 1000m ime slovarja Ime izhodnega slovarja ne bo razdeljeno na vrstice, da bi slovar razdelili na več majhnih datotek 1G
|