Selle sõnastiku tegemine polnud lihtne, esmalt kulus mul päev, et pakendada ja üles laadida kõikvõimalikud sõnaraamatud, mida olin serverisse salvestanud; ning pakendas ja laadis üles selle foorumi netikasutajate poolt koostatud sõnaraamatud veel üheks õhtuks; Sõnastiku töötlemise server on laenatud sõbralt ja sõbra uus veebiserver peab olema koopiamasin, nii et ma valetasin, et tegin sõnastiku protsessori kordamiseks ja tuvastamiseks, ning mu sõber laenas selle mulle rõõmuga kolmeks päevaks; Konfiguratsioon: Neli Xeon E3 3.10GHZ / 32G DDR3 RAM / 250G SSD kõvaketast; Paigaldasin uuesti Debian 6.0 64-bitise; Välja arvatud üleslaadimised ja allalaadimised, läbib see sõnaraamat: 1. Ühendamine, kokku 101,6G suured failid (kuid hiljem osutus kohutavaks korduvaks); 2. Eemalda duplikaatsisu – see on esimene ajamahukas töö, 101.6G faili töötlemine võttis üle 30 tunni, millest eelmine lekkeukse 21 jaama leidis kokku umbes 100G, kui sisu oli ebakindel, ja nõrk parool oli üle 1G; 3. Mine teiste märkide juurde peale hiina ja ASCII kodeerimise, siin tegin mõned kõrvalepõiked, kuid pärast mitmekordset testimist masinal enne partiina kirjutamist on seekord teine ajamahukas töö. Selle sammu kiirendamiseks jagasin teises etapis töödeldud sõnastiku kümneks osaks ja käivitasin samal ajal partiitöötluse, mis võttis umbes 25 tundi; 4. Pärast sõnastiku ühendamist ja töötlemist võtab sorteerimine 20 tundi. 5. Hangi välja, pakenda ja avaldada ning pärast enam kui 100G sõnaraamatute töötlemist on neid ainult rohkem kui 7G, mis näitab, kui hooletud ja hooletud olid sõbrad, kes varem sõnastikke tegid. Pärast planeerimist kirjutasin shell-skripti, mis jooksutas seda järelevalveta, ja aeg-ajalt kontrollisin serveri koormust ning seejärel shell echo töötlemise edenemist. Arvutades ning üles laadides, laadides, pakendama ja avaldades, veetsin kokku neli päeva selle sõnaraamatu koostamiseks; Alguses laenas server mind ainult kolmeks päevaks, kuid ma ei oodanud, et oleksin sõnastiku suurust ja raskusastet valesti hinnanud; Õnneks avaldati see täna. Lõppude lõpuks oli see murekoht. Ma lihtsalt viisin ühinemise läbi, et seda hiina keeles korrata, ega teinud käsitsi kontrolli, nii et netikasutajad, kes kurtsid sõnastiku kvaliteedi üle, olid väga kurvad, sest ma ei saanud käsitsi läbi vaadata üle 100G sõnaraamatut; Võin vaid garanteerida, et see on kõigi populaarsete sõnaraamatute kogumik ja et duplikaate pole. Töötlemine: awk+sed+vim Töötlemismaht: umbes 6,55G Allalaadimise aadress: (tasuta) 6,55G kokku tihendatud pakett: link:https://pan.baidu.com/s/12LUdmUjPAA9mL_rSkdtPtQEkstraktsioonikood:Turistid, kui soovite näha selle postituse peidetud sisu, palun Vastuse Tõmba parool lahti:Turistid, kui soovite näha selle postituse peidetud sisu, palun Vastuse Kui mõned netikasutajad ütlevad, et sõnastik on liiga suur, võid kasutada seda meetodit: kasuta seda meetodit selles õpetuseshttp://forum.anywlan.com/thread-151122-1-1.html
Käivita jagamine -C 1000m sõnastiku nimi Väljundsõnastiku nimi ei jagata ridadeks, et jagada sõnastik mitmeks väikeseks 1G failiks
|