Det var ikke let at lave denne ordbog, først tog det mig en dag at pakke og uploade alle mulige ordbøger, jeg havde gemt på serveren; og pakket og uploadet ordbøgerne produceret af netbrugere i dette forum til en anden aften; Ordbogsbehandlingsserveren er lånt af en ven, og vennens nye webserver skal være en kopimaskine, så jeg løj og sagde, at jeg havde lavet en ordbog til at gentage og opdage CPU'en, og min ven lånte den gerne til mig i tre dage; Konfiguration: Fire Xeon E3 3.10GHZ / 32G DDR3 RAM / 250G SSD harddiske; Jeg geninstallerede Debian 6.0 64-bit; Uden at tælle uploads og downloads med, gennemgår denne ordbog: 1. Sammenlægning, i alt 101,6G store filer (men viste sig senere at være elendig til gentagelse); 2. Fjern duplikeret indhold, dette er det første tidskrævende arbejde, det tog mere end 30 timer at behandle 101.6G-filen, hvoraf den tidligere lækage dør 21 stationer jeg fandt gav i alt omkring 100G, da indholdet var usikkert, og den svage adgangskode var mere end 1G; 3. Gå til andre tegn end kinesisk og ASCII-kodning, her tog jeg et par omveje, men efter at have testet det flere gange på maskinen, før jeg turde skrive det i batch, er det denne gang det andet tidskrævende arbejde. For at fremskynde dette trin delte jeg ordbogen, der blev behandlet i andet trin, op i ti dele og kørte batchbehandlingen samtidig, hvilket tog omkring 25 timer; 4. Efter sammensmeltning og behandling af ordbogen tager det 20 timer at sortere. 5. Hente, pakke og udgive, og efter at have behandlet mere end 100G ordbøger, er der kun mere end 7G, hvilket viser, hvor uforsigtige og uforsigtige venner, der tidligere lavede ordbøger, var. Efter planlægningen skrev jeg et shell-script til at køre det uden opsyn, og jeg gik op en gang imellem for at tjekke serverbelastningen og derefter tjekke behandlingsfremgangen for shell echo. Jeg regnede ud, uploadede, downloadede, pakkede og udgav og brugte i alt fire dage på at lave denne ordbog; Oprindeligt lånte serveren mig kun i tre dage, men jeg havde ikke forventet, at jeg havde fejlvurderet størrelsen og sværhedsgraden af ordbogen; Heldigvis blev den udgivet i dag. Det var trods alt en bekymring. Jeg udførte blot sammenlægningen for at gentage på kinesisk og lavede ikke manuel screening, så netbrugere, der klagede over ordbogens kvalitet, var meget kede af det, for jeg kunne trods alt ikke manuelt gennemgå ordbogen på mere end 100G; Jeg kan kun garantere, at dette er en samling af alle populære ordbøger, og at der ikke findes dubletter. Behandling: awk+sed+vim Behandlingsstørrelse: ca. 6,55G Downloadadresse: (gratis) 6,55G samlet komprimeret pakke: link:https://pan.baidu.com/s/12LUdmUjPAA9mL_rSkdtPtQUdtrækningskode:Turister, hvis I vil se det skjulte indhold i dette indlæg, så vær venlig Svar Udpak adgangskoden:Turister, hvis I vil se det skjulte indhold i dette indlæg, så vær venlig Svar Hvis nogle netbrugere siger, at ordbogen er for stor, kan du bruge denne metode: Brug metoden i denne vejledninghttp://forum.anywlan.com/thread-151122-1-1.html
Kør split -C 1000m ordbogsnavn Output-ordbogens navn vil ikke blive delt op i rækker for at opdele ordbogen i flere små filer af 1G
|