Det var ikke lett å lage denne ordboken, først tok det meg en dag å pakke og laste opp alle slags ordbøker jeg hadde lagret på serveren; og pakket og lastet opp ordbøkene produsert av nettbrukere i dette forumet for en annen kveld; Ordbokbehandlingsserveren er lånt fra en venn, og vennens nye webserver må være en kopimaskin, så jeg løy og sa at jeg hadde laget en ordbok for å gjenta og oppdage CPU-en, og vennen min lånte den gjerne til meg i tre dager; Konfigurasjon: Fire Xeon E3 3.10GHZ / 32G DDR3 RAM / 250G SSD harddisker; Jeg installerte Debian 6.0 64-bit på nytt; Uten å telle opplastinger og nedlastinger, går denne ordboken gjennom: 1. Slå sammen, totalt 101,6G store filer (men viste seg senere å være dårlige til gjentakelse); 2. Fjern duplisert innhold, dette er det første tidkrevende arbeidet, det tok mer enn 30 timer å behandle 101.6G-filen, hvorav de tidligere lekkasjedørene 21 stasjoner jeg fant ga totalt omtrent 100G da innholdet var usikkert, og det svake passordet var mer enn 1G; 3. Gå til andre tegn enn kinesisk og ASCII-koding, her tok jeg noen omveier, men etter å ha testet det flere ganger på maskinen før jeg våget å skrive det i batch, er dette det andre tidkrevende arbeidet. For å fremskynde dette steget, delte jeg ordboken som ble behandlet i det andre steget i ti deler, og kjørte batchprosessering samtidig, som tok omtrent 25 timer; 4. Etter å ha slått sammen og behandlet ordboken, tar det 20 timer å sortere. 5. Hente, pakke og publisere, og etter å ha behandlet mer enn 100G ordbøker, er det bare mer enn 7G, noe som viser hvor uforsiktige og uforsiktige venner som tidligere laget ordbøker var. Etter planleggingen skrev jeg et shell-skript for å kjøre det uten tilsyn, og jeg gikk opp av og til for å sjekke serverbelastningen og deretter prosesseringsfremdriften til shell echo. På å regne, laste opp, laste ned, pakke og publisere, brukte jeg totalt fire dager på å lage denne ordboken; Opprinnelig lånte serveren meg bare i tre dager, men jeg forventet ikke at jeg hadde feilvurdert størrelsen og vanskelighetsgraden på ordboken; Heldigvis ble den utgitt i dag. Tross alt var det en bekymring. Jeg utførte bare sammenslåingen for å gjenta på kinesisk, og utførte ikke manuell screening, så nettbrukere som klaget på kvaliteten på ordboken var veldig triste, tross alt kunne jeg ikke manuelt gå gjennom ordboken på mer enn 100G; Jeg kan bare garantere at dette er en samling av alle populære ordbøker, og at det ikke finnes noen duplikater. Behandling: awk+sed+vim Behandlingsstørrelse: omtrent 6,55G Nedlastingsadresse: (gratis) 6,55G totalt komprimert pakke: lenke:https://pan.baidu.com/s/12LUdmUjPAA9mL_rSkdtPtQUtvinningskode:Turister, hvis dere vil se det skjulte innholdet i dette innlegget, vær så snill Svare Pakk ut passordet:Turister, hvis dere vil se det skjulte innholdet i dette innlegget, vær så snill Svare Hvis noen nettbrukere sier at ordboken er for stor, kan du bruke denne metoden: Bruk metoden i denne veiledningenhttp://forum.anywlan.com/thread-151122-1-1.html
Kjør split -C 1000m ordboksnavn Utdataordboksnavnet vil ikke deles opp i rader for å dele ordboken i flere små filer på 1G
|