Det var inte lätt att göra denna ordbok, först tog det mig en dag att paketera och ladda upp alla möjliga ordböcker som jag hade lagrat på servern; och paketerade och laddade upp ordböckerna som nätanvändare producerade i detta forum för Another Night; Ordboksprocessorn är lånad från en vän, och vännens nya webbserver måste vara en kopieringsmaskin, så jag ljög och sa att jag gjort en ordbok för att upprepa och upptäcka CPU:n, och min vän lånade gärna ut den till mig i tre dagar; Konfiguration: Fyra Xeon E3 3.10GHz / 32G DDR3 RAM / 250G SSD hårddiskar; Jag installerade om Debian 6.0 64-bitars; Om man inte räknar uppladdningar och nedladdningar, går denna ordbok igenom: 1. Slå samman, totalt 101,6G stora filer (men visade sig senare vara fruktansvärt repetitionssvåra); 2. Ta bort duplicerad innehåll, detta är det första tidskrävande arbetet, det tog mer än 30 timmar att bearbeta 101.6G-filen, varav de tidigare läckdörrarna på 21 stationer jag hittade gav totalt cirka 100G när innehållet var osäkert, och det svaga lösenordet var mer än 1G; 3. Gå till andra tecken än kinesiska och ASCII-kodning, här tog jag några omvägar men efter att ha testat flera gånger på maskinen innan jag vågade skriva det i batch, är det den här gången det andra tidskrävande arbetet. För att påskynda detta steg delade jag upp ordboken som bearbetades i det andra steget i tio delar och körde batchbearbetning samtidigt, vilket tog cirka 25 timmar; 4. Efter att ha slagit ihop och bearbetat ordboken tar det 20 timmar att sortera. 5. Hämta, paketera och publicera, och efter att ha bearbetat mer än 100G ordböcker finns det bara mer än 7G, vilket visar hur slarviga och vårdslösa vänner som tidigare gjort ordböcker var. Efter planeringen skrev jag ett shell-skript för att köra det utan tillsyn, och jag gick upp då och då för att kontrollera serverbelastningen och sedan kontrollera bearbetningsprogressionen för shell echo. Jag räknade, samt laddade upp, laddade ner, paketerade och publicerade och tillbringade totalt fyra dagar med att göra denna ordbok; Från början lånade servern mig bara i tre dagar, men jag förväntade mig inte att jag hade missbedömt ordbokens storlek och svårighetsgrad; Som tur var släpptes den idag. Det var ju trots allt en fråga om oro. Jag utförde helt enkelt sammanslagningen för att upprepa på kinesiska, och gjorde inte manuell granskning, så nätanvändare som klagade på ordboksens kvalitet var mycket ledsna, jag kunde ju trots allt inte manuellt gå igenom ordboken på mer än 100G; Jag kan bara garantera att detta är en samling av alla populära ordböcker och att det inte finns några dubbletter. Bearbetning: awk+sed+vim Bearbetningsstorlek: cirka 6,55G Nedladdningsadress: (gratis) 6,55G totalt komprimerat paket: länk:https://pan.baidu.com/s/12LUdmUjPAA9mL_rSkdtPtQExtraktionskod:Turister, om ni vill se det dolda innehållet i detta inlägg, snälla Svar Packa upp lösenordet:Turister, om ni vill se det dolda innehållet i detta inlägg, snälla Svar Om vissa nätanvändare säger att ordboken är för stor kan du använda denna metod: Använd metoden i denna handledninghttp://forum.anywlan.com/thread-151122-1-1.html
Kör split -C 1000m ordboksnamn Utdata ordboksnamn kommer inte att delas upp i rader för att dela upp ordboken i flera små filer om 1G
|