Nebylo snadné tento slovník vytvořit, nejdřív mi trvalo celý den zabalit a nahrát různé slovníky, které jsem měl uložené na serveru; a zabalil a nahrál slovníky vytvořené uživateli internetu na toto fórum na další večer; Server pro zpracování slovníku je půjčený od přítele a jeho nový webový server musí být kopírka, takže jsem lhal, že jsem vytvořil slovník pro opakování a detekci CPU, a kamarád mi ho rád půjčil na tři dny; Konfigurace: Čtyři pevné disky Xeon E3 3,10GHZ / 32G DDR3 RAM / 250G SSD; Přeinstaloval jsem Debian 6.0 64-bit; Nepočítaje nahrávání a stahování, tento slovník popisuje: 1. Sloučení, celkem 101,6G velkých souborů (později se však ukázalo, že je velmi špatné opakovat); 2. Odstraňte duplicitní obsah, je to první časově náročná práce, zpracování souboru 101.6G trvalo více než 30 hodin, z čehož předchozí 21 stanic s únikem dveří jsem našel celkem asi 100G, když byl obsah nejistý, a slabé heslo bylo více než 1G; 3. Přejděte na jiné znaky než čínské a ASCII kódování, zde jsem udělal pár odboček, ale po několika testech na stroji, než jsem se odvážil psát dávkově, je to tentokrát druhá časově náročná práce. Abych tento krok urychlil, rozdělil jsem slovník zpracovaný ve druhém kroku na deset částí a současně spouštěl dávkové zpracování, což trvalo asi 25 hodin; 4. Po sloučení a zpracování slovníku trvá třídění 20 hodin. 5. Vyhledat, zabalit a publikovat, a po zpracování více než 100G slovníků je jich jen více než 7G, což ukazuje, jak nedbalí a nedbalí byli přátelé, kteří slovníky vytvářeli dříve. Po plánování jsem napsal shell skript, který to spustil bez dozoru, a občas jsem šel zkontrolovat načítání serveru a pak zkontrolovat průběh zpracování shell echo. Počítáním, nahráváním, stahováním, balením a publikováním jsem strávil celkem čtyři dny tvorbou tohoto slovníku; Původně mě server půjčil jen na tři dny, ale nečekal jsem, že jsem špatně odhadl velikost a obtížnost slovníku; Naštěstí byl dnes uveden. Koneckonců to byla věc k obavám. Jednoduše jsem sloučení provedl tak, aby se opakovalo v čínštině, a ruční kontrolu jsem neprovedl, takže uživatelé internetu, kteří si stěžovali na kvalitu slovníku, byli velmi smutní, koneckonců já jsem nemohl ručně procházet slovník s více než 100G; Mohu jen zaručit, že jde o sbírku všech populárních slovníků a že nejsou žádné duplikáty. Zpracování: awk+sed+vim Velikost zpracování: asi 6,55G Adresa stažení: (zdarma) 6,55G celkově komprimovaný balíček: odkaz:https://pan.baidu.com/s/12LUdmUjPAA9mL_rSkdtPtQExtrakční kód:Turisté, pokud chcete vidět skrytý obsah tohoto příspěvku, prosím Odpověď Rozbalte heslo:Turisté, pokud chcete vidět skrytý obsah tohoto příspěvku, prosím Odpověď Pokud někteří uživatelé internetu říkají, že slovník je příliš velký, můžete použít tuto metodu: Použijte metodu v tomto tutoriáluhttp://forum.anywlan.com/thread-151122-1-1.html
Run split -C 1000m slovníkový název Výstupní název slovníku nebude rozdělen do řádků, aby se slovník rozdělil na několik malých souborů 1G
|