Nebolo jednoduché vytvoriť tento slovník, najprv mi trvalo deň zabaliť a nahrať všetky druhy slovníkov, ktoré som mal uložené na serveri; a zabalil a nahral slovníky vytvorené internetovými používateľmi na tomto fóre na ďalšiu noc; Spracovateľský server slovníka som si požičal od kamaráta a jeho nový webserver musí byť kopírovací stroj, takže som klamal, že som vytvoril slovník na opakovanie a detekciu CPU, a kamarát mi ho ochotne požičal na tri dni; Konfigurácia: Štyri Xeon E3 3,10GHZ / 32G DDR3 RAM / 250G SSD pevné disky; Preinštaloval som Debian 6.0 64-bit; Ak nepočítame nahrávania a sťahovania, tento slovník prechádza: 1. Merge, celkovo 101,6G veľkých súborov (ale neskôr sa ukázalo, že je veľmi ťažké sa opakovať); 2. Odstrániť duplicitný obsah, toto je prvá časovo náročná práca, spracovanie 101.6G súboru trvalo viac ako 30 hodín, z ktorých predchádzajúcich 21 staníc s únikom dverí som našiel celkovo asi 100G, keď bol obsah neistý, a slabé heslo bolo viac ako 1G; 3. Prejsť na iné znaky než čínske a ASCII kódovanie, tu som urobil niekoľko odboček, ale po niekoľkých testoch na stroji predtým, než som sa odvážil napísať v dávke, je to tentoraz druhá časovo náročná práca. Aby som tento krok urýchlil, rozdelil som slovník spracovaný v druhom kroku na desať častí a zároveň som spustil dávkové spracovanie, čo trvalo približne 25 hodín; 4. Po zlúčení a spracovaní slovníka trvá zoradenie 20 hodín. 5. Získať, zabaliť a publikovať, a po spracovaní viac ako 100G slovníkov je len viac ako 7G, čo ukazuje, akí neopatrní a neopatrní boli priatelia, ktorí si slovníky vytvárali predtým. Po plánovaní som napísal shell skript, ktorý to spustil bez dozoru, a občas som išiel skontrolovať načítanie servera a potom priebeh spracovania shell echo. Počítaním, nahrávaním, sťahovaním, balením a publikovaním som strávil celkovo štyri dni tvorbou tohto slovníka; Pôvodne ma server požičal len na tri dni, ale nečakal som, že som zle odhadol veľkosť a náročnosť slovníka; Našťastie bol dnes vydaný. Veď to bola záležitosť na obavy. Jednoducho som zlúčenie vykonal a zopakoval v čínštine a manuálne som nepreveroval, takže používatelia internetu, ktorí sa sťažovali na kvalitu slovníka, boli veľmi sklamaní, veď som nemohol manuálne prejsť slovník s viac ako 100G; Môžem len zaručiť, že ide o zbierku všetkých populárnych slovníkov a že neexistujú žiadne duplikáty. Spracovanie: awk+sed+vim Veľkosť spracovania: približne 6,55G Adresa sťahovania: (zadarmo) 6,55G celkový komprimovaný balík: odkaz:https://pan.baidu.com/s/12LUdmUjPAA9mL_rSkdtPtQKód extrakcie:Turisti, ak chcete vidieť skrytý obsah tohto príspevku, prosím. Odpoveď Rozbalte heslo:Turisti, ak chcete vidieť skrytý obsah tohto príspevku, prosím. Odpoveď Ak niektorí internetoví používatelia tvrdia, že slovník je príliš veľký, môžete použiť túto metódu: Použite metódu z tohto tutoriáluhttp://forum.anywlan.com/thread-151122-1-1.html
Run split -C 1000m slovníkový názov Výstupný názov slovníka nebude rozdelený do riadkov, aby sa slovník rozdelil na niekoľko malých súborov 1G
|