Не беше лесно да направя този речник, първо ми отне ден да опаковам и кача всякакви речници, които бях съхранил на сървъра; и опаковаха и качиха речниците, създадени от интернет потребителите във форума, за друга вечер; Сървърът за обработка на речника е зает от приятел, а новият уеб сървър на приятеля трябва да е копирна машина, затова излъгах, че съм направил речник за повтаряне и откриване на процесора, и приятелят ми с радост ми го даде за три дни; Конфигурация: Четири твърди диска Xeon E3 3.10GHZ /32G DDR3 RAM / 250G SSD; Преинсталирах Debian 6.0 64-битов; Без да броим качванията и изтеглянията, този речник разглежда: 1. Merge, общо 101.6G големи файлове (но по-късно се оказа ужасно повтаряне); 2. Премахнете дублиращото се съдържание, това е първата времеемка работа, отне повече от 30 часа обработката на файла 101.6G, от който предишните 21 станции за изтичане на 21 станции открих, че правят общо около 100G, когато съдържанието беше несигурно, а слабата парола беше над 1G; 3. Отиди на знаци, различни от китайски и ASCII кодиране, тук направих няколко отклонения, но след като го тествах няколко пъти на машината, преди да се осмеля да го напиша на партида, този път е втората времеемка работа. За да ускоря тази стъпка, разделих обработения речник във втората стъпка на десет части и изпълних пакетна обработка едновременно, което отне около 25 часа; 4. След сливане и обработка на речника, сортирането отнема 20 часа. 5. Вземи, опаковай и публикувай, и след обработка на над 100G речници, има само повече от 7G, което показва колко небрежни и небрежни са били приятелите, които са правили речници преди. След като планирах, написах shell скрипт, за да го пусна без надзор, и от време на време се качвах, за да проверя натоварването на сървъра и после да проверя процеса на shell echo. Изчислявайки, както и качване, изтегляне, опаковане и публикуване, прекарах общо четири дни в създаването на този речник; Първоначално сървърът ме взе назаем само за три дни, но не очаквах да съм подценил размера и трудността на речника; За щастие, той беше пуснат днес. В крайна сметка, това беше въпрос на загриженост. Просто изпълних сливането да повтори на китайски и не направих ръчно проверяване, така че потребителите, които се оплакваха от качеството на речника, бяха много тъжни, все пак не можех ръчно да прегледам речника на повече от 100G; Мога само да гарантирам, че това е колекция от всички популярни речници и че няма дубликати. Обработка: awk+sed+vim Размер на процесора: около 6.55G Адрес за изтегляне: (безплатно) 6.55G общо компресиран пакет: линк:https://pan.baidu.com/s/12LUdmUjPAA9mL_rSkdtPtQКод за извличане:Туристи, ако искате да видите скритото съдържание на този пост, моля Отговор Разархивирайте паролата:Туристи, ако искате да видите скритото съдържание на този пост, моля Отговор Ако някои потребители казват, че речникът е твърде голям, можете да използвате този метод: Използвайте метода от този урокhttp://forum.anywlan.com/thread-151122-1-1.html
Стартирайте split -C име на речник 1000m Изходното име на речника няма да бъде разделено на редове, за да се раздели речникът на няколко малки файла от 1G
|