Создать этот словарь было непросто: сначала мне понадобился день, чтобы упаковать и загрузить всевозможные словари, которые я хранил на сервере; и упаковал и загрузил словари, созданные пользователями этого форума, на другой вечер; Сервер для обработки словаря взят у друга, а новый веб-сервер друга должен быть копировальной машиной, поэтому я солгал, что сделал словарь для повторения и обнаружения процессора, и друг с радостью одолжил его мне на три дня; Конфигурация: Четыре жестких диска Xeon E3 3.10 ГГц / 32G DDR3 RAM / 250G SSD; Я переустановил Debian 6.0 64-битный; Не считая загрузок и загрузок, этот словарь проходит: 1. Слияние, всего 101,6 Гб больших файлов (но позже оказалось ужасно повторяемым); 2. Удалить дублирующийся контент — это первая трудоёмкая работа, обработка файла 101.6G заняла более 30 часов, из которых на предыдущей 21 станции leak door я обнаружил, что в сумме было около 100G, когда содержимое было неопределенным, а слабый пароль превышал 1G; 3. Перейдите к символам, кроме китайского и ASCII-кодирования, здесь я сделал несколько обходных путей, но после нескольких тестов на машине, прежде чем осмелиться писать пакетно, это вторая трудоёмкая работа. Чтобы ускорить этот этап, я разделил словарь, обработанный на втором этапе, на десять частей и одновременно запустил пакетную обработку, которая заняла около 25 часов; 4. После слияния и обработки словаря сортировка занимает 20 часов. 5. Получить, упаковать и опубликовать, и после обработки более 100G словарей их осталось только 7G, что показывает, насколько небрежными и небрежными были друзья, которые раньше создавали словари. После планирования я написал шелл-скрипт для самостоятельного запуска и время от времени заходил проверить нагрузку сервера, а затем проверить процесс обработки shell echo. Вычисляя, а также загружая, скачивая, упаковывая и публикуя, я потратил в общей сложности четыре дня на создание этого словаря; Изначально сервер одолжил меня всего на три дня, но я не ожидал, что неправильно оценил размер и сложность словаря; К счастью, он вышел сегодня. В конце концов, это было поводом для беспокойства. Я просто выполнил слияние, чтобы повторить на китайском, и не проводил ручной отбор, поэтому пользователи интернета, жаловавшиеся на качество словаря, были очень расстроены — ведь я не мог вручную просмотреть словарь более чем 100G; Я могу только гарантировать, что это сборник всех популярных словарей и что их не существует. Обработка: awk+sed+vim Размер обработки: около 6.55G Адрес для загрузки: (бесплатно) 6.55G общий сжатый пакет: ссылка:https://pan.baidu.com/s/12LUdmUjPAA9mL_rSkdtPtQКод извлечения:Туристы, если вы хотите увидеть скрытое содержание этого поста, пожалуйста Ответ Распаковайте пароль:Туристы, если вы хотите увидеть скрытое содержание этого поста, пожалуйста Ответ Если некоторые пользователи считают, что словарь слишком большой, вы можете использовать такой способ: используйте метод из этого учебникаhttp://forum.anywlan.com/thread-151122-1-1.html
Запустите слово с разделением -C 1000m. Имя выходного словаря не будет разбиваться на строки, чтобы разбить словарь на несколько небольших файлов 1G.
|