Створити цей словник було непросто: спочатку мені знадобився день, щоб упакувати та завантажити всілякі словники, які я зберігав на сервері; а також упакував і завантажив словники, створені користувачами на цьому форумі, на інший вечір; Сервер для обробки словників позичений у друга, а новий вебсервер друга має бути копіювальною машиною, тому я збрехав, що зробив словник для повторення та виявлення процесора, і друг із задоволенням позичив його мені на три дні; Конфігурація: Чотири жорсткі диски Xeon E3 3.10GHZ /32G DDR3 RAM / 250G SSD; Я перевстановив Debian 6.0 64-біт; Не враховуючи завантаження та завантаження, цей словник розглядає: 1. Об'єднання — загалом 101,6G великих файлів (але пізніше виявилося жахливим для повторення); 2. Видалити дублікат контенту, це перша трудомістка робота, обробка файлу 101.6G зайняла понад 30 годин, з яких на попередніх 21 станції я виявив, що загалом було близько 100G, коли вміст був невизначений, а слабкий пароль перевищував 1G; 3. Перейдіть до символів, окрім китайського та ASCII-кодування, тут я зробив кілька відходів, але після кількох тестів на машині перед тим, як наважитися писати пакетно, цього разу це друга трудомістка робота. Щоб прискорити цей крок, я розділив словник, оброблений на другому кроці, на десять частин і одночасно запустив пакетну обробку, що зайняло близько 25 годин; 4. Після об'єднання та обробки словника сортування займає 20 годин. 5. Отримати, упакувати та опублікувати, і після обробки понад 100G словників їх залишилося лише більше 7G, що показує, наскільки недбалими і недбалими були друзі, які створювали словники раніше. Після планування я написав shell-скрипт для роботи без нагляду, і час від часу піднімався, щоб перевірити навантаження сервера, а потім перевірити процес обробки shell echo. Обчислюючи, а також завантажуючи, завантажуючи, пакуючи та публікуючи, я витратив загалом чотири дні на створення цього словника; Спочатку сервер позичив мене лише на три дні, але я не очікував, що неправильно оцінив розмір і складність словника; На щастя, сьогодні його випустили. Адже це було питання для занепокоєння. Я просто виконав злиття, щоб повторити його китайською, і не проводив ручний відбір, тому користувачі, які скаржилися на якість словника, були дуже засмучені, адже я не міг вручну переглянути словник більш ніж 100G; Я можу лише гарантувати, що це збірка всіх популярних словників і немає дублікатів. Обробка: awk+sed+vim Розмір обробки: близько 6.55G Адреса завантаження: (безкоштовно) 6.55G загальний стиснений пакет: посилання:https://pan.baidu.com/s/12LUdmUjPAA9mL_rSkdtPtQКод вилучення:Туристи, якщо ви хочете побачити прихований контент цього допису, будь ласка Відповідь Розпакуйте пароль:Туристи, якщо ви хочете побачити прихований контент цього допису, будь ласка Відповідь Якщо деякі користувачі скажуть, що словник занадто великий, ви можете скористатися таким методом: використовуйте метод із цього навчального посібникаhttp://forum.anywlan.com/thread-151122-1-1.html
Запустіть розділене -C словникове ім'я 1000m. Назва вихідного словника не буде розділена на рядки, щоб розділити словник на кілька невеликих файлів 1G.
|