Tidak mudah untuk membuat kamus ini, pertama-tama saya butuh satu hari untuk mengemas dan mengunggah semua jenis kamus yang telah saya simpan di server; dan mengemas dan mengunggah kamus yang dihasilkan oleh netizen di forum ini untuk satu malam lagi; Server pemrosesan kamus dipinjam dari seorang teman, dan server web baru teman itu harus menjadi mesin fotokopi, jadi saya berbohong bahwa saya membuat kamus untuk mengulangi dan mendeteksi CPU, dan teman saya dengan senang hati meminjamkannya kepada saya selama tiga hari; Konfigurasi: Empat hard drive Xeon E3 3.10GHZ / 32G DDR3 RAM / 250G SSD; Saya menginstal ulang Debian 6.0 64-bit; Tidak termasuk unggahan dan unduhan, kamus ini melalui: 1. Gabungkan, total 101.6G file besar (tetapi kemudian terbukti mengulangi yang mengerikan); 2. Hapus konten duplikat, ini adalah pekerjaan pertama yang memakan waktu, butuh lebih dari 30 jam untuk memproses file 101.6G, di mana pintu kebocoran sebelumnya 21 stasiun saya temukan membuat total sekitar 100G ketika kontennya tidak pasti, dan kata sandi yang lemah lebih dari 1G; 3. Pergi ke karakter selain pengkodean Cina dan ASCII, di sini saya mengambil beberapa jalan memutar tetapi setelah mengujinya beberapa kali di mesin sebelum berani menulisnya secara berkelompok, kali ini adalah pekerjaan kedua yang memakan waktu. Untuk mempercepat langkah ini, saya membagi kamus yang diproses pada langkah kedua menjadi sepuluh bagian, dan menjalankan pemrosesan batch pada saat yang sama, yang memakan waktu sekitar 25 jam; 4. Setelah menggabungkan dan memproses kamus, dibutuhkan 20 jam untuk menyortir. 5. Ambil dan kemas dan publikasikan, dan setelah memproses lebih dari 100G kamus, hanya ada lebih dari 7G, yang menunjukkan betapa ceroboh dan ceroboh teman-teman yang membuat kamus sebelumnya. Setelah merencanakan, saya menulis skrip shell untuk menjalankannya tanpa pengawasan, dan saya sesekali naik untuk memeriksa beban server dan kemudian memeriksa kemajuan pemrosesan shell echo. Menghitung, ditambah mengunggah, mengunduh, mengemas, dan menerbitkan, saya menghabiskan total empat hari membuat kamus ini; Awalnya, server hanya meminjam saya selama tiga hari, tetapi saya tidak menyangka bahwa saya salah menilai ukuran dan kesulitan kamus; Untungnya, itu dirilis hari ini. Bagaimanapun, itu adalah masalah yang memprihatinkan. Saya hanya melakukan penggabungan untuk mengulangi dalam bahasa Cina, dan tidak melakukan penyaringan manual, jadi netizen yang mengeluh tentang kualitas kamus sangat sedih, lagipula, saya tidak dapat membaca kamus lebih dari 100G secara manual; Saya hanya dapat menjamin bahwa ini adalah kumpulan dari semua kamus populer dan tidak ada duplikat. Pemrosesan: awk + sed + vim Ukuran pemrosesan: sekitar 6.55G Alamat unduhan: (gratis) 6.55G keseluruhan paket terkompresi : tautan:https://pan.baidu.com/s/12LUdmUjPAA9mL_rSkdtPtQKode ekstraksi:Wisatawan, jika Anda ingin melihat konten tersembunyi dari posting ini, silakan Jawab Unzip kata sandi:Wisatawan, jika Anda ingin melihat konten tersembunyi dari posting ini, silakan Jawab Jika beberapa netizen mengatakan kamusnya terlalu besar, Anda dapat menggunakan metode ini: Gunakan metode dalam tutorial inihttp://forum.anywlan.com/thread-151122-1-1.html
Jalankan nama kamus split -C 1000m Nama kamus keluaran tidak akan dibagi menjadi beberapa baris untuk membagi kamus menjadi beberapa file kecil 1G
|