この辞書を作るのは簡単ではありませんでした。最初はサーバーに保存していたあらゆる種類の辞書をパッケージ化しアップロードするのに1日かかりました。 また、このフォーラムでネットユーザーが作成した辞書をパッケージ化し、別の夜にアップロードしました。 辞書処理サーバーは友人から借りたもので、友人の新しいウェブサーバーはコピー機である必要があるため、CPUを繰り返し検出するための辞書を作ったと嘘をつき、友人が喜んで3日間貸してくれました。 構成: Xeon E3 3.10GHz / 32G DDR3 RAM / 250G SSDハードドライブが4台; Debian 6.0 64ビットを再インストールしました。 アップロードやダウンロードを除いて、この辞書は以下の内容を扱っています: 1. マージ:合計101.6Gの大きなファイル(ただし後に繰り返しが非常に悪いことが判明); 2. 重複コンテンツの削除。これは最初の時間のかかる作業で、101.6Gファイルの処理に30時間以上かかりました。前回のリークドアのうち、内容が不確かな場合に見つけた21局で合計約100Gとなり、弱いパスワードは1G以上でした。 3. 中国語とASCIIエンコード以外の文字に切り替える。ここではいくつか寄り道をしたが、機械で何度かテストした後、一括で書く勇気を出した。今回は2回目の時間のかかる作業だ。 このステップを速めるために、第2段階で処理された辞書を10に分割し、同時にバッチ処理を行い、約25時間かかりました。 4. 辞書を統合して処理した後、並べ替えに20時間かかります。 5. 検索・パッケージ化・公開し、100GB以上の辞書を処理した後、7Gを超えるしかなくなりません。これは、以前辞書を作っていた友人たちがいかに不注意で不注意だったかを示しています。 計画を立てた後、無人で実行するシェルスクリプトを書き、時々サーバーの負荷を確認し、その後シェルエコーの処理進捗を確認しました。 計算に加え、アップロード・ダウンロード・パッケージング・出版を合わせて、この辞書作成に合計4日間かかりました。 もともとサーバーは私を3日間だけ借りてくれましたが、辞書の大きさや難易度を誤って判断していたとは思いませんでした。 幸いにも、本日リリースされました。 結局のところ、それは懸念事項だった。 私は単に中国語で繰り返すだけの合併を実行し、手作業で選別しなかったので、辞書の質に不満を言うネットユーザーは非常に悲しみました。結局のところ、100Gを超える辞書を手作業で調べることはできなかったのです。 これはすべての人気辞書のコレクションであり、重複は一切ないことを保証します。 処理:awk+sed+vim 処理サイズ:約6.55G ダウンロードアドレス:(無料) 6.55G 全体圧縮パッケージ:リンク:https://pan.baidu.com/s/12LUdmUjPAA9mL_rSkdtPtQ抽出コード:観光客の皆さん、この投稿の隠された内容を見たい方は、どうぞ 答える パスワードの解凍:観光客の皆さん、この投稿の隠された内容を見たい方は、どうぞ 答える もし一部のネットユーザーが辞書が大きすぎると言うなら、この方法を使うことができます:このチュートリアルの方法を使ってくださいhttp://forum.anywlan.com/thread-151122-1-1.html
実行 分割 -C 1000m 辞書名 出力辞書名は行に分割されず、辞書を複数の小さな1Gファイルに分割しません
|