Ce n’était pas facile de créer ce dictionnaire, d’abord il m’a fallu une journée pour emballer et télécharger toutes sortes de dictionnaires que j’avais stockés sur le serveur ; et a emballé et mis en ligne les dictionnaires produits par les internautes sur ce forum pour une autre soirée ; Le serveur de traitement du dictionnaire est emprunté à un ami, et le nouveau serveur web de cet ami doit être une photocopieuse, alors j’ai menti en disant que j’avais créé un dictionnaire pour répéter et détecter le processeur, et mon ami me l’a prêté volontiers pendant trois jours ; Configuration : Quatre disques durs Xeon E3 3,10GHz / 32G DDR3 RAM / SSD 250G ; J’ai réinstallé Debian 6.0 64 bits ; Sans compter les téléchargements et les téléchargements, ce dictionnaire suit : 1. Fusion, un total de 101,6 Go de gros fichiers (mais qui se sont ensuite avérés terribles en termes de répétition) ; 2. Supprimer le contenu en double, c’est le premier travail chronophage, il a fallu plus de 30 heures pour traiter le fichier 101.6G, dont la fuite précédente a fait que 21 stations que j’ai trouvées pour un total d’environ 100G lorsque le contenu était incertain, et le mot de passe faible dépassait 1G ; 3. Passer aux caractères autres que le chinois et l’encodage ASCII, ici j’ai fait quelques détours mais après plusieurs tests sur la machine avant d’oser l’écrire en batch, cette fois c’est le deuxième travail chronophage. Pour accélérer cette étape, j’ai divisé le dictionnaire traité à la deuxième étape en dix parties, et j’ai lancé un traitement par lots en même temps, ce qui a pris environ 25 heures ; 4. Après fusion et traitement du dictionnaire, il faut 20 heures pour trier. 5. Récupérer, emballer et publier, et après avoir traité plus de 100 G de dictionnaires, il n’y en a que plus de 7G, ce qui montre à quel point les amis qui avaient créé des dictionnaires auparavant étaient négligents et négligents. Après avoir planifié, j’ai écrit un script shell pour l’exécuter sans surveillance, et je montais de temps en temps vérifier la charge du serveur puis l’avancement du traitement de shell echo. Calculant, en plus de télécharger, de mettre en valeur et de publier, j’ai passé un total de quatre jours à créer ce dictionnaire ; À l’origine, le serveur ne m’avait emprunté que trois jours, mais je ne m’attendais pas à avoir mal jugé la taille et la difficulté du dictionnaire ; Heureusement, il est sorti aujourd’hui. Après tout, c’était une question d’inquiétude. J’ai simplement exécuté la fusion pour la répéter en chinois, et je n’ai pas effectué de tri manuel, donc les internautes qui se plaignaient de la qualité du dictionnaire étaient très attristés, après tout, je ne pouvais pas consulter manuellement le dictionnaire de plus de 100G ; Je ne peux que garantir qu’il s’agit d’une collection de dictionnaires populaires et qu’il n’y a pas de doublons. Traitement : awk+sed+vim Taille du traitement : environ 6,55G Adresse de téléchargement : (gratuit) 6,55G package compressé global : lien :https://pan.baidu.com/s/12LUdmUjPAA9mL_rSkdtPtQCode d’extraction :Touristes, si vous voulez voir le contenu caché de ce post, s’il vous plaît Répondre Dézipper le mot de passe :Touristes, si vous voulez voir le contenu caché de ce post, s’il vous plaît Répondre Si certains internautes disent que le dictionnaire est trop volumineux, vous pouvez utiliser cette méthode : Utilisez la méthode de ce tutorielhttp://forum.anywlan.com/thread-151122-1-1.html
Run split -C 1000m nom du dictionnaire Le nom du dictionnaire de sortie ne sera pas divisé en lignes pour diviser le dictionnaire en plusieurs petits fichiers 1G
|