No fue fácil hacer este diccionario, primero me llevó un día empaquetar y subir todo tipo de diccionarios que tenía almacenados en el servidor; y empaquetaron y subieron los diccionarios producidos por internautas en este foro para otra noche; El servidor de procesamiento de diccionario es prestado de un amigo, y el nuevo servidor web de ese amigo necesita ser una fotocopiadora, así que mentí diciendo que hice un diccionario para repetir y detectar la CPU, y mi amigo me lo prestó encantado durante tres días; Configuración: Cuatro discos duros Xeon E3 de 3,10 GHz / 32G DDR3 de RAM / 250G SSD; Reinstalé Debian 6.0 64 bits; Sin contar las subidas y descargas, este diccionario recorre: 1. Fusionar, un total de 101,6G de archivos grandes (pero que luego resultaron ser terribles de repetición); 2. Eliminar contenido duplicado, este es el primer trabajo que consume mucho tiempo, tardó más de 30 horas en procesar el archivo 101.6G, de los cuales la filtración anterior encontró que 21 estaciones hacían un total de unos 100G cuando el contenido era incierto, y la contraseña débil era superior a 1G; 3. Ir a caracteres distintos del chino y la codificación ASCII; aquí hice algunos desvíos, pero tras probarlo varias veces en la máquina antes de atreverse a escribirlo en lote, esta vez es el segundo trabajo que consume mucho tiempo. Para acelerar este paso, dividí el diccionario procesado en el segundo paso en diez partes y ejecuté el procesamiento por lotes al mismo tiempo, lo que llevó unas 25 horas; 4. Tras fusionar y procesar el diccionario, tarda 20 horas en ordenarse. 5. Recuperar, empaquetar y publicar, y tras procesar más de 100G de diccionarios, solo quedan más de 7G, lo que demuestra lo descuidados y descuidados que fueron los amigos que antes creaban diccionarios. Después de planificar, escribí un script de shell para ejecutarlo sin supervisión, y de vez en cuando subía para comprobar la carga del servidor y luego comprobar el progreso del procesamiento de shell echo. Calculando, además de subir, descargar, empaquetar y publicar, pasé un total de cuatro días haciendo este diccionario; Originalmente, el servidor solo me pidió prestado durante tres días, pero no esperaba haber calculado mal el tamaño y la dificultad del diccionario; Por suerte, se ha publicado hoy. Al fin y al cabo, era un asunto preocupante. Simplemente ejecuté la fusión para repetirla en chino, y no hice un filtro manual, así que los internautas que se quejaban de la calidad del diccionario estaban muy tristes, después de todo, no podía revisar manualmente el diccionario de más de 100G; Solo puedo garantizar que esta es una colección de todos los diccionarios populares y que no hay duplicados. Procesamiento: awk+sed+vim Tamaño de procesamiento: aproximadamente 6,55G Dirección de descarga: (gratis) 6,55G paquete comprimido total: enlace:https://pan.baidu.com/s/12LUdmUjPAA9mL_rSkdtPtQCódigo de extracción:Turistas, si queréis ver el contenido oculto de esta publicación, por favor Respuesta Descomprime la contraseña:Turistas, si queréis ver el contenido oculto de esta publicación, por favor Respuesta Si algunos internautas dicen que el diccionario es demasiado grande, puedes usar este método: Utiliza el método de este tutorialhttp://forum.anywlan.com/thread-151122-1-1.html
Run split -C 1000m nombre del diccionario El nombre del diccionario de salida no se dividirá en filas para dividir el diccionario en varios archivos pequeños de 1G
|