Não foi fácil fazer esse dicionário, primeiro levei um dia para empacotar e enviar todos os tipos de dicionários que eu tinha armazenados no servidor; e embalou e enviou os dicionários produzidos por internautas neste fórum para outra noite; O servidor de processamento de dicionário é emprestado de um amigo, e o novo servidor web do amigo precisa ser uma máquina de copiar, então menti dizendo que fiz um dicionário para repetir e detectar a CPU, e meu amigo me emprestou por três dias; Configuração: Quatro discos rígidos Xeon E3 3.10GHZ /32G DDR3 RAM / SSD 250G; Reinstalei o Debian 6.0 64-bit; Sem contar uploads e downloads, este dicionário percorre: 1. Merge, um total de 101,6G de arquivos grandes (mas que depois se mostrou péssimo de repetição); 2. Remover conteúdo duplicado, este é o primeiro trabalho demorado, levou mais de 30 horas para processar o arquivo 101.6G, dos quais o vazamento anterior encontrei 21 estações que totalizavam cerca de 100G quando o conteúdo estava incerto, e a senha fraca era superior a 1G; 3. Vá para caracteres que não sejam chinês e codificação ASCII, aqui fiz alguns desvios, mas depois de testar várias vezes na máquina antes de ousar escrever em lote, desta vez é o segundo trabalho demorado. Para acelerar essa etapa, dividi o dicionário processado na segunda etapa em dez partes e executei o processamento em lote ao mesmo tempo, o que levou cerca de 25 horas; 4. Após mesclar e processar o dicionário, leva 20 horas para ser organizado. 5. Recuperar, empacotar e publicar, e após processar mais de 100G dicionários, restam apenas mais de 7G, o que mostra como amigos que fizeram dicionários antes eram descuidados e descuidados. Depois de planejar, escrevi um script shell para rodar sem vigilância, e de vez em quando subia para verificar a carga do servidor e depois o progresso do processamento do shell echo. Calculando, além de carregar, baixar, embalar e publicar, passei um total de quatro dias fazendo este dicionário; Originalmente, o servidor só me pegou emprestado por três dias, mas eu não esperava ter julgado mal o tamanho e a dificuldade do dicionário; Felizmente, foi lançado hoje. Afinal, era uma preocupação. Simplesmente executei a fusão para repetir em chinês, e não fiz triagem manual, então os internautas que reclamavam da qualidade do dicionário ficaram muito tristes, afinal, eu não podia passar manualmente pelo dicionário de mais de 100G; Só posso garantir que esta é uma coleção de todos os dicionários populares e que não há duplicatas. Processamento: awk+sed+vim Tamanho do processamento: cerca de 6,55G Endereço do download: (grátis) 6,55G pacote comprimido total: link:https://pan.baidu.com/s/12LUdmUjPAA9mL_rSkdtPtQCódigo de extração:Turistas, se quiserem ver o conteúdo oculto deste post, por favor Resposta Descompacte a senha:Turistas, se quiserem ver o conteúdo oculto deste post, por favor Resposta Se alguns internautas disserem que o dicionário é grande demais, você pode usar este método: Use o método deste tutorialhttp://forum.anywlan.com/thread-151122-1-1.html
Run split -C 1000m nome do dicionário O nome do dicionário de saída não será dividido em linhas para dividir o dicionário em vários arquivos pequenos de 1G
|