Het was niet makkelijk om dit woordenboek te maken, eerst kostte het me een dag om allerlei woordenboeken die ik op de server had opgeslagen te verpakken en te uploaden; en de woordenboeken die door internetgebruikers in dit forum werden geproduceerd voor een andere avond verpakt en geüpload; De woordenboekverwerkingsserver is geleend van een vriend, en de nieuwe webserver van die vriend moet een kopieermachine zijn, dus loog ik dat ik een woordenboek had gemaakt om de CPU te herhalen en te detecteren, en mijn vriend leende het me graag drie dagen uit; Configuratie: Vier Xeon E3 3.10GHz / 32G DDR3 RAM / 250G SSD harde schijven; Ik heb Debian 6.0 64-bit opnieuw geïnstalleerd; Exclusief uploads en downloads gaat dit woordenboek door: 1. Samenvoegen, in totaal 101,6G grote bestanden (maar later bleek het slecht te zijn in herhaling); 2. Verwijder dubbele content, dit is het eerste tijdrovende werk, het duurde meer dan 30 uur om het 101.6G-bestand te verwerken, waarvan de vorige lekdeuren van 21 stations die ik vond in totaal ongeveer 100G opleverden toen de inhoud onzeker was en het zwakke wachtwoord meer dan 1G was; 3. Ga naar andere karakters dan Chinees en ASCII-codering; hier heb ik een paar omwegen genomen, maar na het meerdere keren op de machine te hebben getest voordat ik het in batch durfde te schrijven, is dit keer het tweede tijdrovende werk. Om deze stap te versnellen, verdeelde ik het in de tweede stap verwerkte woordenboek in tien delen en voerde ik tegelijkertijd batchverwerking uit, wat ongeveer 25 uur duurde; 4. Na het samenvoegen en verwerken van het woordenboek duurt het 20 uur om te sorteren. 5. Ophalen, verpakken en publiceren, en na het verwerken van meer dan 100G woordenboeken zijn er slechts meer dan 7G, wat laat zien hoe onzorgvuldig en onzorgvuldig vrienden waren die eerder woordenboeken maakten. Na het plannen schreef ik een shellscript om het onbeheerd te laten draaien, en ik ging af en toe naar boven om de serverbelasting te controleren en daarna de verwerkingsvoortgang van shell echo te controleren. Berekenen, uploaden, downloaden, verpakken en publiceren, heb ik in totaal vier dagen besteed aan het maken van dit woordenboek; Oorspronkelijk leende de server me maar drie dagen, maar ik had niet verwacht dat ik de omvang en moeilijkheidsgraad van het woordenboek verkeerd had ingeschat; Gelukkig is het vandaag uitgebracht. Het was tenslotte een kwestie van zorg. Ik voerde de samenvoeging gewoon uit om het in het Chinees te herhalen, en voerde geen handmatige screening uit, dus internetgebruikers die klaagden over de kwaliteit van het woordenboek waren erg bedroefd; ik kon tenslotte niet handmatig door het woordenboek van meer dan 100G gaan; Ik kan alleen garanderen dat dit een verzameling is van alle populaire woordenboeken en dat er geen duplicaten zijn. Verwerking: awk+sed+vim Verwerkingsgrootte: ongeveer 6,55G Downloadadres: (gratis) 6,55G totaal gecomprimeerd pakket: link:https://pan.baidu.com/s/12LUdmUjPAA9mL_rSkdtPtQExtractiecode:Toeristen, als jullie de verborgen inhoud van dit bericht willen zien, alsjeblieft Antwoord Pak het wachtwoord uit:Toeristen, als jullie de verborgen inhoud van dit bericht willen zien, alsjeblieft Antwoord Als sommige netizens zeggen dat het woordenboek te groot is, kun je deze methode gebruiken: Gebruik de methode in deze tutorialhttp://forum.anywlan.com/thread-151122-1-1.html
Voer split -C uit 1000m woordenboeknaam De uitvoerwoordenboeknaam wordt niet opgesplitst in rijen om het woordenboek op te splitsen in meerdere kleine bestanden van 1G
|