Nie było łatwo stworzyć ten słownik, najpierw zajęło mi to dzień, żeby zapakować i przesłać różne słowniki, które miałem przechowywane na serwerze; oraz zapakował i opublikował słowniki stworzone przez internautów na tym forum na kolejną noc; Serwer przetwarzania słownika jest pożyczony od znajomego, a nowy serwer znajomego musi być maszyną do kopiowania, więc skłamałem, że zrobiłem słownik do powtarzania i wykrywania CPU, a mój przyjaciel chętnie pożyczył mi go na trzy dni; Konfiguracja: Cztery dyski Xeon E3 3.10GHZ / 32G DDR3 / SSD 250G; Przeinstalowałem Debiana 6.0 64-bit; Nie licząc przesyłania i pobierania, ten słownik przechodzi przez następująco: 1. Merge, łącznie 101,6G dużych plików (ale później okazały się bardzo trudne w powtarzalności); 2. Usuń zduplikowane treści, to pierwsza czasochłonna praca, przetworzenie pliku 101.6G zajęło ponad 30 godzin, z czego poprzednie 21 stacji przeciekowych dawało łącznie około 100G, gdy treść była niepewna, a słabe hasło przekraczało 1G; 3. Przejście do znaków innych niż chiński i kodowanie ASCII, tutaj zrobiłem kilka objazdów, ale po kilku testach na maszynie, zanim odważyłem się zapisać w partii, tym razem jest to druga czasochłonna praca. Aby przyspieszyć ten etap, podzieliłem słownik przetworzony w drugim etapie na dziesięć części i jednocześnie uruchamiałem przetwarzanie wsadowe, co zajęło około 25 godzin; 4. Po połączeniu i przetworzeniu słownika sortowanie zajmuje 20 godzin. 5. Pobieranie, pakowanie i publikowanie, a po przetworzeniu słowników w przekroczeniu 100G jest tylko więcej niż 7G, co pokazuje, jak nieostrożni i niedbali byli przyjaciele, którzy wcześniej tworzyli słowniki. Po zaplanowaniu napisałem skrypt shell, który uruchamiał go bez nadzoru, i od czasu do czasu sprawdzałem ładowanie serwera, a potem postęp przetwarzania shell echo. Obliczając, a także przesyłając, pobierając, pakując i publikując, spędziłem łącznie cztery dni na tworzeniu tego słownika; Początkowo serwer pożyczył mnie tylko na trzy dni, ale nie spodziewałem się, że źle oceniłem rozmiar i trudność słownika; Na szczęście został dziś wydany. W końcu to była sprawa do niepokoju. Po prostu wykonałem fuzję, by powtórzyć to po chińsku, nie przeprowadzając ręcznej weryfikacji, więc internauci, którzy narzekali na jakość słownika, byli bardzo zasmuceni – w końcu nie mogłem ręcznie przejrzeć słownika o wartości powyżej 100G; Mogę tylko zagwarantować, że to zbiór wszystkich popularnych słowników i nie ma duplikatów. Przetwarzanie: awk+sed+vim Rozmiar przetwarzania: około 6,55G Adres pobierania: (darmowy) 6,55G Ogólny skompresowany pakiet: link:https://pan.baidu.com/s/12LUdmUjPAA9mL_rSkdtPtQKod ekstrakcji:Turyści, jeśli chcecie zobaczyć ukrytą zawartość tego wpisu, proszę Odpowiedź Rozpakuj hasło:Turyści, jeśli chcecie zobaczyć ukrytą zawartość tego wpisu, proszę Odpowiedź Jeśli niektórzy internauci twierdzą, że słownik jest za duży, możesz użyć tej metody: Użyj metody z tego tutorialuhttp://forum.anywlan.com/thread-151122-1-1.html
Run split -C 1000m nazwa słownika Nazwa słownika wyjściowego nie będzie dzielona na wiersze, aby podzielić słownik na kilka małych plików 1G
|