Zrozumienie przed rozpoczęciem pracy z Hadoop

Mały śmiecie · Opublikowano 08.12.2017 13:33:48

Czym jest hadoop?
(1) Hadoop to otwartoźródłowy framework do pisania i uruchamiania aplikacji rozproszonych do przetwarzania danych na dużą skalę, zaprojektowany do analizy offline i na dużą skalę, i nie nadaje się do modelu przetwarzania transakcji online, polegającego na losowych odczytach i zapisach do kilku rekordów. Hadoop = HDFS (system plików, technologia przechowywania danych) + Mapreduce (przetwarzanie danych), źródło danych Hadoop może mieć dowolną formę, ma lepszą wydajność niż bazy relacyjne w przetwarzaniu danych półstrukturalnych i niestrukturalnych oraz bardziej elastyczne możliwości przetwarzania, niezależnie od tego, czy dana forma danych zostanie ostatecznie przekształcona w klucz/wartość – klucz/wartość jest podstawową jednostką danych. Użyj wyrażeń funkcyjnych, aby zastąpić SQL Mapreduce, SQL to instrukcja zapytania, a Mapreduce używa skryptów i kodu, natomiast dla relacyjnych baz danych Hadoop, przyzwyczajony do SQL, ma open source narzędziowy hive.
(2) Hadoop to rozwiązanie do przetwarzania rozproszonego.

Co potrafi hadoop?
W 2009 roku 30% osób nieprogramujących na Facebooku korzystało z HiveQL do analizy danych. Hive jest również używany do niestandardowych filtrów w wyszukiwarce Taobao; Pig może być również wykorzystywany do zaawansowanego przetwarzania danych, w tym na Twitterze i LinkedIn, aby odkrywać osoby, które możesz znać, oraz osiągnąć efekty podobnych do Amazon.com filtrowania rekomendacji w trybie współtworzenia. Polecam też rekomendacje produktów Taobao! W Yahoo! 40% zadań Hadoop jest uruchamianych z użyciem pig, w tym identyfikacja i filtrowanie spamu, a także modelowanie sygnatur użytkownika. (Nowa aktualizacja z 25 sierpnia 2012, system rekomendacji Tmall to hive, spróbuj mahout w małych ilościach!) ）
Najnowsza wersja adresu do pobrania hadoop: http://hadoop.apache.org/releases.html

Zbuduj i zainstaluj Hadoop 2.x lub nowszy na Windows, link: https://wiki.apache.org/hadoop/Hadoop2OnWindows

1. Wprowadzenie

Hadoop w wersji 2.2 i wyższych zawiera natywne wsparcie dla Windows. Oficjalna wersja Apache Hadoop nie zawiera plików binarnych Windows (stan na styczeń 2014). Jednak zbudowanie pakietu Windows od źródła jest dość proste.

Hadoop to złożony system składający się z wielu komponentów. Warto się z tym zapoznać przed próbą budowy lub instalacji, albo na wysokim poziomie po raz pierwszy. Jeśli potrzebujesz rozwiązania problemów, musisz znać Javę.

Deweloperzy Hadoop korzystali z Windows Server 2008 i Windows Server 2008 R2 podczas rozwoju i testów。 Windows Vista i Windows 7 również mogą działać ze względu na podobieństwo API Win32 do odpowiedniego serwera. Nie testowaliśmy tego na Windows XP ani na wcześniejszych wersjach Windows, co jest mało prawdopodobne. Wszelkie problemy zgłaszane w Windows XP lub wcześniejszych wersjach będą uznawane za nieprawidłowe.

Nie próbuj uruchamiać instalacji w Cygwin. Cygwin ani tego nie prosi, ani nie wspiera.

Zrozumienie przed rozpoczęciem pracy z Hadoop

Powiązane wpisy

Oglądane sekcje