Čo je to hadoop? (1) Hadoop je open-source framework na písanie a spúšťanie distribuovaných aplikácií na spracovanie veľkorozmerných dát, navrhnutý pre offline a veľkoplošnú analýzu dát, a nie je vhodný pre model online spracovania transakcií založený na náhodných čítaniach a zápisoch do viacerých záznamov. Hadoop = HDFS (súborový systém, technológia ukladania dát) + Mapreduce (spracovanie dát), zdroj dát Hadoop môže byť v akejkoľvek forme, má lepší výkon ako relačné databázy pri spracovaní polostruktúrovaných a neštruktúrovaných dát a má flexibilnejšie spracovateľské schopnosti, bez ohľadu na to, či sa nejaká dátová forma nakoniec konvertuje na kľúč/hodnotu, kľúč/hodnota je základná dátová jednotka. Použite funkčné výrazy na nahradenie SQL Mapreduce, SQL je dotazovací príkaz a Mapreduce používa skripty a kód, zatiaľ čo pre relačné databázy má Hadoop, ktorý je zvyknutý na SQL, open source nástrojový hive. (2) Hadoop je riešenie pre distribuované výpočty.
Čo môže Hadoop urobiť? V roku 2009 používalo HiveQL na analýzu dát 30 % neprogramátorov na Facebooku. Hive sa tiež používa na vlastné filtre vo vyhľadávaní Taobao; Pig sa dá použiť aj na pokročilé spracovanie dát, vrátane Twitteru a LinkedInu na objavovanie ľudí, ktorých možno poznáte, a môže dosiahnuť podobné Amazon.com kolaboratívne filtrovanie odporúčaní. Odporúčam aj odporúčania produktov od Taobao! V Yahoo! 40 % Hadoop úloh sa spúšťa pomocou pig, vrátane identifikácie a filtrovania spamu, ako aj modelovania používateľských podpisov. (Nová aktualizácia 25. augusta 2012, odporúčací systém Tmall je hive, vyskúšajte mahout v malých množstvách!) )
Najnovšia verzia adresy na stiahnutie hadoop: http://hadoop.apache.org/releases.html
Postavte a nainštalujte Hadoop 2.x alebo novší na Windows, odkaz: https://wiki.apache.org/hadoop/Hadoop2OnWindows
1. Úvod
Hadoop verzia 2.2 a vyššie obsahuje natívnu podporu pre Windows. Oficiálna verzia Apache Hadoop neobsahuje Windows binárky (k januáru 2014). Avšak zostaviť balík pre Windows zo zdrojového kódu je pomerne jednoduché.
Hadoop je zložitý systém s mnohými komponentmi. Je užitočné sa s tým najskôr oboznámiť, než sa pokúsite stavať alebo inštalovať, alebo prvýkrát na vysokej úrovni. Ak potrebujete riešiť problémy, musíte byť oboznámení s Javou.
Vývojári Hadoopu používali počas vývoja a testovania Windows Server 2008 a Windows Server 2008 R2。 Windows Vista a Windows 7 môžu tiež fungovať kvôli podobnosti Win32 API s príslušným serverovým SKU. Netestovali sme to na Windows XP ani na žiadnej staršej verzii Windows, čo je nepravdepodobné. Akékoľvek problémy nahlásené vo Windows XP alebo starších verziách budú považované za neplatné.
Nesnažte sa spustiť inštaláciu v Cygwine. Cygwin ho ani nežiada, ani nepodporuje.
|