Ce este Hadoop? (1) Hadoop este un cadru open-source pentru scrierea și rularea aplicațiilor distribuite pentru procesarea datelor la scară largă, conceput pentru analiza datelor offline și la scară largă, și nu este potrivit pentru modelul online de procesare a tranzacțiilor cu citiri și scrieri aleatorii pe mai multe înregistrări. Hadoop = HDFS (sistem de fișiere, tehnologie de stocare a datelor) + Mapreduce (procesarea datelor), sursa de date Hadoop poate fi în orice formă, are performanțe mai bune decât bazele de date relaționale în procesarea datelor semi-structurate și nestructurate și are capabilități de procesare mai flexibile, indiferent dacă orice formă de date va fi convertită în cele din urmă în cheie/valoare, cheia/valoarea fiind unitatea de bază a datelor. Folosește expresii funcționale pentru a înlocui SQL cu Mapreduce, SQL este o instrucțiune de interogare, iar Mapreduce folosește scripturi și cod, în timp ce pentru bazele de date relaționale, Hadoop, care este obișnuit cu SQL, are în schimb un hive de unelte open source. (2) Hadoop este o soluție de calcul distribuit.
Ce poate face Hadoop? În 2009, 30% dintre non-programatorii de pe Facebook foloseau HiveQL pentru analiza datelor. Hive este folosit și pentru filtre personalizate în căutarea Taobao; Pig poate fi folosit și pentru procesare avansată a datelor, inclusiv Twitter și LinkedIn, pentru a descoperi persoane pe care le-ai putea cunoaște, și poate obține efecte de filtrare colaborativă asemănătoare Amazon.com. Recomandările de produse ale Taobao sunt de asemenea recomandate! În Yahoo! 40% dintre joburile Hadoop sunt rulate cu pig, inclusiv identificarea și filtrarea spamului, precum și modelarea semnăturilor utilizatorului. (Actualizare nouă din 25 august 2012, sistemul de recomandări Tmall este un stup, încercați Mahout în cantități mici!) )
Cea mai recentă versiune de hadoop pentru descărcare: http://hadoop.apache.org/releases.html
Construiește și instalează Hadoop 2.x sau mai târziu pe Windows, link: https://wiki.apache.org/hadoop/Hadoop2OnWindows
1. Introducere
Hadoop versiunea 2.2 și versiunile ulterioare includ suport nativ pentru Windows. Versiunea oficială Apache Hadoop nu include binare Windows (începând cu ianuarie 2014). Totuși, construirea unui pachet Windows din sursă este destul de simplă.
Hadoop este un sistem complex cu multe componente. Este util să te familiarizezi puțin înainte să încerci să construiești sau să instalezi, sau la un nivel înalt pentru prima dată. Dacă ai nevoie de depanare, trebuie să fii familiarizat cu Java.
Dezvoltatorii Hadoop au folosit Windows Server 2008 și Windows Server 2008 R2 în timpul dezvoltării și testării。 Windows Vista și Windows 7 pot funcționa, de asemenea, datorită asemănării API-ului Win32 cu SKU-ul serverului respectiv. Nu l-am testat pe Windows XP sau pe vreo versiune anterioară de Windows, ceea ce este puțin probabil. Orice problemă raportată în Windows XP sau versiuni anterioare va fi considerată invalidă.
Nu încerca să rulezi instalația în Cygwin. Cygwin nu cere și nici nu o susține.
|