Mis on hadoop? (1) Hadoop on avatud lähtekoodiga raamistik hajutatud rakenduste kirjutamiseks ja käitamiseks suuremahuliste andmete töötlemiseks, mis on mõeldud nii võrguühenduseta kui ka suuremahulise andmeanalüüsi jaoks ning ei sobi juhuslike lugemiste ja kirjutamiste veebipõhiseks tehingute töötlemiseks mitmele kirjele. Hadoop = HDFS (failisüsteem, andmesalvestustehnoloogiaga seotud) + Mapreduce (andmetöötlus), Hadoopi andmeallikas võib olla mistahes kujul, sellel on parem jõudlus kui relatsioonilistel andmebaasidel poolstruktureeritud ja struktureerimata andmete töötlemisel ning paindlikumad töötlemisvõimalused, sõltumata sellest, kas mõni andmevorm lõpuks teisendatakse võtmeks/väärtuseks, on võti/väärtus põhiline andmeühik. Kasuta funktsionaalseid avaldisi, et asendada SQL Mapreduce'iga, SQL on päringulause ja Mapreduce kasutab skripte ja koodi, samas kui relatsiooniliste andmebaaside puhul on Hadoop, mis on harjunud SQL-iga, avatud lähtekoodiga tööriista hive. (2) Hadoop on hajutatud arvutuslahendus.
Mida saab hadoop teha? 2009. aastal kasutas 30% Facebooki mitteprogrammeerijatest HiveQL-i andmeanalüüsiks. Hive'i kasutatakse ka kohandatud filtrite jaoks Taobao otsingus; Pigi saab kasutada ka täiustatud andmetöötluseks, sealhulgas Twitteris ja LinkedInis, et leida inimesi, keda võid tunda, ning saavutada Amazon.com-laadseid koostööpõhiseid filtreerimissoovitusi. Taobao tootesoovitused on samuti soovitatavad! Yahoo!-s 40% Hadoop'i töödest tehakse sigadega, sealhulgas rämpsposti tuvastamine ja filtreerimine ning kasutaja allkirja modelleerimine. (Uus uuendus 25. augustil 2012, Tmalli soovitussüsteem on mesilaspesa, proovi mahouti väikestes kogustes!) )
Hadoop'i uusim allalaadimise aadress: http://hadoop.apache.org/releases.html
Ehita ja paigalda Hadoop 2.x või uuem Windowsis, link: https://wiki.apache.org/hadoop/Hadoop2OnWindows
1. Sissejuhatus
Hadoop versioon 2.2 ja uuemad sisaldavad Windowsi natiivset tuge. Ametlik Apache Hadoop versioon ei sisalda Windowsi binaare (seisuga jaanuar 2014). Kuid Windowsi paketi loomine lähtekoodist on üsna lihtne.
Hadoop on keeruline süsteem, millel on palju komponente. Enne ehitamist või paigaldamist või esimest korda kõrgel tasemel on kasulik tutvuda. Kui vajad tõrkeotsingut, pead olema Java-ga tuttav.
Hadoopi arendajad kasutasid arenduse ja testimise käigus Windows Server 2008 ja Windows Server 2008 R2。 Windows Vista ja Windows 7 võivad samuti töötada, kuna Win32 API on sarnane vastava serveri SKU-ga. Me pole seda testinud Windows XP-l ega ühelgi varasemal Windowsi versioonil, mis on ebatõenäoline. Kõik Windows XP või varasemates versioonides teatatud probleemid loetakse kehtetuks.
Ära proovi installi käivitada Cygwinis. Cygwin ei taotle ega toeta seda.
|