Forståelse før du går i gang med Hadoop

Lille skarn · Opslået på 08/12/2017 13.33.48

Hvad er hadoop?
(1) Hadoop er et open source-framework til at skrive og køre distribuerede applikationer til behandling af store data, designet til offline og storskala dataanalyse, og er ikke egnet til online transaktionsbehandlingsmodellen med tilfældige læsninger og skrivninger til flere poster. Hadoop = HDFS (filsystem, datalagringsteknologi relateret) + Mapreduce (databehandling), Hadoops datakilde kan være i enhver form, den har bedre ydeevne end relationelle databaser til behandling af semistrukturerede og ustrukturerede data, og har mere fleksible behandlingsmuligheder, uanset om en dataform til sidst vil blive konverteret til nøgle/værdi, nøgle/værdi er den grundlæggende dataenhed. Brug funktionelle udtryk til at erstatte SQL med Mapreduce, SQL er en forespørgselssætning, og Mapreduce bruger scripts og kode, mens Hadoop, som er vant til SQL, har en open source-værktøjsgruppe i stedet for relationelle databaser.
(2) Hadoop er en distribueret computerløsning.

Hvad kan hadoop gøre?
I 2009 brugte 30 % af ikke-programmører på Facebook HiveQL til dataanalyse. Hive bruges også til brugerdefinerede filtre i Taobao-søgning; Pig kan også bruges til avanceret databehandling, herunder Twitter og LinkedIn, for at finde folk, du måske kender, og kan opnå Amazon.com-lignende samarbejdsfiltrerende anbefalingseffekter. Taobaos produktanbefalinger anbefales også! I Yahoo! De 40% af Hadoop-opgaverne udføres med pig, inklusive spam-identifikation og filtrering samt brugersignaturmodellering. (Ny opdatering den 25. august 2012, Tmalls anbefalingssystem er hive, prøv mahout i små mængder!) ）
Den nyeste version af Hadoop-downloadadressen: http://hadoop.apache.org/releases.html

Byg og installer Hadoop 2.x eller senere på Windows, link: https://wiki.apache.org/hadoop/Hadoop2OnWindows

1. Introduktion

Hadoop version 2.2 og derover inkluderer native understøttelse af Windows. Den officielle Apache Hadoop-version inkluderer ikke Windows-binærfiler (pr. januar 2014). Dog er det ret enkelt at bygge en Windows-pakke fra kildekoden.

Hadoop er et komplekst system med mange komponenter. Det er nyttigt at gøre sig bekendt, før man forsøger at bygge eller installere, eller på et overordnet niveau for første gang. Hvis du har brug for fejlfinding, skal du være bekendt med Java.

Hadoop-udviklere brugte Windows Server 2008 og Windows Server 2008 R2 under udvikling og test。 Windows Vista og Windows 7 kan også fungere på grund af ligheden mellem Win32 API'en og den respektive server-SKU. Vi har ikke testet det på Windows XP eller nogen tidligere version af Windows, hvilket er usandsynligt. Eventuelle problemer rapporteret i Windows XP eller tidligere versioner vil blive betragtet som ugyldige.

Prøv ikke at køre installationen i Cygwin. Cygwin hverken anmoder om eller støtter det.

Forståelse før du går i gang med Hadoop

Relaterede indlæg

Afsnit set