Vad är hadoop? (1) Hadoop är ett öppet källkodsramverk för att skriva och köra distribuerade applikationer för att bearbeta storskalig data, designat för offline- och storskalig dataanalys, och är inte lämpligt för online-transaktionsbehandlingsmodellen med slumpmässiga läsningar och skrivningar till flera poster. Hadoop = HDFS (filsystem, datalagringsteknik relaterad) + Mapreduce (databehandling), Hadoops datakälla kan vara i vilken form som helst, den har bättre prestanda än relationsdatabaser vid bearbetning av semistrukturerad och ostrukturerad data, och har mer flexibla bearbetningsmöjligheter, oavsett om någon dataform så småningom kommer att omvandlas till nyckel/värde, nyckel/värde är den grundläggande dataenheten. Använd funktionella uttryck för att ersätta SQL med Mapreduce, SQL är en frågesats och Mapreduce använder skript och kod, medan Hadoop, som är van vid SQL, har en öppen källkodsverktygsgrupp för relationsdatabaser istället. (2) Hadoop är en distribuerad datorlösning.
Vad kan hadoop göra? År 2009 använde 30 % av icke-programmerare på Facebook HiveQL för dataanalys. Hive används också för anpassade filter i Taobao-sökning; Pig kan också användas för avancerad databehandling, inklusive Twitter och LinkedIn, för att hitta personer du kanske känner, och kan uppnå Amazon.com-liknande samarbetsinriktade filtreringsrekommendationer. Taobaos produktrekommendationer rekommenderas också! I Yahoo! De 40 % av Hadoop-jobben körs med pig, inklusive spamidentifiering och filtrering samt användarsignaturmodellering. (Ny uppdatering den 25 augusti 2012, Tmalls rekommendationssystem är bikupa, prova mahout i små mängder!) )
Den senaste versionen av Hadoop-nedladdningsadressen: http://hadoop.apache.org/releases.html
Bygg och installera Hadoop 2.x eller senare på Windows, länk: https://wiki.apache.org/hadoop/Hadoop2OnWindows
1. Introduktion
Hadoop version 2.2 och senare inkluderar inbyggt stöd för Windows. Den officiella Apache Hadoop-versionen inkluderar inte Windows-binärfiler (från och med januari 2014). Att bygga ett Windows-paket från källkoden är dock ganska enkelt.
Hadoop är ett komplext system med många komponenter. Det är hjälpsamt att göra en viss bekantskap innan man försöker bygga eller installera, eller på en övergripande nivå för första gången. Om du behöver felsöka behöver du vara bekant med Java.
Hadoop-utvecklare använde Windows Server 2008 och Windows Server 2008 R2 under utveckling och testning。 Windows Vista och Windows 7 kan också fungera tack vare likheten mellan Win32 API och respektive server-SKU. Vi har inte testat det på Windows XP eller någon tidigare version av Windows, vilket är osannolikt. Alla problem som rapporteras i Windows XP eller tidigare versioner kommer att anses ogiltiga.
Försök inte köra installationen i Cygwin. Cygwin varken begär eller stödjer det.
|