Kas ir hadoop? (1) Hadoop ir atvērtā koda sistēma izplatītu lietojumprogrammu rakstīšanai un palaišanai, lai apstrādātu liela mēroga datus, kas paredzēta bezsaistes un liela mēroga datu analīzei, un nav piemērota tiešsaistes darījumu apstrādes modelim ar nejaušu lasīšanu un rakstīšanu vairākos ierakstos. Hadoop = HDFS (failu sistēma, datu glabāšanas tehnoloģija saistīta) + Mapreduce (datu apstrāde), Hadoop datu avots var būt jebkurā formā, tam ir labāka veiktspēja nekā relāciju datu bāzēm daļēji strukturētu un nestrukturētu datu apstrādē, un tam ir elastīgākas apstrādes iespējas, neatkarīgi no tā, vai jebkura datu forma galu galā tiks pārvērsta par atslēgu / vērtību, atslēga / vērtība ir pamata datu vienība. Izmantojiet funkcionālās izteiksmes, lai aizstātu SQL ar Mapreduce, SQL ir vaicājuma paziņojums, un Mapreduce izmanto skriptus un kodu, savukārt relāciju datu bāzēm Hadoop, kas ir pieradis pie SQL, tā vietā ir atvērtā koda rīku strops. (2) Hadoop ir izkliedēts skaitļošanas risinājums.
Ko var darīt hadoop? 2009. gadā 30% neprogrammētāju Facebook izmantoja HiveQL datu analīzei. Strops tiek izmantots arī pielāgotiem filtriem Taobao meklēšanā; Cūku var izmantot arī uzlabotai datu apstrādei, tostarp Twitter un LinkedIn, lai atklātu cilvēkus, kurus jūs varētu zināt, un var sasniegt Amazon.com līdzīgu sadarbības filtrēšanas ieteikumu efektu. Ieteicami arī Taobao produktu ieteikumi! Pakalpojumā Yahoo! 40% Hadoop darbu tiek izpildīti ar cūkām, ieskaitot surogātpasta identificēšanu un filtrēšanu, kā arī lietotāju parakstu modelēšanu. (Jauns atjauninājums 2012. gada 25. augustā, Tmall ieteikumu sistēma ir strops, izmēģiniet mahout nelielos daudzumos!) )
Jaunākā versija hadoop lejupielādes adrese: http://hadoop.apache.org/releases.html
Veidojiet un instalējiet Hadoop 2.x vai jaunāku versiju operētājsistēmā Windows, saite: https://wiki.apache.org/hadoop/Hadoop2OnWindows
1. Ievads
Hadoop versija 2.2 un jaunāka ietver vietējo atbalstu operētājsistēmai Windows. Oficiālajā Apache Hadoop versijā nav iekļauti Windows binārie faili (no 2014. gada janvāra). Tomēr Windows pakotnes izveide no avota ir diezgan vienkārša.
Hadoop ir sarežģīta sistēma ar daudziem komponentiem. Ir lietderīgi iepazīties pirms būvēšanas vai instalēšanas mēģinājuma vai pirmo reizi augstā līmenī. Ja jums ir nepieciešama problēmu novēršana, jums ir jāpārzina Java.
Hadoop izstrādātāji izstrādes un testēšanas laikā izmantoja Windows Server 2008 un Windows Server 2008 R2。 Windows Vista un Windows 7 var darboties arī tāpēc, ka Win32 API ir līdzīgs attiecīgajam servera SKU. Mēs to neesam pārbaudījuši operētājsistēmā Windows XP vai kādā citā vecākā Windows versijā, kas ir maz ticams. Visas problēmas, par kurām ziņots operētājsistēmā Windows XP vai vecākās versijās, tiks uzskatītas par nederīgām.
Nemēģiniet palaist instalāciju Cygwin. Cygwin to nepieprasa un neatbalsta.
|