Mitä on hadoop? (1) Hadoop on avoimen lähdekoodin kehys hajautettujen sovellusten kirjoittamiseen ja ajamiseen laajamittaisen datan käsittelyyn, suunniteltu sekä offline- että laajamittaiseen data-analyysiin, eikä sovellu satunnaisten lukujen ja kirjoitusten verkkopohjaiseen transaktionkäsittelymalliin useille tietueille. Hadoop = HDFS (tiedostojärjestelmä, tallennusteknologiaan liittyvä) + Mapreduce (tiedonkäsittely), Hadoopin tietolähde voi olla missä muodossa, sillä on parempi suorituskyky kuin relaatiotietokannat puolistrukturoidun ja jäsentämättömän datan käsittelyssä, ja siinä on joustavammat käsittelymahdollisuudet, riippumatta siitä, muunnetaanko jokin tietomuoto lopulta avaimeksi/arvoksi, avain/arvo on perustietoyksikkö. Käytetään funktionaalisia lausekkeita korvaamaan SQL Mapreducella, SQL on kyselylause, ja Mapreduce käyttää skriptejä ja koodia, kun taas relaatiotietokannoissa Hadoop, joka on tottunut SQL:ään, käyttää avoimen lähdekoodin työkalupesä. (2) Hadoop on hajautettu laskentaratkaisu.
Mitä hadoop voi tehdä? Vuonna 2009 30 % Facebookin ei-ohjelmoijista käytti HiveQL:ää datan analysointiin. Hiveä käytetään myös räätälöityihin suodattimiin Taobao-haussa; Sikaa voidaan käyttää myös edistyneeseen tietonkäsittelyyn, kuten Twitterissä ja LinkedInissä, löytääksesi ihmisiä, jotka saatat tuntea, ja se voi saavuttaa Amazon.com kaltaisia yhteistyöhön perustuvia suodatussuositusvaikutuksia. Myös Taobaon tuotesuositukset ovat suositeltavia! Yahoo!:ssa 40 % Hadoop-tehtävistä suoritetaan sian avulla, mukaan lukien roskapostin tunnistus ja suodatus sekä käyttäjäallekirjoituksen mallinnus. (Uusi päivitys 25. elokuuta 2012, Tmallin suositusjärjestelmä on hive, kokeile mahoutia pienissä määrissä!) )
Hadoopin uusin latausosoite: http://hadoop.apache.org/releases.html
Rakenna ja asenna Hadoop 2.x tai uudempi Windowsille, linkki: https://wiki.apache.org/hadoop/Hadoop2OnWindows
1. Johdanto
Hadoop-versio 2.2 ja uudemmat sisältävät natiivituen Windowsille. Virallinen Apache Hadoop -versio ei sisällä Windows-binäärejä (tammikuusta 2014 alkaen). Windows-paketin rakentaminen lähteestä on kuitenkin melko yksinkertaista.
Hadoop on monimutkainen järjestelmä, jossa on monia komponentteja. On hyödyllistä tutustua asiaan ennen rakentamista tai asennusta tai korkealla tasolla ensimmäistä kertaa. Jos tarvitset vianetsintää, sinun täytyy tuntea Java.
Hadoop-kehittäjät käyttivät Windows Server 2008:aa ja Windows Server 2008 R2:ta kehityksen ja testauksen aikana。 Windows Vista ja Windows 7 saattavat myös toimia, koska Win32 API on samankaltainen kyseisen palvelimen SKU:n kanssa. Emme ole testanneet sitä Windows XP:llä tai missään aiemmassa Windows-versiossa, mikä on epätodennäköistä. Kaikki Windows XP:ssä tai vanhemmissa versioissa raportoidut ongelmat katsotaan mitättömiksi.
Älä yritä suorittaa asennusta Cygwinissä. Cygwin ei pyydä eikä tue sitä.
|