Begrijp het voordat je begint met Hadoop

Klein tuig · Geplaatst op 08-12-2017 13:33:48

Wat is hadoop?
(1) Hadoop is een open-source framework voor het schrijven en uitvoeren van gedistribueerde applicaties om grootschalige data te verwerken, ontworpen voor offline en grootschalige data-analyse, en is niet geschikt voor het online transactieverwerkingsmodel van willekeurige lees- en schrijfopdrachten naar meerdere records. Hadoop = HDFS (gerelateerd aan bestandssysteem, datastoragetechnologie) + Mapreduce (gegevensverwerking), de databron van Hadoop kan in elke vorm zijn, het heeft betere prestaties dan relationele databases bij het verwerken van semi-gestructureerde en ongestructureerde data, en heeft flexibelere verwerkingsmogelijkheden, ongeacht of een datavorm uiteindelijk wordt omgezet in sleutel/waarde, sleutel/waarde is de basisdata-eenheid. Gebruik functionele expressies om SQL te vervangen door Mapreduce, SQL is een query-instructie, en Mapreduce gebruikt scripts en code, terwijl voor relationele databases Hadoop, dat gewend is aan SQL, in plaats daarvan een open source tool-hive heeft.
(2) Hadoop is een gedistribueerde computingoplossing.

Wat kan hadoop doen?
In 2009 gebruikte 30% van de niet-programmeurs op Facebook HiveQL voor data-analyse. Hive wordt ook gebruikt voor aangepaste filters in Taobao zoekopdracht; Pig kan ook worden gebruikt voor geavanceerde gegevensverwerking, waaronder Twitter en LinkedIn om mensen te vinden die je misschien kent, en kan Amazon.com-achtige collaboratieve filteraanbevelingseffecten bereiken. Taobao's productaanbevelingen worden ook aanbevolen! In Yahoo! De 40% van de Hadoop-taken wordt uitgevoerd met pig, inclusief spamidentificatie en -filtering, evenals gebruikershandtekeningmodellering. (Nieuwe update op 25 augustus 2012, het aanbevelingssysteem van Tmall is hive, probeer mahout in kleine hoeveelheden!) ）
De nieuwste versie van het Hadoop-downloadadres: http://hadoop.apache.org/releases.html

Bouw en installeer Hadoop 2.x of later op Windows, link: https://wiki.apache.org/hadoop/Hadoop2OnWindows

1. Inleiding

Hadoop versie 2.2 en hoger bevat native ondersteuning voor Windows. De officiële Apache Hadoop-versie bevat geen Windows-binairen (stand januari 2014). Het bouwen van een Windows-pakket vanaf de bron is echter vrij eenvoudig.

Hadoop is een complex systeem met veel componenten. Het is handig om wat vertrouwd te raken voordat je probeert te bouwen of te installeren, of op een hoog niveau voor het eerst. Als je problemen nodig hebt, moet je bekend zijn met Java.

Hadoop-ontwikkelaars gebruikten Windows Server 2008 en Windows Server 2008 R2 tijdens ontwikkeling en testen。 Windows Vista en Windows 7 kunnen ook werken vanwege de gelijkenis van de Win32 API met de respectievelijke server-SKU. We hebben het niet getest op Windows XP of een eerdere versie van Windows, wat onwaarschijnlijk is. Eventuele problemen die in Windows XP of eerdere versies worden gemeld, worden als ongeldig beschouwd.

Probeer de installatie niet in Cygwin uit te voeren. Cygwin vraagt er noch om en ondersteunt het niet.

Begrijp het voordat je begint met Hadoop

Gerelateerde berichten

Secties bekeken