Capire prima di iniziare con Hadoop

Piccola feccia · Pubblicato su 08/12/2017 13:33:48

Cos'è Hadoop?
(1) Hadoop è un framework open-source per scrivere ed eseguire applicazioni distribuite per elaborare dati su larga scala, progettato per l'analisi offline e su larga scala, e non è adatto al modello di elaborazione online delle transazioni basate su letture e scritture casuali su più record. Hadoop = HDFS (file system, tecnologia di archiviazione dati) + Mapreduce (elaborazione dati), la sorgente dati di Hadoop può essere in qualsiasi forma, ha prestazioni migliori rispetto ai database relazionali nell'elaborazione di dati semi-strutturati e non strutturati, e offre capacità di elaborazione più flessibili, indipendentemente dal fatto che qualsiasi forma di dato venga poi convertita in chiave/valore, chiave/valore è l'unità base dei dati. Usa espressioni funzionali per sostituire SQL con Mapreduce, SQL è un'istruzione di query e Mapreduce usa script e codice, mentre per i database relazionali, Hadoop, abituato a SQL, ha invece un alveare di strumenti open source.
(2) Hadoop è una soluzione di calcolo distribuito.

Cosa può fare Hadoop?
Nel 2009, il 30% dei non programmatori su Facebook utilizzava HiveQL per l'analisi dei dati. Hive viene utilizzato anche per filtri personalizzati nella ricerca Taobao; Pig può anche essere utilizzato per elaborazioni avanzate dei dati, inclusi Twitter e LinkedIn, per scoprire persone che potresti conoscere, e può ottenere effetti di raccomandazione collaborativa simili a Amazon.com. Anche le raccomandazioni sui prodotti di Taobao sono consigliate! Su Yahoo! Il 40% dei job Hadoop viene eseguito con pig, inclusi l'identificazione e il filtraggio dello spam, oltre alla modellazione delle firme utente. (Nuovo aggiornamento del 25 agosto 2012, il sistema di raccomandazione di Tmall è alveare, prova Mahout in piccole quantità!) ）
L'ultima versione di Hadoop per il download: http://hadoop.apache.org/releases.html

Compila e installa Hadoop 2.x o successivamente su Windows, link: https://wiki.apache.org/hadoop/Hadoop2OnWindows

1. Introduzione

Hadoop versione 2.2 e successive include il supporto nativo per Windows. La versione ufficiale di Apache Hadoop non include i binari di Windows (a gennaio 2014). Tuttavia, costruire un pacchetto Windows dal codice sorgente è piuttosto semplice.

Hadoop è un sistema complesso con molte componenti. È utile familiarizzare un po' prima di provare a costruire o installare, o a un livello alto per la prima volta. Se hai bisogno di una risoluzione dei problemi, devi conoscere Java.

Gli sviluppatori Hadoop hanno utilizzato Windows Server 2008 e Windows Server 2008 R2 durante lo sviluppo e i test。 Anche Windows Vista e Windows 7 potrebbero funzionare grazie alla somiglianza dell'API Win32 con il rispettivo server SKU. Non l'abbiamo testato su Windows XP né su alcuna versione precedente di Windows, il che è improbabile. Qualsiasi problema segnalato in Windows XP o versioni precedenti sarà considerato invalido.

Non provare a far girare l'installazione in Cygwin. Il cygwin non lo richiede né lo sostiene.

Capire prima di iniziare con Hadoop

Post correlati

Sezioni visualizzate