Comprendre avant de commencer avec Hadoop

Petite ordure · Publié sur 08/12/2017 13:33:48

Qu’est-ce que le Hadoop ?
(1) Hadoop est un cadre open source permettant d’écrire et d’exécuter des applications distribuées pour traiter des données à grande échelle, conçu pour l’analyse de données hors ligne et à grande échelle, et il n’est pas adapté au modèle de traitement transactionnel en ligne basé sur des lectures et écritures aléatoires sur plusieurs enregistrements. Hadoop = HDFS (système de fichiers, technologie de stockage de données) + Mapreduce (traitement des données), la source de données de Hadoop peut être sous n’importe quelle forme, elle offre de meilleures performances que les bases de données relationnelles pour traiter des données semi-structurées et non structurées, et offre des capacités de traitement plus flexibles, que la donnée soit finalement convertie en clé/valeur, la clé ou valeur étant l’unité de base des données. Utilisez des expressions fonctionnelles pour remplacer SQL par Mapreduce, SQL est une requête, et Mapreduce utilise des scripts et du code, tandis que pour les bases de données relationnelles, Hadoop, qui est habitué à SQL, dispose d’une ruche d’outils open source.
(2) Hadoop est une solution de calcul distribué.

Que peut faire Hadoop ?
En 2009, 30 % des non-programmeurs sur Facebook utilisaient HiveQL pour l’analyse de données. Hive est également utilisé pour des filtres personnalisés dans la recherche Taobao ; Pig peut également être utilisé pour un traitement avancé de données, notamment Twitter et LinkedIn, pour découvrir des personnes que vous pourriez connaître, et peut obtenir des effets de filtrage collaboratif similaires à Amazon.com. Les recommandations de produits de Taobao sont également recommandées ! Dans Yahoo ! Les 40 % des jobs Hadoop sont exécutés avec pig, y compris l’identification et le filtrage du spam, ainsi que la modélisation des signatures utilisateur. (Nouvelle mise à jour du 25 août 2012, le système de recommandations de Tmall est Hive, essayez Mahout en petites quantités !) ）
La dernière version de téléchargement de Hadoop : http://hadoop.apache.org/releases.html

Compilar et installer Hadoop 2.x ou plus récent sous Windows, lien : https://wiki.apache.org/hadoop/Hadoop2OnWindows

1. Introduction

Hadoop version 2.2 et ultérieures incluent un support natif pour Windows. La version officielle d’Apache Hadoop n’inclut pas les binaires Windows (en date de janvier 2014). Cependant, créer un paquet Windows à partir du code source est assez simple.

Hadoop est un système complexe avec de nombreux composants. Il est utile de se familiariser un peu avant d’essayer de construire ou d’installer, ou à un niveau élevé pour la première fois. Si vous avez besoin de dépannage, il faut bien connaître Java.

Les développeurs Hadoop ont utilisé Windows Server 2008 et Windows Server 2008 R2 lors du développement et des tests。 Windows Vista et Windows 7 peuvent également fonctionner en raison de la similarité de l’API Win32 avec le SKU serveur respectif. Nous ne l’avons pas testé sur Windows XP ni sur aucune version antérieure de Windows, ce qui est peu probable. Tout problème signalé sous Windows XP ou versions antérieures sera considéré comme invalide.

N’essayez pas de faire tourner l’installation dans Cygwin. Cygwin ne le demande ni ne le soutient.

Comprendre avant de commencer avec Hadoop

Articles connexes

Sections vues