Verstehen, bevor du mit Hadoop anfängst.

Kleiner Abschaum · Veröffentlicht am 08.12.2017 13:33:48

Was ist Hadoop?
(1) Hadoop ist ein Open-Source-Framework zum Schreiben und Ausführen verteilter Anwendungen zur Verarbeitung groß angelegter Daten, konzipiert für Offline- und großflächige Datenanalyse, und eignet sich nicht für das Online-Transaktionsverarbeitungsmodell mit zufälligen Lesungen und Schreiben mehrerer Datensätze. Hadoop = HDFS (Dateisystem-, Datenspeichertechnologie-bezogen) + Mapreduce (Datenverarbeitung), die Datenquelle von Hadoop kann in jeder Form vorliegen, bietet eine bessere Leistung als relationale Datenbanken bei der Verarbeitung semistrukturierter und unstrukturierter Daten und bietet flexiblere Verarbeitungsfähigkeiten, unabhängig davon, ob irgendeine Datenform letztlich in Schlüssel/Wert umgewandelt wird, Schlüssel/Wert ist die grundlegende Dateneinheit. Verwenden Sie funktionale Ausdrücke, um SQL durch Mapreduce zu ersetzen, SQL ist eine Abfrageanweisung, und Mapreduce verwendet Skripte und Code, während Hadoop, das an SQL gewöhnt ist, für relationale Datenbanken stattdessen ein Open-Source-Tool-Hive hat.
(2) Hadoop ist eine verteilte Rechenlösung.

Was kann Hadoop tun?
Im Jahr 2009 nutzten 30 % der Nicht-Programmierer auf Facebook HiveQL für die Datenanalyse. Hive wird auch für benutzerdefinierte Filter in der Taobao-Suche verwendet; Pig kann auch für fortgeschrittene Datenverarbeitung verwendet werden, einschließlich Twitter und LinkedIn, um Bekannte zu entdecken und kann Amazon.com ähnliche kollaborative Filterempfehlungseffekte erzielen. Auch Taobaos Produktempfehlungen werden empfohlen! In Yahoo! Die 40 % der Hadoop-Jobs werden mit Pig ausgeführt, einschließlich Spam-Identifikation und -Filterung sowie Benutzersignaturmodellierung. (Neues Update vom 25. August 2012, Tmalls Empfehlungssystem ist Hive, probier Mahout in kleinen Mengen!) ）
Die neueste Version der Hadoop-Downloadadresse: http://hadoop.apache.org/releases.html

Baue und installiere Hadoop 2.x oder später unter Windows, Link: https://wiki.apache.org/hadoop/Hadoop2OnWindows

1. Einleitung

Hadoop Version 2.2 und höher enthält native Unterstützung für Windows. Die offizielle Apache Hadoop-Version enthält keine Windows-Binärdateien (Stand Januar 2014). Ein Windows-Paket aus dem Quellcode zu erstellen ist jedoch ziemlich einfach.

Hadoop ist ein komplexes System mit vielen Komponenten. Es ist hilfreich, sich vor dem Bauen oder Installieren oder auf einem höheren Niveau zum ersten Mal etwas vertraut zu machen. Wenn du Fehlerbehebung brauchst, musst du mit Java vertraut sein.

Hadoop-Entwickler nutzten Windows Server 2008 und Windows Server 2008 R2 während der Entwicklung und Tests。 Auch Windows Vista und Windows 7 können aufgrund der Ähnlichkeit der Win32-API mit der jeweiligen Server-SKU funktionieren. Wir haben es nicht unter Windows XP oder einer früheren Windows-Version getestet, was unwahrscheinlich ist. Alle in Windows XP oder früheren Versionen gemeldeten Probleme gelten als ungültig.

Versuchen Sie nicht, die Installation in Cygwin auszuführen. Cygwin fordert es weder noch unterstützt es.

Verstehen, bevor du mit Hadoop anfängst.

Verwandte Beiträge

Betrachtete Abschnitte