Entender antes de empezar con Hadoop

Pequeña basura · Publicado en 8/12/2017 13:33:48

¿Qué es Hadoop?
(1) Hadoop es un framework de código abierto para escribir y ejecutar aplicaciones distribuidas para procesar datos a gran escala, diseñado para análisis de datos offline y a gran escala, y no es adecuado para el modelo de procesamiento de transacciones en línea con lecturas y escrituras aleatorias en varios registros. Hadoop = HDFS (sistema de archivos, tecnología de almacenamiento de datos relacionados) + Mapreduce (procesamiento de datos), la fuente de datos de Hadoop puede estar en cualquier forma, tiene mejor rendimiento que las bases de datos relacionales en el procesamiento de datos semiestructurados y no estructurados, y tiene capacidades de procesamiento más flexibles, independientemente de si alguna forma de dato se convertirá finalmente en clave/valor, clave/valor es la unidad básica de datos. Utiliza expresiones funcionales para reemplazar SQL por Mapreduce, SQL es una sentencia de consulta y Mapreduce usa scripts y código, mientras que para bases de datos relacionales, Hadoop, que está acostumbrado a SQL, tiene en su lugar una colmena de herramientas de código abierto.
(2) Hadoop es una solución de computación distribuida.

¿Qué puede hacer Hadoop?
En 2009, el 30% de los no programadores en Facebook usaban HiveQL para análisis de datos. Hive también se utiliza para filtros personalizados en la búsqueda de Taobao; Pig también puede usarse para procesamiento avanzado de datos, incluyendo Twitter y LinkedIn, para descubrir personas que puedas conocer, y puede lograr efectos de filtrado colaborativo similares a Amazon.com. ¡También se recomiendan las recomendaciones de productos de Taobao! En Yahoo! El 40% de los trabajos de Hadoop se ejecutan con pig, incluyendo identificación y filtrado de spam, así como modelado de firma de usuario. (Nueva actualización del 25 de agosto de 2012, el sistema de recomendaciones de Tmall es colmena, ¡prueba Mahout en pequeñas cantidades!) ）
La última versión de la dirección de descarga de Hadoop: http://hadoop.apache.org/releases.html

Compila e instala Hadoop 2.x o posterior en Windows, enlace: https://wiki.apache.org/hadoop/Hadoop2OnWindows

1. Introducción

Hadoop versión 2.2 y superiores incluyen soporte nativo para Windows. La versión oficial de Apache Hadoop no incluye binarios de Windows (a enero de 2014). Sin embargo, construir un paquete de Windows desde el código fuente es bastante sencillo.

Hadoop es un sistema complejo con muchos componentes. Es útil familiarizarse un poco antes de intentar construir o instalar, o a un nivel alto por primera vez. Si necesitas solucionar problemas, tienes que estar familiarizado con Java.

Los desarrolladores de Hadoop usaron Windows Server 2008 y Windows Server 2008 R2 durante el desarrollo y las pruebas。 Windows Vista y Windows 7 también pueden funcionar debido a la similitud de la API Win32 con el SKU de servidor respectivo. No lo hemos probado en Windows XP ni en ninguna versión anterior de Windows, lo cual es poco probable. Cualquier problema reportado en Windows XP o versiones anteriores será considerado inválido.

No intentes ejecutar la instalación en Cygwin. Cygwin ni lo solicita ni lo apoya.

Entender antes de empezar con Hadoop

Publicaciones relacionadas

Secciones vistas