Понимание перед тем, как вы начинаете работать с Hadoop

Маленькая мразь · Опубликовано 08.12.2017 13:33:48

Что такое hadoop?
(1) Hadoop — это открытый фреймворк для написания и запуска распределённых приложений для обработки крупномасштабных данных, предназначенный для офлайн- и крупномасштабного анализа данных, и не подходит для онлайн-модели обработки транзакций с случайными чтениями и записью в несколько записей. Hadoop = HDFS (файловая система, технология хранения данных) + Mapreduce (обработка данных), источник данных Hadoop может быть в любой форме, обладает лучшей производительностью, чем реляционные базы данных при обработке полуструктурированных и неструктурированных данных, а также более гибким возможностями обработки, независимо от того, будет ли какая-либо форма данных в итоге преобразоваться в ключ/значение, ключ/значение — это базовая единица данных. Используйте функциональные выражения для замены SQL на Mapreduce, SQL — это запрос, а Mapreduce использует скрипты и код, тогда как для реляционных баз данных Hadoop, привыкший к SQL, имеет открытый инструментальный улей вместо него.
(2) Hadoop — это распределённое вычислительное решение.

Что может сделать Hadoop?
В 2009 году 30% непрограммистов на Facebook использовали HiveQL для анализа данных. Hive также используется для пользовательских фильтров в поиске Taobao; Pig также можно использовать для продвинутой обработки данных, включая Twitter и LinkedIn, чтобы находить знакомых вам людей, а также добиваться Amazon.com-подобных эффектов совместной фильтрации рекомендаций. Рекомендую также рекомендации продуктов Taobao! В Yahoo! 40% заданий Hadoop выполняются с помощью pig, включая идентификацию и фильтрацию спама, а также моделирование пользовательской подписи. (Новое обновление от 25 августа 2012 года, система рекомендаций Tmall — hive, попробуйте Mahout в небольших количествах!) ）
Последняя версия адреса для скачивания hadoop: http://hadoop.apache.org/releases.html

Сборка и установка Hadoop 2.x или более поздних верстий на Windows, ссылка: https://wiki.apache.org/hadoop/Hadoop2OnWindows

1. Введение

Hadoop версии 2.2 и выше включает нативную поддержку Windows. Официальная версия Apache Hadoop не включает бинарные файлы Windows (по состоянию на январь 2014 года). Однако создание пакета для Windows с исходного дня довольно просто.

Hadoop — это сложная система с множеством компонентов. Полезно немного ознакомиться перед тем, как пытаться собирать или устанавливать, или впервые на высоком уровне. Если вам нужна диагностика, нужно хорошо разбираться в Java.

Разработчики Hadoop использовали Windows Server 2008 и Windows Server 2008 R2 во время разработки и тестирования。 Windows Vista и Windows 7 также могут работать благодаря сходству Win32 API с соответствующим серверным SKU. Мы не тестировали его на Windows XP или более ранних версиях Windows, что маловероятно. Любые проблемы, зарегистрированные в Windows XP или более ранних версиях, будут считаться недействительными.

Не пытайтесь запускать установку в Cygwin. Cygwin не запрашивает и не поддерживает его.

Понимание перед тем, как вы начинаете работать с Hadoop

Связанные публикации

Просмотренные разделы