Что такое hadoop? (1) Hadoop — это открытый фреймворк для написания и запуска распределённых приложений для обработки крупномасштабных данных, предназначенный для офлайн- и крупномасштабного анализа данных, и не подходит для онлайн-модели обработки транзакций с случайными чтениями и записью в несколько записей. Hadoop = HDFS (файловая система, технология хранения данных) + Mapreduce (обработка данных), источник данных Hadoop может быть в любой форме, обладает лучшей производительностью, чем реляционные базы данных при обработке полуструктурированных и неструктурированных данных, а также более гибким возможностями обработки, независимо от того, будет ли какая-либо форма данных в итоге преобразоваться в ключ/значение, ключ/значение — это базовая единица данных. Используйте функциональные выражения для замены SQL на Mapreduce, SQL — это запрос, а Mapreduce использует скрипты и код, тогда как для реляционных баз данных Hadoop, привыкший к SQL, имеет открытый инструментальный улей вместо него. (2) Hadoop — это распределённое вычислительное решение.
Что может сделать Hadoop? В 2009 году 30% непрограммистов на Facebook использовали HiveQL для анализа данных. Hive также используется для пользовательских фильтров в поиске Taobao; Pig также можно использовать для продвинутой обработки данных, включая Twitter и LinkedIn, чтобы находить знакомых вам людей, а также добиваться Amazon.com-подобных эффектов совместной фильтрации рекомендаций. Рекомендую также рекомендации продуктов Taobao! В Yahoo! 40% заданий Hadoop выполняются с помощью pig, включая идентификацию и фильтрацию спама, а также моделирование пользовательской подписи. (Новое обновление от 25 августа 2012 года, система рекомендаций Tmall — hive, попробуйте Mahout в небольших количествах!) )
Последняя версия адреса для скачивания hadoop: http://hadoop.apache.org/releases.html
Сборка и установка Hadoop 2.x или более поздних верстий на Windows, ссылка: https://wiki.apache.org/hadoop/Hadoop2OnWindows
1. Введение
Hadoop версии 2.2 и выше включает нативную поддержку Windows. Официальная версия Apache Hadoop не включает бинарные файлы Windows (по состоянию на январь 2014 года). Однако создание пакета для Windows с исходного дня довольно просто.
Hadoop — это сложная система с множеством компонентов. Полезно немного ознакомиться перед тем, как пытаться собирать или устанавливать, или впервые на высоком уровне. Если вам нужна диагностика, нужно хорошо разбираться в Java.
Разработчики Hadoop использовали Windows Server 2008 и Windows Server 2008 R2 во время разработки и тестирования。 Windows Vista и Windows 7 также могут работать благодаря сходству Win32 API с соответствующим серверным SKU. Мы не тестировали его на Windows XP или более ранних версиях Windows, что маловероятно. Любые проблемы, зарегистрированные в Windows XP или более ранних версиях, будут считаться недействительными.
Не пытайтесь запускать установку в Cygwin. Cygwin не запрашивает и не поддерживает его.
|