Що таке hadoop? (1) Hadoop — це фреймворк з відкритим кодом для написання та запуску розподілених додатків для обробки великомасштабних даних, призначений для офлайн- та масштабного аналізу даних, і не підходить для моделі обробки онлайн-транзакцій із випадковими читаннями та записом у кілька записів. Hadoop = HDFS (файлова система, технологія зберігання даних) + Mapreduce (обробка даних), джерело даних Hadoop може бути в будь-якій формі, має кращу продуктивність, ніж реляційні бази даних, у обробці напівструктурованих і неструктурованих даних, і має більш гнучкі можливості обробки, незалежно від того, чи буде якась форма даних згодом конвертована у ключ/значення, ключ/значення є базовою одиницею даних. Використовуйте функціональні вирази для заміни SQL на Mapreduce, SQL — це запит, а Mapreduce використовує скрипти та код, тоді як для реляційних баз даних Hadoop, який звик до SQL, має відкритий вулик інструментів. (2) Hadoop — це розподілене обчислювальне рішення.
Що може зробити hadoop? У 2009 році 30% непрограмістів у Facebook використовували HiveQL для аналізу даних. Hive також використовується для кастомних фільтрів у пошуку Taobao; Pig також можна використовувати для складної обробки даних, зокрема Twitter і LinkedIn, щоб знаходити знайомих людей, а також досягати ефектів колаборативної фільтрації, подібних до Amazon.com. Також рекомендую рекомендації продуктів Taobao! У Yahoo! 40% завдань Hadoop виконуються за допомогою pig, включно з ідентифікацією та фільтрацією спаму, а також моделюванням підписів користувача. (Нове оновлення від 25 серпня 2012 року, система рекомендацій Tmall — hive, спробуйте Mahout у невеликих кількостях!) )
Остання версія адреси для завантаження hadoop: http://hadoop.apache.org/releases.html
Збірка та встановлення Hadoop 2.x або новішої версії на Windows, посилання: https://wiki.apache.org/hadoop/Hadoop2OnWindows
1. Вступ
Hadoop версії 2.2 і вище містить нативну підтримку Windows. Офіційна версія Apache Hadoop не містить бінарних файлів Windows (станом на січень 2014 року). Однак створити пакет для Windows з джерела досить просто.
Hadoop — це складна система з багатьма компонентами. Корисно трохи ознайомитися перед тим, як намагатися збирати чи встановлювати, або вперше на високому рівні. Якщо вам потрібна діагностика, потрібно добре знати Java.
Розробники Hadoop використовували Windows Server 2008 та Windows Server 2008 R2 під час розробки та тестування。 Windows Vista та Windows 7 також можуть працювати через схожість API Win32 з відповідним серверним SKU. Ми не тестували це на Windows XP чи будь-якій попередній версії Windows, що малоймовірно. Будь-які проблеми, зафіксовані у Windows XP або раніших версіях, вважатимуться недійсними.
Не намагайтеся запускати інсталяцію в Cygwin. Cygwin не просить і не підтримує його.
|