Разбиране преди да започнете с Hadoop

Малък боклук · Публикувано в 8.12.2017 г. 13:33:48 ч.

Какво е hadoop?
(1) Hadoop е рамка с отворен код за писане и изпълнение на разпределени приложения за обработка на големи данни, предназначена за офлайн и мащабен анализ на данни и не е подходяща за онлайн модела за обработка на транзакции с произволни четения и записи в няколко записа. Hadoop = HDFS (файлова система, свързана с технологията за съхранение на данни) + Mapreduce (обработка на данни), източникът на данни на Hadoop може да бъде във всякаква форма, има по-добра производителност от релационни бази данни при обработка на полуструктурирани и неструктурирани данни и има по-гъвкави възможности за обработка, независимо дали някоя форма на данни в крайна сметка ще бъде конвертирана в ключ/стойност, ключ/стойност е основната единица за данни. Използвайте функционални изрази, за да замените SQL с Mapreduce, SQL е заявка, а Mapreduce използва скриптове и код, докато за релационни бази данни Hadoop, който е свикнал със SQL, има open source инструментен кошер.
(2) Hadoop е разпределено изчислително решение.

Какво може да направи hadoop?
През 2009 г. 30% от непрограмистите във Facebook използваха HiveQL за анализ на данни. Hive се използва и за персонализирани филтри в търсенето в Taobao; Pig може да се използва и за напреднала обработка на данни, включително Twitter и LinkedIn, за да откриете хора, които може да познавате, и да постигне Amazon.com-подобни ефекти на съвместно филтриране. Препоръчвам се и препоръките за продукти на Taobao! В Yahoo! 40% от Hadoop задачите се изпълняват с pig, включително идентификация и филтриране на спам, както и моделиране на потребителски подписи. (Нова актуализация на 25 август 2012 г., системата за препоръки на Tmall е hive, опитайте mahout в малки количества!) ）
Последната версия на адрес за изтегляне на hadoop: http://hadoop.apache.org/releases.html

Сглобете и инсталирайте Hadoop 2.x или по-нова версия в Windows, линк: https://wiki.apache.org/hadoop/Hadoop2OnWindows

1. Въведение

Hadoop версия 2.2 и по-нова включва нативна поддръжка за Windows. Официалната версия на Apache Hadoop не включва Windows бинарни файлове (към януари 2014 г.). Въпреки това, изграждането на Windows пакет от източника е сравнително просто.

Hadoop е сложна система с много компоненти. Полезно е да направите малко запознанства, преди да опитате да сглобите или инсталирате, или на високо ниво за първи път. Ако имаш нужда от отстраняване на проблеми, трябва да си запознат с Java.

Разработчиците на Hadoop използваха Windows Server 2008 и Windows Server 2008 R2 по време на разработката и тестовете。 Windows Vista и Windows 7 също могат да работят поради сходството на Win32 API със съответния сървърен SKU. Не сме го тествали на Windows XP или на някоя по-стара версия на Windows, което е малко вероятно. Всички проблеми, докладвани в Windows XP или по-ранни версии, ще се считат за невалидни.

Не се опитвайте да пуснете инсталацията в Cygwin. Cygwin нито го иска, нито подкрепя.

Разбиране преди да започнете с Hadoop

Свързани публикации

Разгледани секции