Memahami sebelum Anda memulai dengan Hadoop

Sampah kecil · Diposting pada 08/12/2017 13.33.48

Apa itu hadoop?
(1) Hadoop adalah kerangka kerja sumber terbuka untuk menulis dan menjalankan aplikasi terdistribusi untuk memproses data skala besar, dirancang untuk analisis data offline dan skala besar, dan tidak cocok untuk model pemrosesan transaksi online dari pembacaan dan penulisan acak ke beberapa catatan. Hadoop = HDFS (sistem file, teknologi penyimpanan data terkait) + Mapreduce (pemrosesan data), sumber data Hadoop dapat dalam bentuk apa pun, memiliki kinerja yang lebih baik daripada database relasional dalam memproses data semi-terstruktur dan tidak terstruktur, dan memiliki kemampuan pemrosesan yang lebih fleksibel, terlepas dari apakah bentuk data apa pun pada akhirnya akan diubah menjadi kunci/nilai, kunci/nilai adalah unit data dasar. Gunakan ekspresi fungsional untuk mengganti SQL dengan Mapreduce, SQL adalah pernyataan kueri, dan Mapreduce menggunakan skrip dan kode, sedangkan untuk database relasional, Hadoop, yang terbiasa dengan SQL, memiliki sarang alat sumber terbuka sebagai gantinya.
(2) Hadoop adalah solusi komputasi terdistribusi.

Apa yang bisa dilakukan hadoop?
Pada tahun 2009, 30% non-programmer di Facebook menggunakan HiveQL untuk analisis data. Hive juga digunakan untuk filter khusus dalam pencarian Taobao; Pig juga dapat digunakan untuk pemrosesan data tingkat lanjut, termasuk Twitter dan LinkedIn untuk menemukan orang yang mungkin Anda kenal, dan dapat mencapai efek rekomendasi pemfilteran kolaboratif seperti Amazon.com. Rekomendasi produk Taobao juga direkomendasikan! Di Yahoo! 40% pekerjaan Hadoop dijalankan dengan babi, termasuk identifikasi dan pemfilteran spam, serta pemodelan tanda tangan pengguna. (Pembaruan baru pada 25 Agustus 2012, sistem rekomendasi Tmall adalah sarang, coba mahout dalam jumlah kecil!) ）
Alamat unduhan hadoop versi terbaru: http://hadoop.apache.org/releases.html

Bangun dan instal Hadoop 2.x atau lebih baru di Windows, tautkan: https://wiki.apache.org/hadoop/Hadoop2OnWindows

1. Pendahuluan

Hadoop versi 2.2 dan yang lebih baru menyertakan dukungan asli untuk Windows. Versi resmi Apache Hadoop tidak menyertakan biner Windows (per Januari 2014). Namun, membangun paket Windows dari sumbernya cukup sederhana.

Hadoop adalah sistem kompleks dengan banyak komponen. Akan sangat membantu untuk melakukan pengenalan sebelum mencoba membangun atau menginstal, atau pada tingkat tinggi untuk pertama kalinya. Jika Anda membutuhkan pemecahan masalah, Anda harus terbiasa dengan Java.

Pengembang Hadoop menggunakan Windows Server 2008 dan Windows Server 2008 R2 selama pengembangan dan pengujian。 Windows Vista dan Windows 7 juga dapat berfungsi karena kesamaan API Win32 dengan SKU server masing-masing. Kami belum mengujinya di Windows XP atau versi Windows sebelumnya, yang tidak mungkin. Setiap masalah yang dilaporkan di Windows XP atau versi sebelumnya akan dianggap tidak valid.

Jangan mencoba menjalankan instalasi di Cygwin. Cygwin tidak meminta atau mendukungnya.

Memahami sebelum Anda memulai dengan Hadoop

Pos terkait

Bagian yang dilihat