Forstå før du begynner med Hadoop

Lille skurk · Publisert på 08.12.2017 13:33:48

Hva er hadoop?
(1) Hadoop er et åpen kildekode-rammeverk for å skrive og kjøre distribuerte applikasjoner for å behandle storskala data, designet for offline og storskala dataanalyse, og egner seg ikke for den online transaksjonsbehandlingsmodellen med tilfeldige lesinger og skrivinger til flere poster. Hadoop = HDFS (filsystem, datalagringsteknologi relatert) + Mapreduce (databehandling), Hadoops datakilde kan være i hvilken som helst form, den har bedre ytelse enn relasjonsdatabaser i behandling av semistrukturerte og ustrukturerte data, og har mer fleksible behandlingsmuligheter, uavhengig av om noen dataform til slutt vil bli konvertert til nøkkel/verdi, nøkkel/verdi er den grunnleggende dataenheten. Bruk funksjonelle uttrykk for å erstatte SQL med Mapreduce, SQL er en spørringssetning, og Mapreduce bruker skript og kode, mens for relasjonsdatabaser har Hadoop, som er vant til SQL, i stedet en åpen kildekode-verktøyhive.
(2) Hadoop er en distribuert databehandlingsløsning.

Hva kan hadoop gjøre?
I 2009 brukte 30 % av ikke-programmerere på Facebook HiveQL til dataanalyse. Hive brukes også for tilpassede filtre i Taobao-søk; Pig kan også brukes til avansert databehandling, inkludert Twitter og LinkedIn, for å finne folk du kjenner, og kan oppnå Amazon.com-lignende samarbeidsfiltrerende anbefalingseffekter. Taobaos produktanbefalinger anbefales også! I Yahoo! De 40 % av Hadoop-jobbene kjøres med pig, inkludert spam-identifikasjon og filtrering, samt brukersignaturmodellering. (Ny oppdatering 25. august 2012, Tmalls anbefalingssystem er hive, prøv mahout i små mengder!) ）
Den nyeste versjonen av Hadoop-nedlastingsadresse: http://hadoop.apache.org/releases.html

Bygg og installer Hadoop 2.x eller nyere på Windows, lenke: https://wiki.apache.org/hadoop/Hadoop2OnWindows

1. Introduksjon

Hadoop versjon 2.2 og nyere inkluderer innebygd støtte for Windows. Den offisielle Apache Hadoop-versjonen inkluderer ikke Windows-binærfiler (per januar 2014). Å bygge en Windows-pakke fra kildekoden er imidlertid ganske enkelt.

Hadoop er et komplekst system med mange komponenter. Det er nyttig å gjøre litt erfaring før man prøver å bygge eller installere, eller på et overordnet nivå for første gang. Hvis du trenger feilsøking, må du være kjent med Java.

Hadoop-utviklere brukte Windows Server 2008 og Windows Server 2008 R2 under utvikling og testing。 Windows Vista og Windows 7 kan også fungere på grunn av likheten mellom Win32-API-et og den respektive server-SKU-en. Vi har ikke testet det på Windows XP eller noen tidligere versjon av Windows, noe som er usannsynlig. Eventuelle problemer rapportert i Windows XP eller tidligere versjoner vil bli ansett som ugyldige.

Ikke prøv å kjøre installasjonen i Cygwin. Cygwin verken ber om eller støtter det.

Forstå før du begynner med Hadoop

Relaterte innlegg

Seksjoner sett