初识Hadoop

一、Hadoop概述

1、Hadoop名字是由Hadoop项目作者的孩子给一个棕黄色的大象样子的填充玩具的命名,Hadoop是Apache开源的分布式存储+分布式计算平台。Hadoop能搭建大型数据仓库、PB级数据的存储、处理、分析、统计等业务,如搜索引擎、日志分析、商业智能、数据挖掘

2、狭义Hadoop:是一个适合大数据分布式存储(HDFS)、分布式计算(MapReduce)和资源调度(YARN)的平台

3、广义Hadoop:指的是Hadoop生态系统,Hadoop生态系统是一个很庞大的概念,hadoop是其中最重要最基础的一个部分;生态系统中每一个子系统只解决某一个特定的问题域(甚至可能很窄),不搞统一型的全能系统,而是小而精的多个小系统

二、Hadoop核心组件

1、Hadoop核心组件之分布式文件系统HDFS

源自于Google的GFS论文,论文发表于2003年10月

HDFS是GFS的克隆版

HDFS特点:扩展性&容错性&海量数据存储

将文件切分成指定大小的数据块并以多副本的存储在多个机器上

数据切分、多副本、容错等操作对用户是透明的

初识Hadoop

2、Hadoop核心组件之资源调度系统YARN(Yet Another Resource Negotiator)

负责整个集群资源的管理和调度

特点:扩展性&容错性&多框架资源统一调度

初识Hadoop

3、Hadoop核心组件之分布式计算框架MapReduce

源自于Google的MapReduce论文,论文发表于2004年12月

MapReduce是Google MapReduce的克隆版

特点:扩展性&容错性&海量数据离线处理

初识Hadoop

三、Hadoop优势

1、Hadoop优势之高可靠性

数据存储:数据块多副本

数据计算:重新调度作业计算

2、Hadoop优势之高扩展性

存储/计算资源不够时,可以横向的线性扩展机器

一个集群中可以包含数以千计的节点

3、Hadoop优势之其他

存储在廉价机器上,降低成本

成熟的生态圈

四、Hadoop发展史

参考:https://www.infoq.cn/article/hadoop-ten-years-interpretation-and-development-forecast

五、Hadoop生态系统

Hadoop生态系统的特点

1、开源、社区活跃

2、囊括了大数据处理的方方面面

3、成熟的生态圈

初识Hadoop

六、Hadoop发行版的选择

1、Apache Hadoop

2、CDH:Cloudera Distributed Hadoop

3、HDP:Hortonworks Data Platform

CDH下载地址,拷贝以下地址到浏览器访问:archive.cloudera.com/cdh5/cdh/5/

相关推荐