Hadoop v3.1.2 伪分布式安装（Pseudo-Distributed Operation）

caifengguo

2019-05-28

关注关注

大数据处理框架Hadoop

Hadoop 生态系统已经变得非常成熟和完善，包括Zookeeper、HDFS、MapReduce、HBase、Hive、Pig等子项目，其中HDFS和MapReduce是Hadoop的两大核心组件。

Hadoop v3.1.2 伪分布式安装（Pseudo-Distributed Operation）

Hadoop伪分布式安装（Pseudo-Distributed Operation）

CentOS 7 单机安装最新版Hadoop v3.1.2以及配置和简单测试

介绍了单机模式的安装。接下来，本文演示如何在Linux环境下，进行伪分布式模式的安装，并运行Hadoop自带的WordCount实例检测是否运行正常。

Hadoop 支持如下三种模式的安装。

Hadoop v3.1.2 伪分布式安装（Pseudo-Distributed Operation）

其中，伪分布式安装是指在一台机器上模拟一个小的集群，但是集群中只有一个节点。此时每个 Hadoop 守护进程是一个独立的 Java 进程。

当Hadoop 应用于集群时，不论是伪分布式或者真正的分布式，都需要通过配置文件对各组件的协同工作进行设置。

Hadoop v3.1.2 伪分布式安装（Pseudo-Distributed Operation）

Hadoop 伪分布式的特点：

具备Hadoop所有的功能，在单机模拟Hadoop分布式环境。

把nameNode，dataNode 安装在同一个节点上，还需要装一个MapReduce的运行环境yarn。需要配置如下内容：

（1）HDFS：主节点：nameNode；数据节点：dataNode；

（2）yarn：是一个容器，用来运行MapReduce程序；类似jsp需要运行在tomcat容器一样。yarn也有两部分：

主节点：ReourceManager

从节点：NodeManager

修改配置文件

（1）etc/hadoop/core-site.xml - Hadoop core的配置项

<name>fs.defaultFS</name>

<value>hdfs://localhost:9000</value>

</property>

</configuration>

其中指定HDFS 的地址和端口号，端口号按照官方文档设置为9000即可。

Hadoop v3.1.2 伪分布式安装（Pseudo-Distributed Operation）

（2）etc/hadoop/hdfs-site.xml - Hadoop 守护进程的配置项

<name>dfs.replication</name>

</property>

</configuration>

因为这里采用伪分布式，集群中只有一个节点，因此副本数量replication 的值也只能设置为1。

Hadoop v3.1.2 伪分布式安装（Pseudo-Distributed Operation）

配置免密码的 ssh

现在，检查你是否可以 ssh 登录到本机而无需密码：

$ ssh localhost

Hadoop v3.1.2 伪分布式安装（Pseudo-Distributed Operation）

如果无法免密登录，请执行如下命令：

$ ssh-keygen -t rsa -P '' -f ~/.ssh/id_rsa

$ cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys

$ chmod 0600 ~/.ssh/authorized_keys

执行 Execution

执行后续命令以本地运行一个 MapReduce 作业。

（1）格式化文件系统：

$ bin/hdfs namenode -format

Hadoop v3.1.2 伪分布式安装（Pseudo-Distributed Operation）

（2）启动 NameNode 守护进程和 DataNode 守护进程：

$ sbin/start-dfs.sh

Hadoop 守护进程的日志输出目录是 $HADOOP_LOG_DIR，其默认值是 $HADOOP_HOME/logs。

如果输出如下错误信息：

ERROR: but there is no HDFS_NAMENODE_USER defined. Aborting operation.

Hadoop v3.1.2 伪分布式安装（Pseudo-Distributed Operation）

解决办法是在etc/hadoop/hadoop-env.sh 配置文件最后，添加如下信息：

# 添加如下环境变量

export HDFS_DATANODE_USER=root

export HDFS_NAMENODE_USER=root

export HDFS_SECONDARYNAMENODE_USER=root

export YARN_RESOURCEMANAGER_USER=root

export YARN_NODEMANAGER_USER=root

再次运行 sbin/start-dfs.sh，结果如下：

Hadoop v3.1.2 伪分布式安装（Pseudo-Distributed Operation）

（3）浏览 NameNode 的网页，地址默认是：

NameNode - http://localhost:9870/

注意：Hadoop3 HDFS web端口改为9870（Hadoop 3.1.0版本后，50070端口 -> 9870端口了）。

如下是访问HDFS 文件系统的web页面，其中IP 地址为名称节点的IP。

Hadoop v3.1.2 伪分布式安装（Pseudo-Distributed Operation）

通过该Web 界面，可以查看当前文件系统中各个节点的分布信息，浏览名称节点（namenode）上的存储、登录日志等等。

还可以通过Web 界面查看目录，如下图所示。

Hadoop v3.1.2 伪分布式安装（Pseudo-Distributed Operation）

（4）创建运行 MapReduce 作业必需的 HDFS 目录：

$ bin/hdfs dfs -mkdir /user

$ bin/hdfs dfs -mkdir /user/<username>

Hadoop v3.1.2 伪分布式安装（Pseudo-Distributed Operation）

（5）复制输入文件到分布式文件系统中：

$ bin/hdfs dfs -mkdir input

$ bin/hdfs dfs -put etc/hadoop/*.xml input

Hadoop v3.1.2 伪分布式安装（Pseudo-Distributed Operation）

如下是创建好的HFDS 目录，可以通过如下命令进行查询。

bin/hdfs dfs -ls

bin/hdfs dfs -ls /

Hadoop v3.1.2 伪分布式安装（Pseudo-Distributed Operation）

（6）运行提供的示例程序：

$ bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-3.1.2.jar grep input output 'dfs[a-z.]+'

Hadoop v3.1.2 伪分布式安装（Pseudo-Distributed Operation）

（7）从分布式文件系统中复制文件到本地文件系统，验证输出的结果：

$ bin/hdfs dfs -get output output

$ cat output/*

或者直接查看分布式文件系统的输出文件：

$ bin/hdfs dfs -cat output/*

Hadoop v3.1.2 伪分布式安装（Pseudo-Distributed Operation）

（8）完成以上步骤后，执行一下命令来停止所有的守护进程：

$ sbin/stop-dfs.sh

单机运行 Yarn

在伪分布式模式中，只需设定很少的参数，你就可以用 Yarn 运行一个 MapReduce 作业，并激活 ResourceManager 守护进程和 NodeManager 守护进程。

后续指令假定上述指令的第 1 ~ 4 步已被执行。

（1）设置如下配置参数：etc/hadoop/mapred-site.xml

<name>mapreduce.framework.name</name>

</property>

</configuration>

Hadoop v3.1.2 伪分布式安装（Pseudo-Distributed Operation）

etc/hadoop/yarn-site.xml

<name>yarn.nodemanager.aux-services</name>

<value>mapreduce_shuffle</value>

</property>

</configuration>

Hadoop v3.1.2 伪分布式安装（Pseudo-Distributed Operation）

（2）启动 ResourceManager 守护进程和 NodeManager 守护进程：

$ sbin/start-yarn.sh

Hadoop v3.1.2 伪分布式安装（Pseudo-Distributed Operation）

（3）浏览 ResourceManager 的网页，地址默认是：

ResourceManager - http://localhost:8088/

访问群集的所有应用程序的默认端口号为8088。

Hadoop v3.1.2 伪分布式安装（Pseudo-Distributed Operation）

（4）运行一个 MapReduce 作业。

（5）完成以上步骤后，执行一下命令来停止所有的守护进程：

$ sbin/stop-yarn.sh

hadoop 分布式处理数据处理 hdfs yarn

caifengguo

0 关注 0 粉丝 0 动态

关注关注

[AWS][大数据][Hadoop] 使用EMR做大数据分析

创建一个存储桶比如hadoop202006…这里我解释一下Hadoop集群中的一些组件，了解大数据的同学直接忽略就好。Apache Hadoop：在分布式服务器集群上存储海量数据并运行分布式分析应用的开源框架，其核心部件是HDFS与MapReduce。Ap

swazerz 2020-06-22

想了解大数据的鼻祖Hadoop技术栈，这里有一份优质书单推荐！

如何用形象的比喻描述大数据的技术生态？Hadoop、Hive、Spark 之间是什么关系？对于大部分人来说都是傻傻分不清楚。今年来大数据、人工智能获得了IT界大量的关注。程序猿们就是有这么实在，坐在地铁上还能那么投入的讨论技术问题。通常，一个技术的兴起，都

仁鱼 2020-06-20

Hive安装，以及一些问题处理

把apache-hive-1.2.1-bin.tar.gz上传到linux的/opt/software目录下。注意以tab键间隔。hive> create table student ROW FORMAT DELIMITED FIELDS TERMI

victorzhzh 2020-06-16

hadoop 数据处理总结

最近工作中用了了Hadoop，比如用Hadoop来处理广告的一些pv量数据、点击数据等，最后统计后给运营展示每个广告的数据报表。hadoop平台提供了分布式存储，分布式计算，任务调度、对象存储、和组件支撑服务。Hadoop主要用来存储以及处理大量并且复杂的

sujins 2020-05-30

hadoop伪分布式环境搭建

core-site.xml文件主要配置了访问Hadoop集群的主要信息，其中master代表主机名称，也可以使用IP替换，9000代表端口。外部通过配置的hdfs：//master：9000信息，就可以找到Hadoop集群。hdfs-site.xml配置文

WeiHHH 2020-09-23

hadoop框架三大组件hdfs、mapreduce、yarn 内容

1）分布式的运算程序往往需要分成至少2个阶段。2）第一个阶段的MapTask并发实例，完全并行运行，互不相干。3）第二个阶段的ReduceTask并发实例互不相干，但是他们的数据依赖于上一个阶段的所有MapTask并发实例的输出。4）MapReduce编程

tomli 2020-07-26

hdfs、hive、hbase的搭建总结

-- 完全分布式文件系统的名称：schema ip port -->. -- 分布式文件系统的其他路径的所依赖的一个基础路径，完全分布式不能使用默认值，因为临路径不安全，linux系统在重启时，可能会删除此目录下的内容-->. --

eternityzzy 2020-07-19

hadoop集群的启动与停止

漫长的启动时间…………思考：每次都一个一个节点启动，如果节点数增加到1000个怎么办？早上来了开始一个一个节点启动，到晚上下班刚好完成，下班？这些名称是我的三台机器的主机名，各位请改成自己的主机名！如果集群是第一次启动，需要格式化NameNode，这里使用

飞鸿踏雪0 2020-07-09

hadoop创建目录

//1.vm arguments中添加后面的参数来修改用户 -DHADOOP_USER_NAME=hadoop

硅步至千里 2020-06-25

Hadoop

8.在2008年，Doug加入了Yahoo，开源了Hadoop，在Yahoo期间设计实现了Pig、HBase等框架

HJWZYY 2020-06-21

大数据期末复习重点

系统上安装 jdk环境.基于/usr/local/ 目录下解压安装.注: 可检查目录大小: df-h/usr/local/　　。解压压缩包tar -zxvf jdk-7u80-linux.tar.gz 改名: mv jdk-7u80-linux jdk7　

ViMan0 2020-06-21

Hadoop之hadoop fs和hdfs dfs、hdfs fs三者区别

tackoverflow的解释Hadoop fs：使用面最广，可以操作任何文件系统。hadoop dfs与hdfs dfs：只能操作HDFS文件系统相关，前者已经Deprecated，一般使用后者。Following are the three comma

zzjmay 2020-06-08

hadoop两个namenode都是standby问题

经过不断地排查，发现在自己进行关闭和重启namenode的组件的时候，没有通过pip文件正常关闭，只能挨个关闭，这个也不是重点。经过修改pip文件的路径，解决了这个批量关闭启动的问题，原因是/tmpe目录系统会定期清理，导致进程号对不上了。关闭再启动hdf

sujins 2020-06-05

Hadoop之HDFS入门实战

某一个副本丢失后，它可以自动恢复。数据规模，可以达到PB级。文件规模，能够处理百万规模的文件数量。可构建在廉价机器上，通过多副本保证可靠性。不适合低延时数据访问。存储大量小文件，他会占用NameNode大量内存存储目录和块信息，这样不可取，因为NameNo

strongyoung 2020-06-01

Hadoop简介

要求被注入的属性 , 必须有set方法 , set方法的方法名由set + 属性首字母大写 , 如果属性是boolean类型 , 没有set方法 , 是 is .

sujins 2020-05-29

hadoop hdfs csv导入hive表

row format delimited fields terminated by ‘,‘ stored as textfile;

archive 2020-05-28

Hadoop Yarn工作机制 Job提交流程

MR程序提交到客户端所在的节点。YarnRunner向ResourceManager申请一个Application。RM将该应用程序的资源路径返回给YarnRunner。RM将用户的请求初始化成一个Task。其中一个NodeManager领取到Task任务

xieting 2020-07-04

Hadoop3.2.0集群搭建常见注意事项

hadoop-env.sh中不光需要配置java-home,还需要声明下面这些用户变量,不然无法启动:. 如果出现这个说明连接配置有问题,查看core-site.xml配置,这个是配置datanode和namnode通信的:. hdfs应该配置成namno

changjiang 2020-11-16

为什么Java仍将是未来的主流语言？

Java是一种通用编程语言，1995年由Sun Micro-systems公司开发。尽管已经有25年的历史，但它仍然统治着整个世界。根据Stack-overflow的开发者调查，它在2019年最受欢迎的语言中排名第5。超过41%的调查用户将Java标记为

minerd 2020-10-28

_服役新节点，退役旧节点，多目录配置。+_HDFS2.x的新特性

datanode会主动Namenode请求。这样服役新的节点就做完了。添加到白名单的主机节点，都允许访问NameNode，不在白名单的主机节点，都会被退出。在NameNode的/opt/module/hadoop-2.7.2/etc/hadoop目录下创建

Aleks 2020-08-19

安科网

Hadoop v3.1.2 伪分布式安装（Pseudo-Distributed Operation）

caifengguo

大数据处理框架Hadoop

Hadoop伪分布式安装（Pseudo-Distributed Operation）

修改配置文件

配置免密码的 ssh

执行 Execution

单机运行 Yarn

caifengguo

相关推荐

[AWS][大数据][Hadoop] 使用EMR做大数据分析

想了解大数据的鼻祖Hadoop技术栈，这里有一份优质书单推荐！

Hive安装，以及一些问题处理

hadoop 数据处理总结

hadoop伪分布式环境搭建

hadoop框架三大组件hdfs、mapreduce、yarn 内容

hdfs、hive、hbase的搭建总结

hadoop集群的启动与停止

hadoop创建目录

Hadoop

大数据期末复习重点

Hadoop之hadoop fs和hdfs dfs、hdfs fs三者区别

hadoop两个namenode都是standby问题

Hadoop之HDFS入门实战

Hadoop简介

hadoop hdfs csv导入hive表

Hadoop Yarn工作机制 Job提交流程

Hadoop3.2.0集群搭建常见注意事项

为什么Java仍将是未来的主流语言？

_服役新节点，退役旧节点，多目录配置。+_HDFS2.x的新特性

caifengguo