Hadoop学习之单节点集群配置

renzhixin

2017-07-26

Hadoop学习之单节点集群配置

1.官网下载Hadoop
    http://hadoop.apache.org/releases.html 下载hadoop-2.7.3.tar.gz 在hadoop工作目录 eg: ~/SoftWare/BigData/Hadoop
2 cd eg: ~/SoftWare/BigData/Hadoop/
   tar -zxvf adoop-2.7.3.tar.gz
3.检查JDK是否安装，如未安装，则安装JDK7+，并设定$JAVA_HOME, $PATH, $CLASSPATH
4 检查ssh, rsync是否安装
    若未安装，则安装
          $ sudo apt-get install ssh
$ sudo apt-get install rsync
5 修改${HADOOP_HOME}/etc/hadoop/hadoop-env.sh中JAVA_HOME设置，使用实际的绝对路径
eg:export JAVA_HOME=/home/username/SoftWare/Java/jdk1.8.0_65
6 Standalone Operation下执行一个mapreduce计算
$ mkdir input
$ cp etc/hadoop/*.xml input
$ bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.3.jar grep input output 'dfs[a-z.]+'
$ cat output/*
可以看到
$dfsadmin   1

此时表明Standalone Operation下，Hadoop运行成功

7 Pseudo-Distributed Operation
1)修改${HADOOP_HOME}/etc/hadoop/core-site.xml
     <configuration>
      <property>
          
          <name>fs.defaultFS</name>
          <value>hdfs://localhost:9000</value>
      </property>
      <property>
          
          <name>hadoop.tmp.dir</name>
          <value>/home/username/SoftWare/BigData/Hadoop/tmp</value>
      </property>
    </configuration>
2)修改${HADOOP_HOME}/etc/hadoop/hdfs-site.xml
     <configuration>
       <property>
        
        <name>dfs.replication</name>
        <value>1</value>
      </property>
    </configuration>
3）检查SSH可否无密码登陆localhost
     $ ssh localhost
4) 若无需密码SSH可以登陆localhost,则忽略此步，若需要密码，则执行
     $ ssh-keygen -t rsa -P '' -f ~/.ssh/id_rsa
     $ cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys
     $ chmod 0600 ~/.ssh/authorized_keys
5）HDFS的启动与执行
     HDFS的初次执行需要先格式化，执行${HADOOP_HOME}/bin/hdfs namenode -format
     启动HDFS ${HADOOP_HOME}/sbin/start-dfs.sh
     使用JPS查看HDFS是否启动成功
     $ jps

      63842 SecondaryNameNode
      63381 NameNode
      8470 Jps
      63565 DataNode
     看到NameNode,DataNode,SecondaryNameNode进程已经启动，表示HDFS启动成功
     此时可通过 http://localhost:50070/ 查看namenode, 通过 http://localhost:50090 查看datanode
    6) 上传并测试一个文件
         本地创建一个文件words.txt，内容如下
          Hello World!
          Hello China!
          Hello Jim
         Hello Tom
         The People's Republic Of China!
         上传words.txt至HDFS根目录 ${HADOOP_HOME}/bin/hadoop fs -put words.txt /
         此时可在http://localhost:50070/explorer.html#/ 查看到上传的文件
    7）运行一个例子$ ${HADOOP_HOME}/bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.3.jar grep input output 'dfs[a-z.]+'
    查看结果$ ${HADOOP_HOME}/bin/hdfs dfs -cat output/*

China! 2
Hello   4
Jim     1
Of      1
People's        1
Republic        1
The     1
Tom     1
World! 1

8)Pseudo-Distributed Operation下mapreduce可以运行在Yarn上，若需运行在Yarn上
     则修改${HADOOP_HOME}/etc/hadoop/mapred-site.xml
<configuration>
        <property>
           
           <name>mapreduce.framework.name</name>
           <value>yarn</value>
       </property>
     </configuration>
     修改${HADOOP_HOME}/etc/hadoop/yarn-site.xml

<property>
            
  <name>yarn.nodemanager.aux-services</name>
  <value>mapreduce_shuffle</value>
</property>
<property>
            
  <name>yarn.nodemanager.resource.memory-mb</name>
  <value>3072</value>
</property>
<property>
            
  <name>yarn.nodemanager.minmum-allocation-mb</name>
  <value>2048</value>
</property>
<property>
            
  <name>yarn.scheduler.maximum-allocation-mb</name>
  <value>2048</value>
</property>
<property>
  
  <name>yarn.nodemanager.disk-health-checker.max-disk-utilization-per-disk-percentage</name>
  <value>99</value>
</property>
</configuration>

9）启动yarn, ${HADOOP_HOME}/sbin/start_yarn.sh

    10）使用jps检查yarn是否启动成功
        $ jps

13761 SecondaryNameNode
13410 NameNode
13923 ResourceManager
16744 Jps
14057 NodeManager
13567 DataNode

此时表明yarn启动成功
可通过http://localhost:8088/cluster查看cluster信息

11）运行一个mapreduce程序
    ${HADOOP_HOME}/bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.3.jar wordcount /input /output_wordcount
17/05/13 10:38:05 INFO client.RMProxy: Connecting to ResourceManager at /0.0.0.0:8032
17/05/13 10:38:06 INFO input.FileInputFormat: Total input paths to process : 1
17/05/13 10:38:06 INFO mapreduce.JobSubmitter: number of splits:1
17/05/13 10:38:07 INFO mapreduce.JobSubmitter: Submitting tokens for job: job_1494642975142_0001
17/05/13 10:38:07 INFO impl.YarnClientImpl: Submitted application application_1494642975142_0001
17/05/13 10:38:07 INFO mapreduce.Job: The url to track the job: http://tizen-HP-Compaq-Pro-6380-MT:8088/proxy/application_1494642975142_0001/
17/05/13 10:38:07 INFO mapreduce.Job: Running job: job_1494642975142_0001
17/05/13 10:38:13 INFO mapreduce.Job: Job job_1494642975142_0001 running in uber mode : false
17/05/13 10:38:13 INFO mapreduce.Job: map 0% reduce 0%
17/05/13 10:38:18 INFO mapreduce.Job: map 100% reduce 0%
17/05/13 10:38:23 INFO mapreduce.Job: map 100% reduce 100%
17/05/13 10:38:24 INFO mapreduce.Job: Job job_1494642975142_0001 completed successfully
17/05/13 10:38:24 INFO mapreduce.Job: Counters: 49
        File System Counters
                FILE: Number of bytes read=113
                FILE: Number of bytes written=237983
                FILE: Number of read operations=0
                FILE: Number of large read operations=0
                FILE: Number of write operations=0
                HDFS: Number of bytes read=180
                HDFS: Number of bytes written=71
                HDFS: Number of read operations=6
                HDFS: Number of large read operations=0
                HDFS: Number of write operations=2
        Job Counters
                Launched map tasks=1
                Launched reduce tasks=1
                Data-local map tasks=1
                Total time spent by all maps in occupied slots (ms)=2214
                Total time spent by all reduces in occupied slots (ms)=2302
                Total time spent by all map tasks (ms)=2214
                Total time spent by all reduce tasks (ms)=2302
                Total vcore-milliseconds taken by all map tasks=2214
                Total vcore-milliseconds taken by all reduce tasks=2302
                Total megabyte-milliseconds taken by all map tasks=2267136
                Total megabyte-milliseconds taken by all reduce tasks=2357248
        Map-Reduce Framework
                Map input records=5
                Map output records=13
                Map output bytes=130
                Map output materialized bytes=113
                Input split bytes=102
                Combine input records=13
                Combine output records=9
                Reduce input groups=9
                Reduce shuffle bytes=113
                Reduce input records=9
                Reduce output records=9
                Spilled Records=18
                Shuffled Maps =1
                Failed Shuffles=0
                Merged Map outputs=1
                GC time elapsed (ms)=88
                CPU time spent (ms)=1410
                Physical memory (bytes) snapshot=445538304
                Virtual memory (bytes) snapshot=3855974400
                Total committed heap usage (bytes)=290979840
        Shuffle Errors
                BAD_ID=0
                CONNECTION=0
                IO_ERROR=0
                WRONG_LENGTH=0
                WRONG_MAP=0
                WRONG_REDUCE=0
        File Input Format Counters
                Bytes Read=78
        File Output Format Counters
                Bytes Written=71

      表明运行成功可通过${HADOOP_HOME}/bin/hadoop fs -cat /output_wordcount/* 查看到

China! 2
Hello   4
Jim     1
Of      1
People's        1
Republic        1
The     1
Tom     1
World! 1

注：使用Yarn时运行一个MapReduce任务出现
2017-05-13 10:38:07,465 WARN org.apache.hadoop.yarn.server.resourcemanager.scheduler.capacity.LeafQueue: maximum-am-resource-percent is insufficient to start a single application in queue, it is likely set too low. skipping enforcement to allow at least one application to start
2017-05-13 10:38:07,465 WARN org.apache.hadoop.yarn.server.resourcemanager.scheduler.capacity.LeafQueue: maximum-am-resource-percent is insufficient to start a single application in queue for user, it is likely set too low. skipping enforcement to allow at least one application to start

必须在${HADOOP_HOME}/etc/hadoop/yarn-site.xml 添加
<property>
  
  <name>yarn.nodemanager.disk-health-checker.max-disk-utilization-per-disk-percentage</name>
  <value>99</value>
</property>

hadoop hdfs

安科网

Hadoop学习之单节点集群配置

renzhixin

renzhixin

相关推荐

hadoop伪分布式环境搭建

hadoop框架三大组件hdfs、mapreduce、yarn 内容

hdfs、hive、hbase的搭建总结

hadoop集群的启动与停止

hadoop创建目录

[AWS][大数据][Hadoop] 使用EMR做大数据分析

Hadoop

大数据期末复习重点

Hadoop之hadoop fs和hdfs dfs、hdfs fs三者区别

hadoop两个namenode都是standby问题

Hadoop之HDFS入门实战

hadoop 数据处理总结

Hadoop简介

hadoop hdfs csv导入hive表

Hadoop3.2.0集群搭建常见注意事项

为什么Java仍将是未来的主流语言？

_服役新节点，退役旧节点，多目录配置。+_HDFS2.x的新特性

Hadoop（一）安装

第四周练习

Hadoop小练习

renzhixin

Hadoop学习 之单节点集群配置

相关推荐

Hadoop学习之单节点集群配置