hadoop

hadoop数据分析

使用传统机制分析和处理大数据很复杂,特别是查询本身就复杂的情况。这时候,hadoop开源大数据框架就派得上用场了,hadoop实现了mapReduce算法,一般被用于计算分布式数据集。

map,映射:MapReduce算法将查询操作和数据集都分解为组件,这就是映射。

reduce,归约:将经过map过滤转换后的数据,进行聚合。


hadoop

1. hadoop常用命令

1.1 文件信息

显示文件信息

hadoop fs -ls /input

递归显示文件信息

mengka:mkjob hyy044101331$ hadoop fs -ls -R /input
drwxr-xr-x   - hyy044101331 supergroup          0 2016-07-16 15:06 /input/mengka_wordcount
-rw-r--r--   1 hyy044101331 supergroup         33 2016-07-16 15:06 /input/mengka_wordcount/mengka_aa.txt
-rw-r--r--   1 hyy044101331 supergroup         45 2016-07-16 15:06 /input/mengka_wordcount/mengka_bb.txt

 创建文件夹

hadoop fs -mkdir /input/mengka_wordcount

1.2 远程文件传输

文件上传

hadoop fs -put /Users/hyy044101331/tmp/mengka_cc.txt /input/mengka_wordcount

文件下载

hadoop fs -get /input/mengka_wordcount/mengka_cc.txt /Users/hyy044101331/logs

1.3 显示文件大小

hadoop fs -du /input     

hadoop fs -du -h /input

1.4 清空回收站

mengka:tmp hyy044101331$ hadoop fs -expunge
16/07/16 17:15:52 WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable
16/07/16 17:15:52 INFO fs.TrashPolicyDefault: Namenode trash configuration: Deletion interval = 0 minutes, Emptier interval = 0 minutes.

1.5 删除文件

删除文件

hadoop fs -rm /input/mengka_wordcount/mengka_bb.txt
 

删除文件夹

hadoop fs -rmr /input/mengka_wordcount 

1.6 改变文件的权限

hadoop fs -chmod -R 777 /group/**/mengka.hyy

1.7 远程文件拷贝

远程拷贝到本地

hadoop fs -copyToLocal /group/**/mengka/QS /home/mengka/qsdata

本地拷贝到远程

hadoop fs -copyFromLocal /home/mengka/qsdata /group/**/mengka/QS

相关推荐