将hdfs文件导入hive表

ITqingliang

2013-02-28

hive sql对hdfs的操作最终都会转化为mr任务，下面介绍如何将已经存在的hdfs文件“导入”hive表，很简单

条件及要求：

1）hdfs文件为经过lzo压缩的seqFile

2）seqFile数据样例

3）hive表是外在分区表

步骤1. 建立hive表

CREATE EXTERNAL TABLE biz_eagleeye (traceId STRING, time STRING, rpcId STRING,
appName STRING, queryKey STRING, msg STRING, kvMap STRING)
PARTITIONED BY(pt STRING)
ROW FORMAT DELIMITED
FIELDS TERMINATED BY '\|'
STORED AS SEQUENCEFILE;

其中EXTERNAL和PARTITIONED关键字指明表为外表和分区表，STORED AS SEQUENCEFILE是专门指定加载seqFile数据源的，如果是普通文本可换成TEXTFILE

步骤2.从hdfs加载数据

ALTER TABLE biz_eagleeye ADD PARTITION (pt='2013-02-28')
LOCATION '/group/tlog/zhiyuan';

通过LOCATION关键字给出hdfs文件路径，并给出分区值。特别说明下，加载seqFile时hive默认过滤掉key（将key看做null）然后按指明的分隔符（这里是’\|‘）对value进行切分，如果需要考虑key或较复杂的切分字段方式可以指定自定义的mapper和reducer：

mapred.mapper.class = org.apache.hadoop.hive.ql.exec.ExecMapper

hive.input.format = org.apache.hadoop.hive.ql.io.CombineHiveInputFormat

mapred.mapper.class = org.apache.hadoop.hive.ql.exec.ExecMapper

hive.input.format = org.apache.hadoop.hive.ql.io.CombineHiveInputFormat

步骤3.检验是否加载成功

select * from biz_eagleeye where pt='2013-02-28' limit 1000

如果需要每天加载一个分区（对应hdfs路径下的昨日的数据文件夹），可以通过脚本建立一个crontab定时任务自动完成

Reference:

https://cwiki.apache.org/confluence/display/Hive/Home

hive hdfs string apache

安科网

将hdfs文件导入hive表

ITqingliang

ITqingliang

相关推荐

hdfs、hive、hbase的搭建总结

hadoop hdfs csv导入hive表

Hive架构

spark利用sparkSQL将数据写入hive两种通用方式实现及比较

hive函数之~日期函数

hive函数之~字符串函数

Hive使用

3（Hive）

Hive函数大全-完整版

hive函数之~hive当中的lateral view 与 explode

hive函数之~窗口函数与分析函数

hive函数之~reflect函数

hive函数之~条件函数

hive函数之~关系运算

Hive的安装与启动

Hive llap服务安装说明及测试（二）

Hive学习之路（二）Hive安装

Hadoop

（一）hive远程模式搭建

Hive学习(二)【数据类型、类型转换】

ITqingliang