Hive 数据仓库笔记

产生背景:

MapReduce编程的不便性
传统RDBMS人员的需要
Facebook开源 用于解决海量结构化日志的数据统计问题
构建在hadoop之上的数据仓库

Hive底层执行引擎支持:MR/Tez/Spark
Hive体系架构:

client:shell,thrift/jdbc
metastore: ==>MySQL
    database:name,location,owner...
    table: name, location, owner, column

Hive部署架构:

测试环境:
    只有一个MySQL也可以
生产环境:
    MySQL单点问题,用一个active,一个standby来解决
    Hive指向VIP的虚拟地址,所以MySQL有一个好用即可
    hadoop集群中:是有很多节点的
    Hive:是一个客户端而已,并不涉及到集群的概念

Hive与RBDMS的区别:

都支持sql
Hive更多是对离线数据的批处理 是建立在hadoop或者mapreduce之上的 时效性不强
Sql查询返回速度相对要快

相关推荐