Hive1.2.2（一）

蜗牛之窝

2020-06-26

关注关注

一、安装

一、课前准备

1. 安装好hadoop2.X版本的三节点集群，并配置好JAVA_HOME和HADOOP_HOME两个环境变量。

二、课堂主题

讲解hive1.2.2版本的三种常见安装部署模式

三、课堂目标

1. 熟练搭建内嵌式hive环境

2. 熟练搭建本地式hive环境

3. 熟练搭建远程式hive环境

4. mysql数据库的安装

四、知识要点

================================================================================

hive-1

一、课前准备

1. 安装好对应版本的hadoop集群

2. 安装mysql服务

二、课堂主题

本课堂主要围绕hive的基础知识点进行讲解。主要包括以下几个方面

1. hive的核心概念

2. hive与数据库的区别

3. hive的架构原理

4. hive的安装部署

5. hive的交互方式

6. hive的数据类型

7. hive的DDL语法操作

三、课堂目标

1. 理解hive的核心概念和架构原理

2. 掌握hive的优缺点

3. 掌握hive的安装部署

4. 掌握hive的交互式方式使用

5. 掌握hive的数据类型

6. 掌握hive的DDL语法操作

四、知识要点

1. Hive是什么

1.1 hive的概念

Hive：由Facebook开源，用于解决海量结构化日志的数据统计

Hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张表，并提供类SQL查询功能。

本质是：将Hive SQL转化为MapReduce程序

Hive1.2.2（一）

1.2 Hive与数据库的区别

Hive1.2.2（一）

Hive具有SQL数据库的外表，但应用场景完全不同
Hive只适用来做海量离线数据统计分析，也就是数据仓库

读时模式：hive加载数据到表中的时候，不会进行数据校验

写时模式：mysql加载数据的时候会进行严格校验

1.3 Hive的优缺点

优点

操作接口采用类SQL语法，提供快速开发的能力（简单、容易上手）
避免了去些mapreduce，减少开发人员的学习成本
Hive支持用户自定义函数，用户可以根据自己的需求来实现自己的函数

缺点：

Hive不支持记录级别的增删改操作
Hive的查询延迟很严重
Hive不支持事务

1.4 Hive架构原理

Hive1.2.2（一）

1、用户接口：Client

Clit（hive shell）、JDBC/ODBC（java访问hive）、WEBUI（浏览器访问hive）

2、元数据：Metastore

元数据包括：表名、表所属的数据库（默认是default）、表的拥有者、列/分区字段、表的类型（是否是外部表）

、表的数据所在目录等

默认存储在自带的derby数据库中，推荐使用mysql存储Metastore

3、Hadoop集群

使用HDFS进行存储，使用MapReduce进行计算

4、Driver：驱动器

解析器（SQL Parser）

将SQL字符串转换成抽象语法树AST

对AST进行语法分析，比如表是否存在、字段是否存在、SQL语义是否有误

编译器（Physical Plan）：将AST编译生成逻辑执行计划

优化器（Query Optimizer）：对逻辑执行计划进行优化

执行器（Execution）：把逻辑执行计划转换成可以运行的物理计划。对于Hive来说默认就是mapreduce任务

Hive1.2.2（一）

2. Hive的安装部署

注意hive就是一个构建数据仓库的工具，只需要在一台服务器上安装就可以了，不需要在多台服务器上安装

3. hive的交互方式

启动hadoop集群和mysql服务

3.1 hive交互shell

3.2 hive jdbc服务

启动hiveserver2服务

beeline连接hiveserver2

beeline

!connect jdbc:hive2://node1:10000

3.3 Hive的命令

hive -e sql语句

使用 -e参数来直接执行hql的语句

hive -f sql文件

　　使用 -f 参数执行包含hql语句的文件

4. Hive的数据类型

4.1 基本数据类型

Hive1.2.2（一）

4.2 复合数据类型

Hive1.2.2（一）

array字段的元素访问方式：

下标获取元素，下标从0开始

获取第一个元素

array[0]

map字段的元素访问方式

通过键获取值

获取a这个key对应的value

map[‘a‘]

struct字段的元素获取方式

定义一个字段c的类型为struct{a int;b string}

获取a和b的值

使用c.a和c.b获取其中的元素值

这里可以把这种类型看成一个对象

5、Hive的数据类型转换

5.1 隐式类型转换

系统自动实现类型转换，不需要用户干预

如tinyint可以转换成int，int可以转换成bigint

所有整数类型、float和string类型都可以隐式地转换成double

tinyint、smallint、int都可以转换为float

boolean类型不可以转换为任何其它的类型

5.2 手动类型转换

可以使用cast函数操作显示进行数据类型转换

cast(‘1‘ as int) 将把字符串 ‘1’转换成整数1；

如果强制类型转换失败，如执行cast（‘x’ as int），表达式返回空值NULL

6、Hive的DDL操作

如果数据库中有表存在，这里需要使用cascade强制删除数据库

drop database if exists db_hive cascade ;

。。。。。。中间很无聊，不写了

五、拓展点

hive cli命令窗口查看本地文件系统

与操作本地文件系统类似，这里需要使用！（感叹号），并且最后需要加上；分号

例如：

！ls / ；

hive cli命令窗口查看HDFS文件系统

与查看HDFS文件系统类似

dfs -ls / ；

hvie的底层执行引擎有3种

MapReduce（默认）

tez（支持DAG作业的计算框架）

spark（基于内存的分布式计算框架）

hive

蜗牛之窝

0 关注 0 粉丝 0 动态

关注关注

3（Hive）

Hive 运行时，元数据存储在关系型数据库里面。用户接口主要有三个：CLI，Client 和 WUI。其中最常用的是CLI，Cli启动的时候，会同时启动一个Hive副本。Client是Hive的客户端，用户连接至Hive Server。Hive中的元数据包

archive 2020-07-30

Hive函数大全-完整版

现在虽然有很多SQL ON Hadoop的解决方案，像Spark SQL、Impala、Presto等等，但就目前来看，在基于Hadoop的大数据分析平台、数据仓库中，Hive仍然是不可替代的角色。尽管它的相应延迟大，尽管它启动MapReduce的时间相当

成长之路 2020-07-28

hdfs、hive、hbase的搭建总结

-- 完全分布式文件系统的名称：schema ip port -->. -- 分布式文件系统的其他路径的所依赖的一个基础路径，完全分布式不能使用默认值，因为临路径不安全，linux系统在重启时，可能会删除此目录下的内容-->. --

eternityzzy 2020-07-19

hive函数之~hive当中的lateral view 与 explode

lateral view用于和split、explode等UDTF一起使用的，能将一行数据拆分成多行数据，在此基础上可以对拆分的数据进行聚合，lateral view首先为原始表的每行调用UDTF，UDTF会把一行拆分成一行或者多行，lateral vie

taisenki 2020-07-05

hive函数之~窗口函数与分析函数

)row format delimited fields terminated by ‘,‘;第一个参数为列名，第二个参数为往上第n行，第三个参数为默认值。当ORDER BY和窗口从句都缺失, 窗口规范默认是 ROW BETWEEN UNBOUNDED P

tugangkai 2020-07-05

hive函数之~reflect函数

reflect函数可以支持在sql中调用java中的自带函数，秒杀一切udf函数。create table test_udf row format delimited fields terminated by ‘,‘;hive > create ta

SignalDu 2020-07-05

hive函数之~条件函数

‘tom‘ when 2=2 then ‘mary‘ else ‘tim‘ end from tableName;

genshengxiao 2020-07-05

hive函数之~日期函数

语法: datediff返回值: int说明: 返回结束日期减去开始日期的天数。

tomson 2020-07-05

hive函数之~字符串函数

int start, int len)返回值: string说明：返回字符串A从start位置开始，长度为len的字符串。注意，在有些情况下要使用转义字符,类似oracle中的regexp_replace函数。index)返回值: string说明：将字符

zlsdmx 2020-07-05

hive函数之~关系运算

select 1 from tableName where 1 <> 2;hive> select 1 from tableName where 1 < = 1;select 1 from tableName where 2 >

tomson 2020-07-05

Hive使用

大量的hive查询任务，如果用交互式shell来进行输入的话，显然效率及其低下，因此，生产中更多的是使用脚本化运行机制：。hive -e "insert into table t_dest select * from t_src;".

tugangkai 2020-07-04

Hive的安装与启动

<description>JDBC connect string for a JDBC metastore</description>. <description>Driver class name for a JDBC

tomson 2020-07-05

Hive llap服务安装说明及测试（二）

因为Apache Slider 已经不维护了，下面介绍不使用 Slider 的 LLAP使用方式。

xieting 2020-06-28

Hive学习之路（二）Hive安装

bin binary-package-licenses conf examples hcatalog jdbc lib LICENSE NOTICE RELEASE_NOTES.txt scripts. -- 如果 mysql 和 hi

Zhangdragonfly 2020-06-28

Hadoop

Zookeeper：用于 Hadoop 的分布式协调服务。Hadoop 的许多组件依赖于 Zookeeper，它运行在计算机集群中，用于管理 Hadoop 集群。像 Pig 一样，Hive 作为一个抽象层工具，吸引了很多熟悉 SQL 而不是 Java 编程

genshengxiao 2020-06-26

（一）hive远程模式搭建

# scp -r /opt/soft/mysql-5.7.18-1.el7.x86_64.rpm-bundle.tar :/usr/ 发安装包。# rpm -qa|grep mariadb 检查：这是离线包安装方式所以要检查并且卸载mariadb. #

成长之路 2020-06-26

Hive学习(二)【数据类型、类型转换】

可以指定字符集。可以使用单引号或者双引号。和c语言中的struct类似，都可以通过“点”符号访问元素内容。MAP是一组键-值对元组集合，使用数组表示法可以访问数据。数组是一组具有相同类型和名称的变量的集合。例如CAST将把字符串‘1‘ 转换成整数1；如果强

tomson 2020-06-26

hive开窗开窗函数进阶

NTILE：把有序分区中的行分发到指定数据的组中，各个组有编号，编号从 1 开始，对于每一行， NTILE 返回此行所属的组的编号。hive > select name,orderdate,cost, sum over as sample f

成长之路 2020-06-25

数据仓库 ODS原始数据层操作

①ODS层存放的是原始数据，因此只需要一个字段就行。②ODS层的数据来源于HDFS，里面存储的文件带有压缩，因此需要指明相应的压缩方式。③在多人操作一张Hive表时，最好建立外部表，防止删表时将其中的数据也删掉了。2 编写将数据导入上述表中的脚本。④hiv

cyydjt 2020-06-25

Hive之row_number() over分组排序

语法：ROW_NUMBER() OVER(PARTITION BY COLUMN ORDER BY COLUMN). select user_id,times,row_number() over(partition by times order by us

成长之路 2020-06-21

安科网

Hive1.2.2（一）

蜗牛之窝

蜗牛之窝

相关推荐

3（Hive）

Hive函数大全-完整版

hdfs、hive、hbase的搭建总结

hive函数之~hive当中的lateral view 与 explode

hive函数之~窗口函数与分析函数

hive函数之~reflect函数

hive函数之~条件函数

hive函数之~日期函数

hive函数之~字符串函数

hive函数之~关系运算

Hive使用

Hive的安装与启动

Hive llap服务安装说明及测试（二）

Hive学习之路（二）Hive安装

Hadoop

（一）hive远程模式搭建

Hive学习(二)【数据类型、类型转换】

hive开窗开窗函数进阶

数据仓库 ODS原始数据层操作

Hive之row_number() over分组排序

蜗牛之窝