hive排序后collect_set

tomson

2020-05-27

假设存在表格如下：

select ‘a‘ as category, 19 as duration
union all
select ‘b‘ as category, 15 as duration
union all
select ‘c‘ as category, 12 as duration
union all
select ‘d‘ as category, 53 as duration
union all
select ‘e‘ as category, 27 as duration
union all
select ‘f‘ as category, 9  as duration;

 category | duration 
 b        |       15 
 f        |       9 
 e        |       27 
 c        |       12 
 d        |       53 
 a        |       19

想要多行转一行并且按照duration排序，形成如下效果d,e,a,b,c,f

首先排序：row_number() over (partition by category order by cast(duration as int) desc) duration_rank，然后拼接concat_ws(‘,‘,collect_set(category))，但是得到的结果却是乱序的，产生这个问题的根本原因自然在MapReduce，如果启动了多于一个mapper/reducer来处理数据，select出来的数据顺序就几乎肯定与原始顺序不同了。

解决方法可以把mapper数固定成1，或者把rank加进来再进行一次排序，拼接完之后把rank去掉：

select 
regexp_replace(    
 concat_ws(‘,‘,
   sort_array(
     collect_list(
       concat_ws(‘:‘,lpad(cast(duration_rank as string),5,‘0‘),cast(category as string))
     )
   )
 ),
‘\\d+\:‘,‘‘)
from 
(select 
category
,row_number() over (order by cast(duration as int) desc) duration_rank 
from 
(select ‘a‘ as category, 19 as duration
union all
select ‘b‘ as category, 15 as duration
union all
select ‘c‘ as category, 12 as duration
union all
select ‘d‘ as category, 53 as duration
union all
select ‘e‘ as category, 27 as duration
union all
select ‘f‘ as category, 9 as duration) t
) T;

duration_rank 必须要在高位补足够的0对齐，因为排序的是字符串而不是数字，如果不补0的话，按字典序排序就会变成1, 10, 11, 12, 13, 2, 3, 4...，又不对了。将排序的结果拼起来之后，用regexp_replace函数替换掉冒号及其前面的数字，大功告成。

select hive union

安科网

hive排序后collect_set

tomson

tomson

相关推荐

Golang 定时器(Timer 和 Ticker),这篇文章就够了

Mysql 实现字段拼接的三个函数

详解 MySQL中count函数的正确使用方法

oracle锁表该如何解决

SQL Server如何通过创建临时表遍历更新数据详解

ThinkPHP5 链式操作table用法

sql注入 --显错注入

Orcle11G创建表空间，创建用户，授权等操作

SQL 创建、更新和删除视图的方法

oracle 日期操作语句总结

ORACLE数据库中Rownum用法详解

MySQL如何创建视图

详细分析mysql视图的原理及使用方法

MySQL约束

MySQL实现根据当前ID读取上一条和下一条记录

mysql 14 覆盖索引+回表

go语言中——select的使用方法

Mysql入门 DML语句大全DML、DDL、DCL

fiddler相关命令的使用

Selenium 获取Select元素的选中值

tomson