您的位置:首页 > 其它

Hive中复杂数据类型Map常用方法介绍

2019-01-12 20:58 4051 查看

工作中在清洗数据的时候经常遇到一些map类型的数据的清洗、提取等。这边介绍一下我在工作中遇到的问题及相关的解决方法,其实如果知道的话都是挺简单的用法的,但是对于很多不太熟悉Hive Map函数的人来说不知道用法就意味着问题无法得到及时妥善的解决。我也是在Hive聚合函数中查找了好多资料,并且不断地去试才总结出map函数一些用法的。好了废话不多说,我开始介绍吧。

假设有一张表,表名为t,其中字段params的数据类型是map,其map的具体k-v对如下:

[code]{'k0':'abc','k1':'01,02,03','k2':'456'}

1. size(Map)函数:可得map的长度。返回值类型:int

[code]select size(map(t.params));
>> 3

2. map_keys(Map)函数:可得map中所有的key;  返回值类型: array

[code]select map_keys(map(t.params));
>> ["k0","k1","k2"]

3.map_values(Map)函数:可得map中所有的value; 返回值类型: array

[code]select map_value(map(t.params));
>> ["abc","01,02,03","456"]

4.判断map中是否包含某个key值:

[code]select array_contains(map_keys(t.params),'k0');
>> true

5. 在k-v对中,若value有多个值的情况,如 {'k1':'01,02,03'} ,如果要用 'k1' 中 '02'作为过滤条件,则语句如下:

    (这里用到split来处理)

[code]select *
from t
where split(t.params['k1'],',')[1]
>> 02

 6.如果过滤条件为:k2的值必须为'45'开头,则语句如下:

  这里用到substr方法来处理,这里注明一下,1和2分别表示起始位置和长度)

[code]select *
from t
where substr(t.params['k2'],1,2) = '45'

 

内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: