您的位置：首页 > 其它

Hive中复杂数据类型Map常用方法介绍

2019-01-12 20:58 4051 查看

工作中在清洗数据的时候经常遇到一些map类型的数据的清洗、提取等。这边介绍一下我在工作中遇到的问题及相关的解决方法，其实如果知道的话都是挺简单的用法的，但是对于很多不太熟悉Hive Map函数的人来说不知道用法就意味着问题无法得到及时妥善的解决。我也是在Hive聚合函数中查找了好多资料，并且不断地去试才总结出map函数一些用法的。好了废话不多说，我开始介绍吧。

假设有一张表，表名为t，其中字段params的数据类型是map，其map的具体k-v对如下：

[code]{'k0':'abc','k1':'01,02,03','k2':'456'}

1. size(Map)函数：可得map的长度。返回值类型：int

[code]select size(map(t.params));
>> 3

2. map_keys(Map)函数：可得map中所有的key; 返回值类型: array

[code]select map_keys(map(t.params));
>> ["k0","k1","k2"]

3.map_values(Map)函数：可得map中所有的value; 返回值类型: array

[code]select map_value(map(t.params));
>> ["abc","01,02,03","456"]

4.判断map中是否包含某个key值：

[code]select array_contains(map_keys(t.params),'k0');
>> true

5. 在k-v对中，若value有多个值的情况，如 {'k1':'01,02,03'} ，如果要用 'k1' 中 '02'作为过滤条件，则语句如下：

（这里用到split来处理）

[code]select *
from t
where split(t.params['k1'],',')[1]
>> 02

6.如果过滤条件为：k2的值必须为'45'开头，则语句如下：

（这里用到substr方法来处理，这里注明一下，1和2分别表示起始位置和长度）

[code]select *
from t
where substr(t.params['k2'],1,2) = '45'

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航