您的位置：首页 > 编程语言 > Python开发

使用Python实现Hive的UDF示例

2016-12-10 15:49 761 查看

主要分为两个部分，一个部分为Python脚本实现想要实现的功能，另外一个部分为HQL部分，调用Python脚本对数据进行处理。
HQL调用Python实现的UDF其实有一个重定向的过程，把数据表中之列的列重定向Python的标准输入中,按行操作，首先将每行按照指定的分割符分开，一般为’\t’，然后剩下的就是对其进行操作，print需要的列,以’\t’分割。
1、Python实现的UDF代码
/Users/nisj/PycharmProjects/EsDataProc/frist_udf.py

import sys
i = 0
for line in sys.stdin:
line = line.strip()
i += 1
line = line + " hello udf!"
print i,line

2、HQL调用UDF
--首先需要添加Python文件
add file pythonfile_location;
--然后通过transform(指定的列) ，指定的列是需要处理的列
select transform(指定的列)

using "python filename"

as (newname)

--newname指输出的列的别名

select TRANSFORM(uid,appkey) USING 'python xx_udf.py' as (xx,appkey) from xx_uid_new_fristday_1208 limit 1000;
select TRANSFORM(uid,appkey,imei) USING 'python xx_udf.py' as (uid,appkey,imei) from xx_uid_new_fristday_1208 limit 1000;
drop table if exists xx_udf_1210;create table xx_udf_1210 as select TRANSFORM(uid,appkey) USING 'python xx_udf.py' as (xx,appkey) from xx_uid_new_fristday_1208 limit 10;

3、几个说明
add file后面的路径是Hive客户端所在的本地文件路径，而非Hdfs上的路径。
UDF函数调试的时候，可以使用【cat xx.txt|python udf.py】的方式，不用经过Hive客户端。
Hive传入python脚本中的数据，是通过'\t'来分隔的，所以Python脚本用通过.split('\t')来区分开；有时候，我们结合INSERT OVERWRITE使用上述TRANSFORM，而目标表，其分割副可能不是\t。但是请牢记：TRANSFORM的分割符号，传入、传出脚本的，永远是\t。

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航