您的位置:首页 > 编程语言 > Python开发

使用Python实现Hive的UDF示例

2016-12-10 15:49 761 查看
主要分为两个部分,一个部分为Python脚本实现想要实现的功能,另外一个部分为HQL部分,调用Python脚本对数据进行处理。
HQL调用Python实现的UDF其实有一个重定向的过程,把数据表中之列的列重定向Python的标准输入中,按行操作,首先将每行按照指定的分割符分开,一般为’\t’,然后剩下的就是对其进行操作,print需要的列,以’\t’分割。
1、Python实现的UDF代码
/Users/nisj/PycharmProjects/EsDataProc/frist_udf.py
import sys
i = 0
for line in sys.stdin:
line = line.strip()
i += 1
line = line + " hello udf!"
print i,line

2、HQL调用UDF    
--首先需要添加Python文件
add file pythonfile_location;
--然后通过transform(指定的列) ,指定的列是需要处理的列
select transform(指定的列)

using "python filename" 

as (newname) 

--newname指输出的列的别名
select TRANSFORM(uid,appkey) USING 'python xx_udf.py' as (xx,appkey) from xx_uid_new_fristday_1208 limit 1000;
select TRANSFORM(uid,appkey,imei) USING 'python xx_udf.py' as (uid,appkey,imei) from xx_uid_new_fristday_1208 limit 1000;
drop table if exists xx_udf_1210;create table xx_udf_1210 as select TRANSFORM(uid,appkey) USING 'python xx_udf.py' as (xx,appkey) from xx_uid_new_fristday_1208 limit 10;

3、几个说明
add file后面的路径是Hive客户端所在的本地文件路径,而非Hdfs上的路径。
UDF函数调试的时候,可以使用【cat xx.txt|python udf.py】的方式,不用经过Hive客户端。
Hive传入python脚本中的数据,是通过'\t'来分隔的,所以Python脚本用通过.split('\t')来区分开;有时候,我们结合INSERT OVERWRITE使用上述TRANSFORM,而目标表,其分割副可能不是\t。但是请牢记:TRANSFORM的分割符号,传入、传出脚本的,永远是\t。
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: