使用Python实现Hive的UDF示例
2016-12-10 15:49
761 查看
主要分为两个部分,一个部分为Python脚本实现想要实现的功能,另外一个部分为HQL部分,调用Python脚本对数据进行处理。
HQL调用Python实现的UDF其实有一个重定向的过程,把数据表中之列的列重定向Python的标准输入中,按行操作,首先将每行按照指定的分割符分开,一般为’\t’,然后剩下的就是对其进行操作,print需要的列,以’\t’分割。
1、Python实现的UDF代码
/Users/nisj/PycharmProjects/EsDataProc/frist_udf.py
2、HQL调用UDF
--首先需要添加Python文件
add file pythonfile_location;
--然后通过transform(指定的列) ,指定的列是需要处理的列
select transform(指定的列)
using "python filename"
as (newname)
--newname指输出的列的别名
3、几个说明
add file后面的路径是Hive客户端所在的本地文件路径,而非Hdfs上的路径。
UDF函数调试的时候,可以使用【cat xx.txt|python udf.py】的方式,不用经过Hive客户端。
Hive传入python脚本中的数据,是通过'\t'来分隔的,所以Python脚本用通过.split('\t')来区分开;有时候,我们结合INSERT OVERWRITE使用上述TRANSFORM,而目标表,其分割副可能不是\t。但是请牢记:TRANSFORM的分割符号,传入、传出脚本的,永远是\t。
HQL调用Python实现的UDF其实有一个重定向的过程,把数据表中之列的列重定向Python的标准输入中,按行操作,首先将每行按照指定的分割符分开,一般为’\t’,然后剩下的就是对其进行操作,print需要的列,以’\t’分割。
1、Python实现的UDF代码
/Users/nisj/PycharmProjects/EsDataProc/frist_udf.py
import sys i = 0 for line in sys.stdin: line = line.strip() i += 1 line = line + " hello udf!" print i,line
2、HQL调用UDF
--首先需要添加Python文件
add file pythonfile_location;
--然后通过transform(指定的列) ,指定的列是需要处理的列
select transform(指定的列)
using "python filename"
as (newname)
--newname指输出的列的别名
select TRANSFORM(uid,appkey) USING 'python xx_udf.py' as (xx,appkey) from xx_uid_new_fristday_1208 limit 1000; select TRANSFORM(uid,appkey,imei) USING 'python xx_udf.py' as (uid,appkey,imei) from xx_uid_new_fristday_1208 limit 1000; drop table if exists xx_udf_1210;create table xx_udf_1210 as select TRANSFORM(uid,appkey) USING 'python xx_udf.py' as (xx,appkey) from xx_uid_new_fristday_1208 limit 10;
3、几个说明
add file后面的路径是Hive客户端所在的本地文件路径,而非Hdfs上的路径。
UDF函数调试的时候,可以使用【cat xx.txt|python udf.py】的方式,不用经过Hive客户端。
Hive传入python脚本中的数据,是通过'\t'来分隔的,所以Python脚本用通过.split('\t')来区分开;有时候,我们结合INSERT OVERWRITE使用上述TRANSFORM,而目标表,其分割副可能不是\t。但是请牢记:TRANSFORM的分割符号,传入、传出脚本的,永远是\t。
相关文章推荐
- hive中使用自定义函数(UDF)实现分析函数row_number的功能
- 使用python实现扫描端口示例
- Spark(Hive) SQL中UDF的使用(Python)
- Python使用微信SDK实现的微信支付功能示例
- Spark(Hive) SQL中UDF的使用(Python)【转】
- python使用循环实现批量创建文件夹示例
- Python使用matplotlib和pandas实现的画图操作【经典示例】
- Python实现类似jQuery使用中的链式调用的示例
- Spark(Hive) SQL中UDF的使用(Python)
- python使用fcntl模块实现程序加锁功能示例
- 使用python实现strcmp函数功能示例
- Hive中使用Python实现Transform时遇到Broken pipe错误排查
- 使用python实现拉钩网上的FizzBuzzWhizz问题示例
- Python实现Hive的UDF
- python使用rabbitmq实现网络爬虫示例
- python使用循环实现批量创建文件夹示例
- 使用python实现递归版汉诺塔示例(汉诺塔递归算法)
- Python greenlet实现原理和使用示例
- Python实现类似jQuery使用中的链式调用的示例
- HIVE中使用python实现UDAF