幸运28源码下载hive数据分析
2018-08-28 11:43
676 查看
最近在参与某toB项目,幸运28源码下载Q2152876294 论坛:diguaym.com
数据需离线统计出并推送至线上业务库,其中用hive做的离线分析。总结写下常见问题及心得吧。
一.流程类工作简介:数据统计工作主要分为四个步骤:指标统计、批量脚本、数据格式、异常流程;
二.hive统计遇到的问题和常见函数
when split(statistics_date,'-')[1] in ('1','3','5','7','8','10','12') then concat(statistics_date,'-31')
when split(statistics_date,'-')[1] in ('4','6','9','11') then concat(statistics_date,'-30')
when cast(split(statistics_date,'-')[0] as int)%4=0 and split(statistics_date,'-')[1] in ('2') then concat(statistics_date,'-29')
when cast(split(statistics_date,'-')[0] as int)%4!=0 and split(statistics_date,'-')[1] in ('2') then concat(statistics_date,'-28')
end as new_statistics_date
from table_a;collect_set/collect_list(得到的是array<String>类型);clollect_ws可以合并collect_set(如collect_ws(',',collect_set()))
数据需离线统计出并推送至线上业务库,其中用hive做的离线分析。总结写下常见问题及心得吧。
一.流程类工作简介:数据统计工作主要分为四个步骤:指标统计、批量脚本、数据格式、异常流程;
step1. 指标统计:通过创建表存储每个指标的值,例如用hive表loan_apply_rate存储申请通过率;复杂度在于:指标值多,且指标定义可能不明确; step2. 批量脚本:将step1创建的各张表综合成批量执行的perl脚本;复杂度在于:若执行时间长,会影响业务方使用,可自行迭代出大小适中的perl脚本; step3.数据格式:新建一张总表,该表存储所有的指标值;并且将step2生成的表转化成业务方期望的数据格式。示例如下: step4.异常流程:包括批量脚本父子任务执行顺序异常,今日统计的数据异常时数据回滚或重新统计等,数据去重以及数据备份等;
二.hive统计遇到的问题和常见函数
1.指定为月末:两种方案: 1.1.case
when split(statistics_date,'-')[1] in ('1','3','5','7','8','10','12') then concat(statistics_date,'-31')
when split(statistics_date,'-')[1] in ('4','6','9','11') then concat(statistics_date,'-30')
when cast(split(statistics_date,'-')[0] as int)%4=0 and split(statistics_date,'-')[1] in ('2') then concat(statistics_date,'-29')
when cast(split(statistics_date,'-')[0] as int)%4!=0 and split(statistics_date,'-')[1] in ('2') then concat(statistics_date,'-28')
end as new_statistics_date
1.2. date_sub(concat(substr(concat(substr(created_date, 1, 7), '-01'), 1, 7), '-01'), 1) 2.常用函数:instr; months_between; select row_number()over(partition by cash_id order by modified_date desc) as rn
from table_a;collect_set/collect_list(得到的是array<String>类型);clollect_ws可以合并collect_set(如collect_ws(',',collect_set()))
相关文章推荐
- 幸运28源码下载.NET版完整版程序大气的黄色系风格幸运28程序源码安装教程
- HDFS下载数据之源码分析-FileSystem.get(conf)_block01
- HDFS下载数据之源码分析-FileSystem.get(conf)_block02
- 城市公交数据下载(续)分析过程及源码(支持全国440个城市)
- 【分享】通用强大的主数据管理系统(最终分享版本)架构分析及源码下载
- CYQ.Data 轻量数据层之路 最后开源版本V1.5.5发布[V1.4源码对外下载] (二十三)
- nginx源码分析--数据结构 哈希 ngx_hash_t
- 基本数据类型boolean的封装类型之Boolean源码分析
- 四极管 BIN文件下载数据结构分析(二)
- Hive-数据分析和数据仓库
- Hive对Weblog数据分析,测试
- Rplidar学习(四)—— ROS下进行rplidar雷达数据采集源码分析
- SSH框架整体理解和总结(框架分析+环境搭建+实例源码下载)
- Android Camera 系统架构源码分析(4)---->Camera的数据来源及Camera的管理
- 大数据核心技术源码分析之-Avro篇-3
- SSH框架总结(框架分析+环境搭建+实例源码下载)
- solr dataimport 数据导入源码分析(五)
- solr dataimport 数据导入源码分析 补充
- Flume 1.7 源码分析(四)从Source写数据到Channel
- Spark集成Kafka源码分析——SparkStreaming从kafak中接收数据