胖子哥的大数据之路(10)- 基于Hive构建数据仓库实例
2014-04-23 18:47
766 查看
一、引言
基于Hive+Hadoop模式构建数据仓库,是大数据时代的一个不错的选择,本文以郑商所每日交易行情数据为案例,探讨数据Hive数据导入的操作实例。
二、源数据-每日行情数据
三、建表脚本
四、数据导入1
五、数据导入2
六、执行结果
七、问题聚焦
(1)Hive分区设置的原则和技巧?
(2)Hive分区内行记录完全一致问题如何解决?
(3)Hive中文乱码问题如何解决?
基于Hive+Hadoop模式构建数据仓库,是大数据时代的一个不错的选择,本文以郑商所每日交易行情数据为案例,探讨数据Hive数据导入的操作实例。
二、源数据-每日行情数据
三、建表脚本
CREATE TABLE IF NOT EXISTS t_day_detail( id STRING, lastday FLOAT, today FLOAT, highest FLOAT, lowest FLOAT, today_end FLOAT, today_jisuan FLOAT, updown1 FLOAT, updown2 FLOAT, sum int, empity int, rise int, turnover FLOAT, delivery FLOAT ) PARTITIONED BY (dt STRING,product STRING);
四、数据导入1
load data local inpath '/home/hadoop/source/in' overwrite into table t_day_detail partition(dt='2014-04-22',product='1');
五、数据导入2
load data local inpath '/home/hadoop/source/in' overwrite into table t_day_detail partition(dt='2014-04-23',product='1');
六、执行结果
hive> select * from t_day_detail > ; OK CF405,17365.0,17390.0,17390.0,17360.0,17380.0,17380.0,15,15,72.0,1090.0,-36,625.66,0.0 NULL NULL NULL NULL NULLNULL NULL NULL NULL NULL NULL NULL NULL 2014-04-22 1 CF407,17275.0,17370.0,17415.0,17320.0,17320.0,17365.0,45,90,22.0,52.0,2,191.01,0.0 NULL NULL NULL NULL NULLNULL NULL NULL NULL NULL NULL NULL NULL 2014-04-22 1 CF409,17450.0,17380.0,17395.0,17310.0,17320.0,17330.0,-130,-120,7860.0,34584.0,-940,68099.08,0.0 NULL NULL NULLNULL NULL NULL NULL NULL NULL NULL NULL NULL NULL 2014-04-22 1 CF411,16370.0,16315.0,16350.0,16220.0,16255.0,16240.0,-115,-130,984.0,17436.0,-380,7990.01,0.0 NULL NULL NULL NULLNULL NULL NULL NULL NULL NULL NULL NULL NULL 2014-04-22 1 CF501,16130.0,16030.0,16085.0,15920.0,15995.0,15970.0,-135,-160,26210.0,115120.0,-1906,209311.56,0.0 NULL NULL NULLNULL NULL NULL NULL NULL NULL NULL NULL NULL NULL 2014-04-22 1 CF503,16195.0,16030.0,16065.0,16000.0,16065.0,16045.0,-130,-150,60.0,526.0,12,481.42,0.0 NULL NULL NULL NULLNULL NULL NULL NULL NULL NULL NULL NULL NULL 2014-04-22 1 CF405,17365.0,17390.0,17390.0,17360.0,17380.0,17380.0,15,15,72.0,1090.0,-36,625.66,0.0 NULL NULL NULL NULL NULLNULL NULL NULL NULL NULL NULL NULL NULL 2014-04-23 1 CF407,17275.0,17370.0,17415.0,17320.0,17320.0,17365.0,45,90,22.0,52.0,2,191.01,0.0 NULL NULL NULL NULL NULLNULL NULL NULL NULL NULL NULL NULL NULL 2014-04-23 1 CF409,17450.0,17380.0,17395.0,17310.0,17320.0,17330.0,-130,-120,7860.0,34584.0,-940,68099.08,0.0 NULL NULL NULLNULL NULL NULL NULL NULL NULL NULL NULL NULL NULL 2014-04-23 1 CF411,16370.0,16315.0,16350.0,16220.0,16255.0,16240.0,-115,-130,984.0,17436.0,-380,7990.01,0.0 NULL NULL NULL NULLNULL NULL NULL NULL NULL NULL NULL NULL NULL 2014-04-23 1 CF501,16130.0,16030.0,16085.0,15920.0,15995.0,15970.0,-135,-160,26210.0,115120.0,-1906,209311.56,0.0 NULL NULL NULLNULL NULL NULL NULL NULL NULL NULL NULL NULL NULL 2014-04-23 1 CF503,16195.0,16030.0,16065.0,16000.0,16065.0,16045.0,-130,-150,60.0,526.0,12,481.42,0.0 NULL NULL NULL NULLNULL NULL NULL NULL NULL NULL NULL NULL NULL 2014-04-23 1 Time taken: 0.391 seconds hive>
七、问题聚焦
(1)Hive分区设置的原则和技巧?
(2)Hive分区内行记录完全一致问题如何解决?
(3)Hive中文乱码问题如何解决?
相关文章推荐
- Hive -- 基于Hadoop的数据仓库分析工具
- 胖子哥的大数据之路(一)-数据仓库也需要大数据
- Hive和SparkSQL: 基于 Hadoop 的数据仓库工具
- Hadoop之数据仓库构建-Hive
- 基于Hadoop的数据仓库Hive 学习指南
- 胖子哥的大数据之路(三)- 数据仓库的需求分析该怎么做
- Hadoop学习笔记(10)-简述分布式数据仓库Hive原理
- 胖子哥的大数据之路(三)- 大数据仓库的需求分析该怎么做
- hadoop和hive的实践应用(二)——基于Hadoop的数据仓库工具hive搭建
- 胖子哥的大数据之路(9)-数据仓库金融行业数据逻辑模型FS-LDM
- 胖子哥的大数据之路(三)- 大数据仓库的需求分析该怎么做
- 计算机视觉caffe之路第三篇:CIFAR-10数据集训练及预测实例
- 胖子哥的大数据之路(9)- 数据仓库金融行业数据逻辑模型FS-LDM
- 胖子哥的大数据之路(8)- 数据仓库命名规范
- 14.基于Hadoop的数据仓库Hive第1部分
- 基于Hadoop的数据仓库Hive 学习指南
- 基于mysql的Hive数据仓库的搭建
- 胖子哥的大数据之路(三)- 大数据仓库的需求分析该怎么做
- Hadoop之数据仓库构建-Hive