大数据Spark “蘑菇云”行动第86课:Hive分区表剖析与代码实战
2016-11-26 21:32
676 查看
大数据Spark “蘑菇云”行动第86课:Hive分区表剖析与代码实战
HIVE的分区类似
如windows 的磁盘分区 C 、D 、E 提高了查询速度。找文件不必每次从C盘查询。D、E不同盘符的查找文件。
hive只加载数据,hadoop 和spark 谁更快?
只load文件,hadoop比spark更快,hadoop load文件时只map过程。
Hive的最佳实践1:采用partitioned分区表+Parquet文件存储的方式!!!
Hive的最佳实践2:一般情况下分区都是按照时间进行的
create external table demo_xxx(userid INT, name STRING, address STRING)
comment 'demo' PARTITIONED BY (txdate STRING, txhour STRING)
ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t' LINES TERMINATED BY '\n' stored as parquet;
create external table person_partitioned(userid INT, name STRING, address STRING)
comment 'demo' PARTITIONED BY (date STRING, hour STRING)
ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t' LINES TERMINATED BY '\n' stored as parquet;
例如 alter table partition_test add partition (stat_date='20110728',province='zhejiang');这个语句是在已经具有的表Table上添加分区字段;
alter table partiton_test DROP
alter table demo_xxx add if not exists partition (txdate='20160730',txhour='0730') location '/data/external/';
alter table partition_test add partition (stat_date='20110728',province='zhejiang') location ....
例如 alter table partition_test add partition (stat_date='20110728',province='zhejiang');这个语句是在已经具有的f分区表Table上添加分区字段数据;
我们创建表的时候说是parquet的格式,现在直接使用外部表location的方式就要求这个location目录下的表必须是parquet格式
create external table student_partitioned(userid INT, name STRING, address STRING)
comment 'demo' PARTITIONED BY (pdate STRING, phour STRING)
ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t' LINES TERMINATED BY '\n' stored as textfile;
HIVE的分区类似
如windows 的磁盘分区 C 、D 、E 提高了查询速度。找文件不必每次从C盘查询。D、E不同盘符的查找文件。
hive只加载数据,hadoop 和spark 谁更快?
只load文件,hadoop比spark更快,hadoop load文件时只map过程。
Hive的最佳实践1:采用partitioned分区表+Parquet文件存储的方式!!!
Hive的最佳实践2:一般情况下分区都是按照时间进行的
create external table demo_xxx(userid INT, name STRING, address STRING)
comment 'demo' PARTITIONED BY (txdate STRING, txhour STRING)
ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t' LINES TERMINATED BY '\n' stored as parquet;
create external table person_partitioned(userid INT, name STRING, address STRING)
comment 'demo' PARTITIONED BY (date STRING, hour STRING)
ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t' LINES TERMINATED BY '\n' stored as parquet;
例如 alter table partition_test add partition (stat_date='20110728',province='zhejiang');这个语句是在已经具有的表Table上添加分区字段;
alter table partiton_test DROP
alter table demo_xxx add if not exists partition (txdate='20160730',txhour='0730') location '/data/external/';
alter table partition_test add partition (stat_date='20110728',province='zhejiang') location ....
例如 alter table partition_test add partition (stat_date='20110728',province='zhejiang');这个语句是在已经具有的f分区表Table上添加分区字段数据;
我们创建表的时候说是parquet的格式,现在直接使用外部表location的方式就要求这个location目录下的表必须是parquet格式
create external table student_partitioned(userid INT, name STRING, address STRING)
comment 'demo' PARTITIONED BY (pdate STRING, phour STRING)
ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t' LINES TERMINATED BY '\n' stored as textfile;
相关文章推荐
- 大数据Spark “蘑菇云”行动第79课:Spark GraphX 代码实战及源码剖析
- 大数据Spark “蘑菇云”行动补充内容第70课: Spark SQL代码实战和性能调优 4个spark sql调优技巧有用!!!!
- 大数据Spark “蘑菇云”行动第102课:Hive性能调优之底层Hadoop引擎调优剖析和最佳实践
- 大数据Spark “蘑菇云”行动第84课:Hive配置和实战第一课
- 大数据Spark “蘑菇云”行动第83课:Hive架构剖析与初体验
- 大数据Spark “蘑菇云”行动第88课:Hive脚本、常用命令、having查询及变种实战
- 大数据Spark “蘑菇云”行动第95课:Hive安全解析和实战等
- 大数据Spark “蘑菇云”行动第106课:Hive源码大师之路第四步:Hive中GroupBy和各种类型Join源码剖析
- 大数据Spark “蘑菇云”行动第91课:Hive中Index和Bucket案例实战及存储类型rcfile实战详解
- 大数据Spark “蘑菇云”行动第65课: 页面跳转功能代码骨架分析与实战 放scala代码
- 大数据Spark “蘑菇云”行动第92课:HIVE中的array、map、struct及自定义数据类型案例实战
- 大数据Spark “蘑菇云”行动第89课:Hive中GroupBy优化、Join的多种类型实战及性能优化、OrderBy和SortBy、UnionAll等实战和优化
- 大数据Spark “蘑菇云”行动第87课:Hive嵌套查询与Case、When、Then案例实战
- 大数据Spark “蘑菇云”行动第90课:Hive中Join电影店铺系统案例和性能优化、Index和Bucket案例实战
- 大数据Spark “蘑菇云”行动前传第13课Scala模式匹配实战和Spark源码鉴赏
- 大数据Spark “蘑菇云”行动前传第22课:Scala集合和高级函数操作实战及Spark源码鉴赏.
- 大数据IMF传奇行动绝密课程第62课:Spark SQL下的Parquet使用最佳实践和代码实战
- 大数据Spark“蘑菇云”行动-第10课:Scala继承彻底实战和Spark源码鉴赏
- 大数据Spark “蘑菇云”行动第41课:Spark编程实战之join、cogroup、cartesian深度解密
- 大数据Spark “蘑菇云”行动前传第14课Scala集合上的函数式编程实战及Spark源码鉴赏