太多的.hive-stagingxxx文件的处理
2016-07-15 16:34
274 查看
跑一段时间的HIVE程序之后,偶尔打开对应的HDFS文件夹,才发现在其目录下,产生了太多的.hive-staging_hive_date-time_ XXX文件。
仔细一看,才发现几乎每个HIVE的查询语句都会产生这样的一个文件,这种文件会随着时间积累不断增加。
这也是前段时间造成HDFS目录到项的原因之一。
查了网上的相关说明,也没有比较好的说明,可能这是基于任何一个MAP REDUCE程序都需要报告结果一样的原因。而这个文件本身是没有什么意义的。
于是采取步骤如下:
1,在hive-site.xml中,添加对其文件夹目录的配置
2、写个.sh文件,定期对文件夹进行清理。
仔细一看,才发现几乎每个HIVE的查询语句都会产生这样的一个文件,这种文件会随着时间积累不断增加。
这也是前段时间造成HDFS目录到项的原因之一。
查了网上的相关说明,也没有比较好的说明,可能这是基于任何一个MAP REDUCE程序都需要报告结果一样的原因。而这个文件本身是没有什么意义的。
于是采取步骤如下:
1,在hive-site.xml中,添加对其文件夹目录的配置
<property> <name>hive.exec.stagingdir</name> <value>${hive.exec.scratchdir}/${user.name}/.staging</value> <description> In Hive >= 0.14, set to ${hive.exec.scratchdir}/${user.name}/.staging In Hive < 0.14, set to ${hive.exec.scratchdir}/.staging You may need to manually create and/or set appropriate permissions on the parent dirs ahead of time. </description> </property>
2、写个.sh文件,定期对文件夹进行清理。
相关文章推荐
- Spark RDD API详解(一) Map和Reduce
- 使用spark和spark mllib进行股票预测
- 分享Hive的一份胶片资料
- Spark随谈——开发指南(译)
- Spark,一种快速数据分析替代方案
- Hadoop生态上几个技术的关系与区别:hive、pig、hbase 关系与区别
- eclipse 开发 spark Streaming wordCount
- Understanding Spark Caching
- ClassNotFoundException:scala.PreDef$
- Windows 下Spark 快速搭建Spark源码阅读环境
- Spark中将对象序列化存储到hdfs
- 使用java代码提交Spark的hive sql任务,run as java application
- Spark机器学习(一) -- Machine Learning Library (MLlib)
- Spark机器学习(二) 局部向量 Local-- Data Types - MLlib
- Spark机器学习(三) Labeled point-- Data Types
- Spark初探
- Spark Streaming初探
- Spark本地开发环境搭建
- 搭建hadoop/spark集群环境
- 将Hive的默认数据库Derby改为Postgresql