hive读取与flume写入hdfs文件冲突
2017-11-23 17:19
1346 查看
可以阅读http://www.aboutyun.com/thread-11252-1-1.html参考
前提:用flume采集数据,sink配置hdfs输出,然后用hive时时查询计算,定期转存数据到历史表。
1、问题一:hive查询时与flume滚动文件冲突
hive查询时包含flume的临时文件(后缀tmp文件),当flume把临时文件滚动成正式文件时,会删掉临时文件,生成正式文件,此时hive查询处理时会报错:file not fond
解决思路:由于hive查询时不会查询以.和_开头的hdfs文件,所以把flume的临时文件生成规则改成前缀是.或_的格式。
1、问题二:hive转存到历史表时使用inster into overwrite语句,可能会把临时文件给删除掉
转存时hive操作把昨日之前数据转存到历史表,并从时时表数据中删除昨日之前数据
解决思路:验证后补充
前提:用flume采集数据,sink配置hdfs输出,然后用hive时时查询计算,定期转存数据到历史表。
1、问题一:hive查询时与flume滚动文件冲突
hive查询时包含flume的临时文件(后缀tmp文件),当flume把临时文件滚动成正式文件时,会删掉临时文件,生成正式文件,此时hive查询处理时会报错:file not fond
解决思路:由于hive查询时不会查询以.和_开头的hdfs文件,所以把flume的临时文件生成规则改成前缀是.或_的格式。
1、问题二:hive转存到历史表时使用inster into overwrite语句,可能会把临时文件给删除掉
转存时hive操作把昨日之前数据转存到历史表,并从时时表数据中删除昨日之前数据
解决思路:验证后补充
相关文章推荐
- Hive读取Flume正在写入的HDFS
- Hadoop学习笔记——1.java读取Oracle中表的数据,创建新文件写入Hdfs
- Hadoop实验:按规则读取HDFS文件系统写入到本地
- flume 抽取图片文件数据写入到HDFS
- Hive外部分区表加载flume打到hdfs上文件,读不到.tmp文件
- HDFS如何读取文件以及写入文件-加米谷大数据
- Hive外部分区表加载flume打到hdfs上文件,读不到.tmp文件
- spark 批量读取HDFS(hive分区)parquet文件
- HDFS 读取、写入、遍历目录获取文件全路径
- Hadoop实验:按规则读取本地文件写入HDFS文件系统
- hive从hdfs文件系统里面读取数据
- 模拟使用Flume监听日志变化,并且把增量的日志文件写入到hdfs中
- spark读取hdfs上的文件和写入数据到hdfs上面
- Hive外部分区表加载flume打到hdfs上文件,读不到.tmp文件
- 读取HDFS文件中的数据写入到HBase的表中
- HDFS读取实时写入的文件大小
- HDFS的文件读取与写入流程
- HDFS如何读取文件以及写入文件-加米谷大数据
- HDFS文件写入与读取
- flume从本地读取数据录入到hdfs文件系统