合并 hdfs 文件
2016-01-24 12:42
429 查看
待研究,只做保存
将HDFS中不同目录下面的数据合在一起,并存放在指定的目录中,示例如:
其中,
是通过 Codegen 生成的
待研究,只做保存
将HDFS中不同目录下面的数据合在一起,并存放在指定的目录中,示例如:
sqoop merge –new-data /test/p1/person –onto /test/p2/person –target-dir /test/merged –jar-file /opt/data/sqoop/person/Person.jar –class-name Person –merge-key id
其中,
–class-name所指定的 class 名是对应于 Person.jar 中的 Person 类,而 Person.jar
是通过 Codegen 生成的
--new-data <path> | Hdfs中存放数据的一个目录,该目录中的数据是希望在合并后能优先保留的,原则上一般是存放越新数据的目录就对应这个参数。 |
--onto <path> | Hdfs中存放数据的一个目录,该目录中的数据是希望在合并后能被更新数据替换掉的,原则上一般是存放越旧数据的目录就对应这个参数。 |
--merge-key <col> | 合并键,一般是主键ID |
--jar-file <file> | 合并时引入的jar包,该jar包是通过Codegen工具生成的jar包 |
--class-name <class> | 对应的表名或对象名,该class类是包含在jar包中的。 |
--target-dir <path> | 合并后的数据在HDFS里的存放目录 |
相关文章推荐
- 合并 hdfs 文件
- Flume(4)实用环境搭建:source(spooldir)+channel(file)+sink(hdfs)方式
- 【2-6】HDFS读取数据的过程
- flume hdfs sink gzip 压缩的问题
- HBase 在HDFS 上的目录树
- flume-ng+Kafka+Storm+HDFS 实时系统组合
- 查看HBase表在HDFS中的文件结构
- HDFS 设计目标
- (七)、HDFS 剖析
- (五)、HDFS 简介
- HDFS为分布式搭建
- HDFS之Qurom Journal Manager(QJM)实现机制分析
- 达观数据文辉:Hadoop和Hive使用经验
- solr hdfs write.lock
- Kafka+Storm+HDFS整合实践
- HDFS的平衡
- HDFS的一致性
- libhdfs 报错和解决方法
- 使用QJM部署HDFS HA集群
- .gz文件上载到hdfs中