您的位置:首页 > 大数据 > Hadoop

合并 hdfs 文件

2016-01-24 12:42 429 查看

待研究,只做保存

将HDFS中不同目录下面的数据合在一起,并存放在指定的目录中,示例如:

sqoop merge –new-data /test/p1/person –onto /test/p2/person –target-dir /test/merged –jar-file /opt/data/sqoop/person/Person.jar –class-name Person –merge-key id


其中,
–class-name
所指定的 class 名是对应于 Person.jar 中的 Person 类,而 Person.jar
是通过 Codegen 生成的

--new-data <path>
Hdfs中存放数据的一个目录,该目录中的数据是希望在合并后能优先保留的,原则上一般是存放越新数据的目录就对应这个参数。
--onto <path>
Hdfs中存放数据的一个目录,该目录中的数据是希望在合并后能被更新数据替换掉的,原则上一般是存放越旧数据的目录就对应这个参数。
--merge-key <col>
合并键,一般是主键ID
--jar-file <file>
合并时引入的jar包,该jar包是通过Codegen工具生成的jar包
--class-name <class>
对应的表名或对象名,该class类是包含在jar包中的。
--target-dir <path>
合并后的数据在HDFS里的存放目录
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: