您的位置:首页 > 运维架构

sqoop 导入导出数据倾斜问题优化

2017-10-26 13:53 337 查看
导入:

PG => hive   : 

sqoop import  --connect jdbc:postgresql://host:5432/test --username test --password test --table jxl_main_service --hive-import   --hive-table  jxl_tmp.jxl_main_service --split-by report_id  -m 18    

由于数据分布不均匀,导致少数MapJob 比较缓慢,使用--split-by 按照字段进行切分,然后-m 提高并行的。

导出:

hive=> PG :

 

sqoop export -Dorg.apache.sqoop.export.text.dump_data_on_error=true  --connect jdbc:postgresql://ip:5432/db  --update-mode allowinsert  --username db --password 'db'  --table comm_identity_location  --fields-terminated-by '\001'  --export-dir 'hdfs://nm/ods/20170829/tmp/t_iden_procity'
 --input-null-string '\\N' --input-null-non-string '\\N' --input-fields-terminated-by '\001'

 ::导出:
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: