您的位置：首页 > 运维架构

sqoop 导入导出数据倾斜问题优化

2017-10-26 13:53 337 查看

导入：

PG => hive :

sqoop import --connect jdbc:postgresql://host:5432/test --username test --password test --table jxl_main_service --hive-import --hive-table jxl_tmp.jxl_main_service --split-by report_id -m 18

由于数据分布不均匀，导致少数MapJob 比较缓慢，使用--split-by 按照字段进行切分，然后-m 提高并行的。

导出：

hive=> PG :

sqoop export -Dorg.apache.sqoop.export.text.dump_data_on_error=true --connect jdbc:postgresql://ip:5432/db --update-mode allowinsert --username db --password 'db' --table comm_identity_location --fields-terminated-by '\001' --export-dir 'hdfs://nm/ods/20170829/tmp/t_iden_procity'
--input-null-string '\\N' --input-null-non-string '\\N' --input-fields-terminated-by '\001'

::导出：

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航