您的位置:首页 > 运维架构

如何避免Hadoop streaming 自动给单行数据加tab

2013-04-26 10:22 387 查看
使用hadoop streaming时,如果数据只有一列,hadoop会自动在结尾加\t。

避免这种情况有两种解决方法:

1. 使用重定向:这也有两种实现

1)一种通过hadoop dfs -put/copyFromLocal命令,把streaming的标准输出重新定向到输出路径。

如:

${HADOOP_HOME}/bin/hadoop --config ${LOCAL_HDP_CONF_PATH} dfs -copyFormLocal-
${PACK_PATH}/${mapred_task_partition}.pack
其中标红的- 表示标准输入流

${HADOOP_HOME}是hadoop系统变量,表示分布式结点上的hadoop路径。

2)另一种是把streaming的标准输出重新定向到结点的本地文件,然后把输出的本地文件传递到输出路径。

如:$HADOOP_HOME/bin/hadoop fs -conf hadoop-site.xml -put local_file ${PACK_PATH}/$mapred_task_partition.pack

2.  使用hadoop streaming的参数

mapred.textoutputformat.ignoreseparator=true

这样就不会自动加\t了
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: