如何避免Hadoop streaming 自动给单行数据加tab
2013-04-26 10:22
387 查看
使用hadoop streaming时,如果数据只有一列,hadoop会自动在结尾加\t。
避免这种情况有两种解决方法:
1. 使用重定向:这也有两种实现
1)一种通过hadoop dfs -put/copyFromLocal命令,把streaming的标准输出重新定向到输出路径。
如:
${HADOOP_HOME}/bin/hadoop --config ${LOCAL_HDP_CONF_PATH} dfs -copyFormLocal-
${PACK_PATH}/${mapred_task_partition}.pack
其中标红的- 表示标准输入流
${HADOOP_HOME}是hadoop系统变量,表示分布式结点上的hadoop路径。
2)另一种是把streaming的标准输出重新定向到结点的本地文件,然后把输出的本地文件传递到输出路径。
如:$HADOOP_HOME/bin/hadoop fs -conf hadoop-site.xml -put local_file ${PACK_PATH}/$mapred_task_partition.pack
2. 使用hadoop streaming的参数
mapred.textoutputformat.ignoreseparator=true
这样就不会自动加\t了
避免这种情况有两种解决方法:
1. 使用重定向:这也有两种实现
1)一种通过hadoop dfs -put/copyFromLocal命令,把streaming的标准输出重新定向到输出路径。
如:
${HADOOP_HOME}/bin/hadoop --config ${LOCAL_HDP_CONF_PATH} dfs -copyFormLocal-
${PACK_PATH}/${mapred_task_partition}.pack
其中标红的- 表示标准输入流
${HADOOP_HOME}是hadoop系统变量,表示分布式结点上的hadoop路径。
2)另一种是把streaming的标准输出重新定向到结点的本地文件,然后把输出的本地文件传递到输出路径。
如:$HADOOP_HOME/bin/hadoop fs -conf hadoop-site.xml -put local_file ${PACK_PATH}/$mapred_task_partition.pack
2. 使用hadoop streaming的参数
mapred.textoutputformat.ignoreseparator=true
这样就不会自动加\t了
相关文章推荐
- 如何避免SSH Secure Shell Client连接Linux超时,自动断开?
- Mysql中如何实现某字段数据自动加1
- 如何避免SSH Secure Shell Client连接Linux超时,自动断开?
- otter如何保持数据有序,回滚时如何丢弃避免重复执行,是否存在重复执行,重复执行是否有影响
- SqlServer中如何实现自动备份数据
- 以实例说明如何使用C#从数据库中提取数据,按要求自动生成定制的Excel表格?[转]
- hadoop streaming (shell执行 & combiner & 数据分割)
- 如何自动 Internet Explorer POST 表单数据
- javaEE+大数据-Hadoop平台如何优化
- 如何避免因jsp刷新而重复提交数据
- PostgresQL建立索引如何避免写数据锁定
- 如何避免数据潜在危险(一)
- 大数据IMF传奇行动绝密课程第118课:Spark Streaming性能优化:如何获得和持续使用足够的集群计算资源
- SQL Server 2005 如何自动备份数据库
- form表单通过GET提交的数据自动生成的链接地址如何伪静态化处理
- 具有自动截断功能的函数:对比:strcpy、strncpy、sprintf、snprintf在写入的数据大于缓冲区的情况下如何处理
- jsp或struts如何避免Form重复提交,不然数据中的插入的纪录有重复的!
- 更新数据时如何使时间自动更新
- 如何避免程序池回收导致当前访问数据重新请求或者 数据清除的情况?【提问】
- UPDATE 时, 如何避免数据定位处理被阻塞