Spark多文件输出(MultipleTextOutputFormat)
2016-11-11 10:16
375 查看
因为Spark内部写文件方式其实调用的都是Hadoop那一套东西,所以我们也可以通过Spark实现多文件输出。不过遗憾的是,Spark内部没有多文件输出的函数供大家直接调用,值得欣慰的是,我们自己实现这个功能也是很简单的。我们可以通过调用saveAsHadoopFile函数并自定义一个OutputFormat类即可,代码如下:
import org.apache.hadoop.io.NullWritable import org.apache.spark._ import org.apache.spark.SparkContext._ import org.apache.hadoop.mapred.lib.MultipleTextOutputFormat class RDDMultipleTextOutputFormat extends MultipleTextOutputFormat[Any, Any] { override def generateFileNameForKeyValue(key: Any, value: Any, name: String): String = key.asInstanceOf[String] } object Split { def main(args: Array[String]) { val conf = new SparkConf().setAppName("SplitTest") val sc = new SparkContext(conf) sc.parallelize(List(("w", "www"), ("b", "blog"), ("c", "com"), ("w", "bt"))) .map(value => (value._1, value._2 + "Test")) .partitionBy(new HashPartitioner(3)) .saveAsHadoopFile("/iteblog", classOf[String], classOf[String], classOf[RDDMultipleTextOutputFormat]) sc.stop() } }RDDMultipleTextOutputFormat类中的generateFileNameForKeyValue函数有三个参数,key和value就是我们RDD的Key和Value,而name参数是每个Reduce的编号。本例中没有使用该参数,而是直接将同一个Key的数据输出到同一个文件中。执行:
bin/spark-submit --master yarn-cluster --class Split ./iteblog-1.0-SNAPSHOT.jar然后我们可以看到在HDFS上输出的文件列表如下:
[iteblog@master ]$ bin/hadoop fs -ls /iteblog Found 4 items -rw-r--r-- 3 iteblog hadoop2 0 2015-03-09 11:26 /iteblog/_SUCCESS -rw-r--r-- 3 iteblog hadoop2 11 2015-03-09 11:26 /iteblog/b -rw-r--r-- 3 iteblog hadoop2 10 2015-03-09 11:26 /iteblog/c -rw-r--r-- 3 iteblog hadoop2 19 2015-03-09 11:26 /iteblog/w [iteblog@master ]$ bin/hadoop fs -cat /iteblog/w w btTest w wwwTest从上面的输出可以看出key为w的记录全部输出到文件名为w的文件中去了。
相关文章推荐
- Spark多文件输出(MultipleTextOutputFormat)
- hadoop MultipleTextOutputFormat 解析mahout 中kmeans算法输出到不同文件
- Hadoop多文件输出:MultipleOutputFormat和MultipleOutputs深究(一)
- [置顶] Hadoop多文件输出:MultipleOutputFormat和MultipleOutputs深究(一)
- Hadoop多文件输出:MultipleOutputFormat和MultipleOutputs深究(二)
- Hadoop多文件输出:MultipleOutputFormat和MultipleOutputs深究
- Hadoop多文件输出:MultipleOutputFormat和MultipleOutputs深究(一)
- Hadoop多文件输出:MultipleOutputFormat和MultipleOutputs深究(一)
- Hadoop多文件输出:MultipleOutputFormat和MultipleOutputs深究
- Hadoop多文件输出:MultipleOutputFormat和MultipleOutputs深究(二)
- Hadoop多文件输出:MultipleOutputFormat和MultipleOutputs深究(一)
- MultipleOutputFormat多文件输出
- MultipleOutputFormat多文件输出
- 避免reduce输出为空文件的LazyOutputFormat
- MR-2.输出格式(OutputFormat)Multiple outputs多目录输出
- 【Hadoop】利用MultipleOutputs,MultiOutputFormat实现以不同格式输出到多个文件
- Spark多文件输出(MultipleOutputFormat)
- 自定义实现InputFormat、OutputFormat、输出到多个文件目录中去、hadoop1.x api写单词计数的例子、运行时接收命令行参数,代码例子
- 如何使用h:outputText输出HTML标签
- Hadoop的MultipleOutputFormat使用