您的位置：首页 > 运维架构 > Apache

【云星数据---Apache Flink实战系列(精品版)】：Apache Flink高级特性与高级应用023-Flink中OutFormat设置(Scala版)003

2017-11-20 11:08 931 查看

三、MultipleTextOutputFormat设置三

使用DataSet的key做为文件名称，文件内容以键值对的形式存在，将DataSet输出到多个文件中。

1.自定义MultipleTextOutputFormat

package code.book.batch.outputformat.scala

import org.apache.hadoop.mapred.lib.MultipleTextOutputFormat

/**
* Created by liguohua on 11/12/2016.
*/
class MultipleTextOutputFormat003[K, V] extends M
cafd
ultipleTextOutputFormat[K, V] {
/**
* 此方法用于产生文件名称,这里将name_key直接作为文件名称
*
* @param key   DataSet的key
* @param value DataSet的value
* @param name  DataSet的partition的id(从1开始)
* @return file的name
*/
override def generateFileNameForKeyValue(key: K, value: V, name: String): String =
( name + "_" +key).asInstanceOf[String]

/**
* 此方法用于产生文件内容中的key，这里文件内容中的key是就是DataSet的key
*
* @param key   DataSet的key
* @param value DataSet的value
* @return file的key
*/
override def generateActualKey(key: K, value: V): K = key.asInstanceOf[K]

/**
* 此方法用于产生文件内容中的value，这里文件内容中的value是就是DataSet的value
*
* @param key   DataSet的key
* @param value DataSet的value
* @return file的value
*/
override def generateActualValue(key: K, value: V): V = value.asInstanceOf[V]
}

2.自定义MultipleTextOutputFormat测试入口

package code.book.batch.outputformat.scala

import org.apache.flink.api.scala.hadoop.mapred.HadoopOutputFormat
import org.apache.flink.api.scala.{ExecutionEnvironment, _}
import org.apache.hadoop.fs.Path
import org.apache.hadoop.mapred.{FileOutputFormat, JobConf}

object MultipleTextOutputFormat003Test {
def main(args: Array[String]) {

//1.创建批处理环境
val env = ExecutionEnvironment.getExecutionEnvironment

//2.准备数据
val data1 = env.fromCollection(List(("zhangsan", "120"), ("lisi", "123"),
("zhangsan", "309"), ("lisi", "207"), ("wangwu", "315")))
data1.setParallelism(4)

//3.多路径输出的HadoopOutputFormat
val multipleTextOutputFormat = new MultipleTextOutputFormat003[String, String]()
val jobConf = new JobConf()
val filePath = "hdfs://qingcheng12:9000/output/flink/MultipleTextOutputFormat/scala/003"
FileOutputFormat.setOutputPath(jobConf, new Path(filePath))
val format = new HadoopOutputFormat[String, String](multipleTextOutputFormat, jobConf)

//4.将数据输出出去
data1.output(format)

//5.触发批处理执行
env.execute()
}
}

3.自定义MultipleTextOutputFormat执行效果

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航