您的位置：首页 > 其它

Flink on YARN快速入门指南

2017-08-26 10:32 274 查看

　　Apache Flink是一个高效、分布式、基于Java和Scala(主要是由Java实现)实现的通用大数据分析引擎，它具有分布式
MapReduce一类平台的高效性、灵活性和扩展性以及并行数据库查询优化方案，它支持批量和基于流的数据分析，且提供了基于Java和Scala的API。

　　从Flink官方文档可以知道，目前Flink支持三大部署模式：Local、Cluster以及Cloud，如下图所示：

　　本文将简单地介绍如何部署Apache Flink On YARN(也就是如何在YARN上运行Flink作业)，本文是基于Apache Flink 1.0.0以及Hadoop 2.2.0。

　　在YARN上启动一个Flink主要有两种方式：(1)、启动一个YARN session(Start a long-running Flink cluster on YARN)；(2)、直接在YARN上提交运行Flink作业(Run a Flink job on YARN)。下面将分别进行介绍。

Flink YARN Session

　　这种模式下会启动yarn session，并且会启动Flink的两个必要服务：JobManager和TaskManagers，然后你可以向集群提交作业。同一个Session中可以提交多个Flink作业。需要注意的是，这种模式下Hadoop的版本至少是2.2，而且必须安装了HDFS（因为启动YARN session的时候会向HDFS上提交相关的jar文件和配置文件）。我们可以通过

./bin/yarn-session.sh

脚本启动YARN
Session，由于我们第一次使用这个脚本，我们先看看这个脚本支持哪些参数：

各个参数的含义里面已经介绍的很详细了。在启动的是可以指定TaskManager的个数以及内存(默认是1G)，也可以指定JobManager的内存，但是JobManager的个数只能是一个。好了，我们开启动一个YARN session吧：

上面命令启动了4个TaskManager，每个TaskManager内存为8G且占用了8个核(是每个TaskManager，默认是1个核)。在启动YARN session的时候会加载

conf/flink-config.yaml

配置文件，我们可以根据自己的需求去修改里面的相关参数（关于里面的参数含义请参见Flink官方文档介绍吧）。一切顺利的话，我们可以在

https://www.iteblog.com:9981/proxy/application_1453101066555_2766724/#/overview

上看到类似于下面的页面：

启动了YARN session之后我们如何运行作业呢？很简单，我们可以使用

./bin/flink

脚本提交作业，同样我们来看看这个脚本支持哪些参数：

我们可以使用run选项运行Flink作业。这个脚本可以自动获取到YARN session的地址，所以我们可以不指定--jobmanager参数。我们以Flink自带的WordCount程序为例进行介绍，先将测试文件上传到HDFS上：

然后将这个文件作为输入并运行WordCount程序：

一切顺利的话，可以看到在终端会显示出计算的结果：

如果我们不想将结果输出在终端，而是保存在文件中，可以使用--output参数指定保存结果的地方：

然后我们可以到hdfs:///user/iteblog/result.txt文件里面查看刚刚运行的结果。

　　需要注意的是：1、上面的

--input

和

--output

参数并不是Flink内部的参数，而是WordCount程序中定义的；

　　2、指定路径的时候一定记得需要加上模式，比如上面的

hdfs://

，否者程序会在本地寻找文件。

Run a single Flink job on YARN

　　上面的YARN session是在Hadoop YARN环境下启动一个Flink cluster集群，里面的资源是可以共享给其他的Flink作业。我们还可以在YARN上启动一个Flink作业。这里我们还是使用

./bin/flink

，但是不需要事先启动YARN
session：

上面的命令同样会启动一个类似于YARN session启动的页面。其中的

-yn

是指TaskManager的个数，必须指定。

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航