【云星数据---Apache Flink实战系列(精品版)】:Apache Flink高级特性与高级应用007-Slot和Parallelism的深入分析002
2017-11-18 17:12
906 查看
4000
三、并行度(parallelism)和任务链(Task Chains)
1.并行度
1.flink架构是分布式的,也就决定了程序(Progrram)和数据流(Dataflows)也是分别式的。 2.Dataflow也是一个分布式概念,它的Stream被查分成Stream-Partition,Operator被查分成subtask. Stream-Partition本质就是data-partition,subtask本质是thread. 3.这些subtask(thread)相互独立,被分配到不同的机器上并行执行,甚至是不同的container中并行执行。 一个Operator被查分成subtask的数量就是并行度(parallelism),它决定这程序并发执行的线程个数。 设置合适的并行度,能够使任务在不同的机器上并行执行,能提高程序的运行效率。 4.Stream-Partition就是data-partition,subtask就是thread,也就是说在每一个数据分片上运行一个线程 这些独立的线程能够并行的处理数据。所以,Stream的分区数和Operator的并行度是一致的。只不过Stream-Partition 是描述数据被分片的情况,Operator-subtask是描述线程的并行情况。
2.数据传输模式
1.Stream在transform过程中有两种传输模式,Forwarding模式和Redistributing模式。 2.Forwarding模式是指Stream-Partition之间一对一(One-to-One)传输。子stream保留父stream的分区个数和元素的顺序。 Source向map传输stream-partition就在这种情况,分区个数,元素顺序都能保持不变,这里可以进行优化。可以把source和 map做成一个TaskChain,用一个thread去执行一个source-subtask和map-subtask.原本4个thread处理的任务, 优化后2个thread就能完成了,因为减少了不必要的thread开销,效率还能提升。 3.Redistributing模式是指Stream-Partition之间是多对多的传输。stream转化过程中partition之间进行了shuffer操作, 这会把分区个数和元素顺序全部打乱,可能会牵涉到数据的夸节点传输。因为数据可能夸节点传输,无法确定应该在哪个节点上启动 一个thread去处理在两个节点上的数据,因此无法将Redistributing模式下的task做成一个task-chain。 Map-KeyBy/Window和KeyBy/Window-sink直接就是Redistributing模式。
3.任务以及操作链(Task & Operator Chains)
1.为了减少不必要的thread通信和缓冲等开销,可以将Forwarding模式下的多个subtask做成一个subtask-chain 2.将一个thread对应一个subtask优化为一个thread对应一个subtask-chain中的多个subtask。 可提高总体吞吐量(throughput)并降低延迟(latency)。 3.如果说stream-partition对数据分区是为了通过提高并发度,来提高程序的运行效率。那么subtask-chain就是在程序的运行 过程中合并不必要的thread来提高程序的运行效率。
原来需要7个thread的任务在进行chain优化后,5个thread就能更好的完成。
相关文章推荐
- 【云星数据---Apache Flink实战系列(精品版)】:Apache Flink高级特性与高级应用012-Slot和Parallelism的深入分析007
- 【云星数据---Apache Flink实战系列(精品版)】:Apache Flink高级特性与高级应用008-Slot和Parallelism的深入分析003
- 【云星数据---Apache Flink实战系列(精品版)】:Apache Flink高级特性与高级应用009-Slot和Parallelism的深入分析004
- 【云星数据---Apache Flink实战系列(精品版)】:Apache Flink高级特性与高级应用010-Slot和Parallelism的深入分析005
- 【云星数据---Apache Flink实战系列(精品版)】:Apache Flink高级特性与高级应用006-Slot和Parallelism的深入分析001
- 【云星数据---Apache Flink实战系列(精品版)】:Apache Flink高级特性与高级应用011-Slot和Parallelism的深入分析006
- 【云星数据---Apache Flink实战系列(精品版)】:Apache Flink高级特性与高级应用018-Flink中参数传递和容错设定002
- 【云星数据---Apache Flink实战系列(精品版)】:Apache Flink高级特性与高级应用002-Flink的内存管理002
- 【云星数据---Apache Flink实战系列(精品版)】:Apache Flink高级特性与高级应用022-Flink中OutFormat设置(Scala版)002
- 【云星数据---Apache Flink实战系列(精品版)】:Apache Flink高级特性与高级应用016-Flink中广播变量和分布式缓存002
- 【云星数据---Apache Flink实战系列(精品版)】:Apache Flink高级特性与高级应用005-Flink的作业调度情况002
- 【云星数据---Apache Flink实战系列(精品版)】:Apache Flink高级特性与高级应用013-Flink在批处理中常见的sink和source001
- 【云星数据---Apache Flink实战系列(精品版)】:Apache Flink高级特性与高级应用019-Flink中参数传递和容错设定003
- 【云星数据---Apache Flink实战系列(精品版)】:Apache Flink高级特性与高级应用015-Flink中广播变量和分布式缓存001
- 【云星数据---Apache Flink实战系列(精品版)】:Apache Flink高级特性与高级应用020-Flink中参数传递和容错设定004
- 【云星数据---Apache Flink实战系列(精品版)】:Apache Flink高级特性与高级应用003-Flink的内存管理003
- 【云星数据---Apache Flink实战系列(精品版)】:Apache Flink高级特性与高级应用023-Flink中OutFormat设置(Scala版)003
- 【云星数据---Apache Flink实战系列(精品版)】:Apache Flink高级特性与高级应用004-Flink的作业调度情况001
- 【云星数据---Apache Flink实战系列(精品版)】:Apache Flink实战基础002--flink特性:流处理特性介绍
- 【云星数据---Apache Flink实战系列(精品版)】:Apache Flink高级特性与高级应用001-Flink的内存管理001