您的位置:首页 > 其它

storm中worker、executor与task配置

2018-04-01 21:28 330 查看

storm中与并行有关的概念有三个,配置并行度时优先考虑顺序为:worker > executor > task

概念理解:

(1)worker是对应独立的JVM进程,一个storm集群默认配置的worker就是default.yaml或者storm.yaml中的supervisor.slots.port。可以看做一个worker就对应一台机器上配置的slot(或者说是slot对应的port),一台物理机器就是一个supervisor(worker)。一个worker进程只为一个topology服务,运行一个topology的子集。

提交topology之后,如果集群有空闲的worker就可以执行,如果没有空闲的worker,就需要等待其他topology释放worker后才可以运行。

实际开发中,先要根据数据量和集群规模确定大致的worker个数。

(2)executor是每个jvm进程下的线程,每个executor只运行一个component的一个或者多个实例,也就是运行一个同一个spout或者bolt的一个或者多个实例。默认一个executor运行一个task实例。

(3)task是每个spout或者bolt的执行单元。在线程运行期间,executor调用task的nextTuple或者exectute函数。

设置方法:

(1)topology级别的设置就是设置worker进程的个数,Config.setNumWorkers(10),设置topology使用10个worker。默认使用1个。

(2)executor个数在topology创建时使用,builder.setBolt("wordcount", new PvBolt, 10),之后若不设置每个executor上的task个数,默认就是一个executor运行一个task,也就是task的个数和executor个数相等。(多少个task就是产生多少个bolt的实例对象)

(3)task个数的设置就是设置每个executor启动几个task实例,通过setNumTasks()来设置,如builder.setBolt("wordsplit", new SplitBolt, 5).setNumTasks(10),这里设置executor个数为5,task实例数为10,5个线程调度10个task实例。

在topology启动运行后,task个数不能改变,但可以用rebalance命令改变exectutor的个数动态调整并行度。

 

内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: