KETTLE集群的配置及调用
2017-06-08 14:48
99 查看
KETTLE版本
KETTLE集群配置
Kettle国外社区:http://forums.pentaho.com/forumdisplay.php?135-Pentaho-Data-Integration-Kettle
官网中并没有详细描述Kettle商业版的功能,商业版的URL是:http://www.pentaho.com/product/version-7-1-update#microsoft-azure-hdinsight(如果我没看错的话,应该是)
,官网的主要描述都是指可视化的优化和0代码的操作还有对于大数据更高更多的支持。目前可以申请7.1版本的30天免费试用版本。
Kettle集群:
是由一个主carte服务器和多个从carte服务器组成的,类似于master-slave结构,不同的是’master’处理具体任务,只负责任务的分发和收集运行结果。
Master carte结点收到请求后,把任务分成多个部分交给slave carte执行,slave执行完毕后把结果交给mater 进行汇总,再由mster返回结果。
集群的优点:
多服务器运行,加快处理速度,对于大数据量的操作更明显
防单点失败,一台服务器故障后其它服务器还可以运行
集群的缺点:
采用主从结构,不具备自动切换主从的功能。所以一旦主节点宕机,整个系统不可用
对网络要求高,节点之间需要不断的传输数据
需要更多的服务器,而且主节点没有处理能力
适用场景
需求kettle能时刻保持正常运行的场景
大批量处理数据的场景
主要的配置文件目录为kettle的pwd目录下,里面有四个配置文件分别是子服务器的配置文件和密码文件;
Carte-config-master-8080.xml是主服务器的配置文件。编辑该文件,根据情况修改其中的name\hostname\port\master等属性。Name是服务器的名称,hostname是主机名或者IP,port是端口号,Master表明是否是主服务器。此外,加上两行:
接着启动主服务器,在kettle目录中打开cmd窗口,执行carte localhost 8080:
配置从服务器(按需求更改)
这里的materl是主服务器(我这里是本地模拟所以没有设置外部IP),到时使用的时候根据机器IP进行准确的设置。
然后启动从服务器(我设置的是8081和8082)模拟一个端口一台
在KETTLE中选择主对象树-子服务器,右键新键子服务器:
在主对象树中选择kettle集群schemas
Schema名称即集群的名称。
端口即集群对外服务的端口.
sockets缓存大小:sockets缓存
Sockets刷新时间间隔:达到多少行记录时刷新到子服务器。
Sockets数据是否压缩:如果网络状况差,则建议选择。网络良好时不用选择。
在已经写好的转换中点击集群,然后会显示:
选择然后会发现排序纪录多出”CX2”,表示有2个子服务器来执行。在一个三个子服务器的集群中,主服务器负责任务分发、结果收集,转换任务由从服务器执行,故只有两个节点执行。
然后执行该转换
在命令行中
这样就整个集群成功测试!
KETTLE集群配置
KETTLE版本
KETTLE是属于Pentaho开源商务智能软件的ETL工具方面,Pentaho是以工作流为核心的、强调面向解决方案而非工具组件的BI套件,整合了多个开源项目,目标是和商业BI相抗衡。Kettle国外社区:http://forums.pentaho.com/forumdisplay.php?135-Pentaho-Data-Integration-Kettle
官网中并没有详细描述Kettle商业版的功能,商业版的URL是:http://www.pentaho.com/product/version-7-1-update#microsoft-azure-hdinsight(如果我没看错的话,应该是)
,官网的主要描述都是指可视化的优化和0代码的操作还有对于大数据更高更多的支持。目前可以申请7.1版本的30天免费试用版本。
KETTLE集群配置
Kettle的集群原理Kettle集群:
是由一个主carte服务器和多个从carte服务器组成的,类似于master-slave结构,不同的是’master’处理具体任务,只负责任务的分发和收集运行结果。
Master carte结点收到请求后,把任务分成多个部分交给slave carte执行,slave执行完毕后把结果交给mater 进行汇总,再由mster返回结果。
集群的优点:
多服务器运行,加快处理速度,对于大数据量的操作更明显
防单点失败,一台服务器故障后其它服务器还可以运行
集群的缺点:
采用主从结构,不具备自动切换主从的功能。所以一旦主节点宕机,整个系统不可用
对网络要求高,节点之间需要不断的传输数据
需要更多的服务器,而且主节点没有处理能力
适用场景
需求kettle能时刻保持正常运行的场景
大批量处理数据的场景
集群搭建:
配置主(子)服务器:主要的配置文件目录为kettle的pwd目录下,里面有四个配置文件分别是子服务器的配置文件和密码文件;
Carte-config-master-8080.xml是主服务器的配置文件。编辑该文件,根据情况修改其中的name\hostname\port\master等属性。Name是服务器的名称,hostname是主机名或者IP,port是端口号,Master表明是否是主服务器。此外,加上两行:
<username>cluster</username>
<password>cluster</password>
接着启动主服务器,在kettle目录中打开cmd窗口,执行carte localhost 8080:
配置从服务器(按需求更改)
这里的materl是主服务器(我这里是本地模拟所以没有设置外部IP),到时使用的时候根据机器IP进行准确的设置。
然后启动从服务器(我设置的是8081和8082)模拟一个端口一台
在KETTLE中选择主对象树-子服务器,右键新键子服务器:
在主对象树中选择kettle集群schemas
Schema名称即集群的名称。
端口即集群对外服务的端口.
sockets缓存大小:sockets缓存
Sockets刷新时间间隔:达到多少行记录时刷新到子服务器。
Sockets数据是否压缩:如果网络状况差,则建议选择。网络良好时不用选择。
在已经写好的转换中点击集群,然后会显示:
选择然后会发现排序纪录多出”CX2”,表示有2个子服务器来执行。在一个三个子服务器的集群中,主服务器负责任务分发、结果收集,转换任务由从服务器执行,故只有两个节点执行。
然后执行该转换
在命令行中
这样就整个集群成功测试!
相关文章推荐
- corosync集群心跳配置及mgmt调用修改方法
- hadoop集群安装与配置--c#调用hive的thrift服务
- heartbeat集群心跳配置及mgmt调用修改方法
- zookeeper+activeMQ 集群配置及java调用
- Kettle 和 Quartz集群 Oracle 配置
- hadoop集群安装与配置--c#调用hive的thrift服务
- 在集群上的pyspark中配置ipython notebook,实现网页远程调用。
- kettle连接集群环境配置
- hadoop集群安装与配置--sqoop服务调用
- hadoop的集群配置,原创解决了好多个问题(spark+hadoop+scala集群配置)
- JSP页面怎样调用Spring配置文件中定义的Bean
- Weblogic集群配置for linux
- 关于shell启动时调用的几个配置文件/etc/profile .profile .bash_profile .bashrc等
- zookeeper集群配置
- 使用HttpClient配置代理服务器模拟浏览器发送请求调用接口测试
- mongodb分片集群(sharding with replica set)配置 4servers
- zookeeper集群,单机版,伪集群搭建与配置
- cas 集群部署配置
- VCS集群环境配置实例-Solaris
- JBOSS系列(四)--集群--基础配置(1)