TaoKeeper----zookeeper的监控
2015-02-02 00:00
218 查看
核心代码就4个线程。
淘宝中间介团队博客介绍taokeeper: http://jm-blog.aliapp.com/?p=1450
程序执行过程(过程中执行的命令附录中有说明)
Initialization类启动四个线程线程,每一个线程查询需要监控集群,再把查询到的集群中的服务器信息,分别作为创建子线程的参数:
第一个线程的子线程:对集群server进行ssh链接,执行命令 echo cons | nc {IP} {PORT},将获取回的session详细信息封装,放入全局对象GlobalInstace中;
第二个线程的子线程:调用ZooKeeper API链接测试,试2个3次,如果不行就发送错误通知;
第三个线程的子线程:对集群server进行ssh链接,执行命令 echo stat | nc {IP} {PORT}和echo wchs | nc {IP} {PORT}以及echo wchc | nc {IP} {PORT},将结果封装,之后再检查这些数据,是否大于阈值,如果大于就发送错误通知;
第四个线程的子线程:对集群server进行ssh获取服务器CPU,内存,磁盘,load等情况,将结果封装,之后再检查这些数据,是否大于阈值,如果大于就发送错误通知。
还有段逻辑是检查znode中书否有存在不符合规范的或不允许存在的,没有什么好讲的。
再让后的就是一些mvc的东西了,比如上面每一个线程搜集到的集群信息展示到页面上之类的。
总的来说,架构简单、实现逻辑也比较简单,如果想通过它来学习zookeeper好像不是很合适。
附录:
conf :
3.3.0版本中新增:输出详细的服务配置信息。
cons:
3.3.0版本中新增:列出所有 客户端 链接到 服务端的 session 详细信息。包括所有 接收/发送 的信息包数,session Id,延迟的操作,最后执行的操作…
crst:
3.3.0版本中新增:重置对所有connection/session统计。
dump
列出所有的未处理的会话和零时节点。这个命令只能使用在leader服务上。
envi
输出当前服务的详细信息
ruok
确认服务运行状态是否正常。如果服务正在运行,则回复”imok”。相反的服务将不会回应。
返回了”imok”的服务并不一定表名服务是在集群内,只是说明服务器进程激活和绑定到了指定的客户端端口。使用”stat” 可以获取集群的组成情况和客户端的链接信息
srst
重置server统计
srvr
3.3.0版本中新增:打印所有的服务器信息
stat
列出简略的服务信息和链接客户端信息
wchs
3.3.0版本中新增: 列出简略的服务器上的watches信息
wchc
3.3.0版本中新增: 按照session列出详细的服务器上的watches信息。输出的内容是sessions(connections) 和相关的watches(路径)。
注意:在不同的watches的数量情况下,这个操作肯能很消耗性能,使用它要格外的小心。
wchp
3.3.0版本中新增: 按照path 列出详细的服务器上的watches信息。输出的内容是paths (znodes)和相关sessions。
注意:在不同的watches的数量情况下,这个操作肯能很消耗性能,使用它要格外的小心。
mntr
3.4.0版本中新增:输出可以用来监控集群健康情况的一系列变量。输出的是能兼容Java属性文件的格式,而且内容可能会随时间而改变(比如增加新的变量)。
TaoKeeper源代码地址 提取密码:dcn5
淘宝中间介团队博客介绍taokeeper: http://jm-blog.aliapp.com/?p=1450
程序执行过程(过程中执行的命令附录中有说明)
Initialization类启动四个线程线程,每一个线程查询需要监控集群,再把查询到的集群中的服务器信息,分别作为创建子线程的参数:
第一个线程的子线程:对集群server进行ssh链接,执行命令 echo cons | nc {IP} {PORT},将获取回的session详细信息封装,放入全局对象GlobalInstace中;
第二个线程的子线程:调用ZooKeeper API链接测试,试2个3次,如果不行就发送错误通知;
第三个线程的子线程:对集群server进行ssh链接,执行命令 echo stat | nc {IP} {PORT}和echo wchs | nc {IP} {PORT}以及echo wchc | nc {IP} {PORT},将结果封装,之后再检查这些数据,是否大于阈值,如果大于就发送错误通知;
第四个线程的子线程:对集群server进行ssh获取服务器CPU,内存,磁盘,load等情况,将结果封装,之后再检查这些数据,是否大于阈值,如果大于就发送错误通知。
还有段逻辑是检查znode中书否有存在不符合规范的或不允许存在的,没有什么好讲的。
再让后的就是一些mvc的东西了,比如上面每一个线程搜集到的集群信息展示到页面上之类的。
总的来说,架构简单、实现逻辑也比较简单,如果想通过它来学习zookeeper好像不是很合适。
附录:
conf :
3.3.0版本中新增:输出详细的服务配置信息。
cons:
3.3.0版本中新增:列出所有 客户端 链接到 服务端的 session 详细信息。包括所有 接收/发送 的信息包数,session Id,延迟的操作,最后执行的操作…
crst:
3.3.0版本中新增:重置对所有connection/session统计。
dump
列出所有的未处理的会话和零时节点。这个命令只能使用在leader服务上。
envi
输出当前服务的详细信息
ruok
确认服务运行状态是否正常。如果服务正在运行,则回复”imok”。相反的服务将不会回应。
返回了”imok”的服务并不一定表名服务是在集群内,只是说明服务器进程激活和绑定到了指定的客户端端口。使用”stat” 可以获取集群的组成情况和客户端的链接信息
srst
重置server统计
srvr
3.3.0版本中新增:打印所有的服务器信息
stat
列出简略的服务信息和链接客户端信息
wchs
3.3.0版本中新增: 列出简略的服务器上的watches信息
wchc
3.3.0版本中新增: 按照session列出详细的服务器上的watches信息。输出的内容是sessions(connections) 和相关的watches(路径)。
注意:在不同的watches的数量情况下,这个操作肯能很消耗性能,使用它要格外的小心。
wchp
3.3.0版本中新增: 按照path 列出详细的服务器上的watches信息。输出的内容是paths (znodes)和相关sessions。
注意:在不同的watches的数量情况下,这个操作肯能很消耗性能,使用它要格外的小心。
mntr
3.4.0版本中新增:输出可以用来监控集群健康情况的一系列变量。输出的是能兼容Java属性文件的格式,而且内容可能会随时间而改变(比如增加新的变量)。
$ echo mntr | nc localhost 2185 zk_version 3.4.0 zk_avg_latency 0 zk_max_latency 0 zk_min_latency 0 zk_packets_received 70 zk_packets_sent 69 zk_outstanding_requests 0 zk_server_state leader zk_znode_count 4 zk_watch_count 0 zk_ephemerals_count 0 zk_approximate_data_size 27 zk_followers 4 - 只有Leader 拥有的参数 zk_synced_followers 4 - 只有Leader 拥有的参数 zk_pending_syncs 0 - 只有Leader 拥有的参数 zk_open_file_descriptor_count 23 - 仅适用Unix平台 zk_max_file_descriptor_count 1024 - 仅适用Unix平台
TaoKeeper源代码地址 提取密码:dcn5
相关文章推荐
- taokeeper——ZooKeeper监控
- zookeeper监控taokeeper安装
- 【转】zookeeper 的监控工具
- ZooKeeper与Curator注册和监控
- zabbix监控zookeeper
- ZooKeeper监控
- Zookeeper概念学习系列之zookeeper实现分布式进程监控
- ZooKeeper监控(taokeeper)
- Zookeeper+HDFS+YARN监控
- 分布式服务协调员zookeeper - 应用场景和监控
- 监控zookeeper集群中某个zookeeper实例是否宕机
- zookeeper_monitor监控
- ZooKeeper监控平台搭建
- 使用zookeeper监控服务
- ZooKeeper监控
- ZooKeeper监控
- Zookeeper的安装及监控中心
- zookeeper注册中心两套环境 部分代码一致 例如两套不同的sso-server怎么区分 dubbo-monitor怎么监控
- openfalcon-zookeeper监控 "zkmon"
- Zookeeper从入门到精通(开发详解,案例实战,Web界面监控)