您的位置:首页 > 运维架构

监控系统的原理以及主要监控的参数和对象

2014-04-22 22:20 344 查看
监控系统的数据采集,从其工作模式来看,可以分为主动采集数据,然后发送给你数据收集中心,也可以分为被动监控,数据收集中心来向数据采集节点询问采集数据。从其采集的客户端来看,可以分为公众的采集方法,私有的采集方法,公众的采集方法是通用的程序协议,如SNMP,IPMI,JMX,SSH,TELNET等,私有的采集协议是专用的客户端,监控程序内部的一套协议。而一个理想的监控系统,其采集端支持多种方式,其扩张能力就强大。监控系统需要提供一个api,方便其他功能系统来对监控数据进行操作管理,这在业务系统精密的情况下显得特别重要,其实在软件中,能不能对外提供API,可以说是一个非常重要的指标,通常能对外提供API功能的软件,其用户群会更大,其产品会越做越好。监控系统需要对故障数据进行分析汇总,从故障中分析出现的概率,从而可以累积经验,避免以后出现类似的问题。例如由于机器硬件导致的故障,这个几率有多大,什么部件最容易出问题,出问题的影响概率多大,问题解决的几率有多大,从监控的数据中,就可以分析发现出相关数据,再次基础上进行分析汇总,可以整理出相应的对策,相应的技术应急方案,让数据说话,而不是凭感觉来操作。常见的监控系统性能采集指标:主机监控CPU、内存、磁盘的剩余空间/利用率,Disk I/O,SWAP使用率、系统UP时间、进程数,负载网卡监控:IP, Ping 的往返时间及包成功率,网卡的流量,包括流入、流出量和错误的数据包数(列表,网卡ID)文件监控文件大小,hash值,匹配查询,是否存在URL监控监测指定 URL 访问过程中的返回码、下载时间及文件大小,支持内容匹配应用程序端口,内存使用情况,cpu使用情况,服务状态、请求数、并发连接数、消息队列的字节数、 Client 事务处理数、 Service 状态等。数据库表空间监测数据库中指定的表空间,数据库的游标数、 Session 数、事务数、死锁数、缓冲池命中率、库 Cache 命中率、 当前连接数、进程的内存利用率等性能参数日志错误日志匹配,特定字符串匹配对时间的要求: 实时,非实时。
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息