您的位置:首页 > 运维架构

关于系统运维监控的几点建议

2017-07-28 20:57 597 查看
眼下非常多企业信息化系统都有自己的监控平台和监控手段,不管是採用哪种手段去实现对系统的实时监控和故障告警,大多採用的方式也仅仅有两种:集中式监控和分布式监控。本文作者依据自身公司监控存在的问题,总结了一些经验并提出一些在监控平台的建议。以供大家參考学习,如有考虑不周的地方还希望大家多多批评指正。

为了更好、更有效的保障系统上线后的稳定的执行。

对于server的硬件资源、性能、带宽、port、进程、服务等都必须有一个可靠和可持续的监測机制,统计分析每天的各种数据,从而能及时反映出server哪里存在性能瓶颈、安全隐患等。

另外是要有危机意识,就是了解server有可能出现哪些严重的问题。出现这些问题后该怎样去迅速处理。比方数据库的数据丢失,日志容量过大,被黑客入侵等等。

一、上线之前的准备工作

1、首先是备份。做好定时备份策略,备份全部你觉得重要的数据。而且定期检查你的备份是否有效、全面;

2、日志轮换,不管你想用哪种轮换方式。控制日志增长避免驱动器已满是你的目的;

3、做一定的安全措施。如防火墙iptables的訪问控制,用denyhosts防止黑客远程暴力破解;

4、mysql远程登录权限等等;

5、最后就是server、网元设备的监控。

二、监控策略

1、定义告警优先级策略

一般的监控到的结果是成功或者失败,如Ping不通、訪问网页出错、连接不到Socket。发生时这些称之为故障,故障是最优先的告警。除此之外。还能监控到返回的延时、内容等,如Ping返回的延时、訪问网页的时间、訪问网页取到的内容等。

利用返回的结果能够自己定义告警条件。如Ping监控的返回延时通常是10-30ms之间。当延时大于100ms时候,表示网络或者server可能出现故障。引起网络响应慢,须要马上检查是否流量过大或者serverCPU太高等问题。

2、定义告警信息内容标准

当server或应用发生问题时告警信息内容许多,如告警执行业务名称、serverIP、监控的线路、监控的服务错误级别、出错信息、发生时间等。

预先定义告警内容及标准使收到的告警内容具有规范性及可读性。这点对于用短信接受告警内容特别有意义,短信内容最多是70个字符,要在70个字符全然知道故障内容比較困难。更须要预先定义内容规范。

如:“视频直播server10.0.211.65 在2012-10-18 13:00电信线路监控第到1次失败”,清晰明了的知道故障信息。

3、通过邮件接收汇总报表

每天收到一封站点server监控的汇总报表邮件,花个两三分钟就大致了解站点和server状态。

4、 集中监控和分布式监控相结合

主动(集中)监控尽管能不须要安装代码和程序。很安全和方便。但缺少许多仔细的监控内容,如无法获取硬盘大小、CPU的使用率、网络的流量等,这些监控内容很实用,如CPU太高表示有站点或者程序出问题,流量太高表示可能被攻击等。

被动(分布式)监控经常使用的是SNMP(简单网络管理协议),通过SNMP能监控到大部分你感兴趣的内容。

大部分操作系统支持SNMP,开通管理很方便,也很安全。

SNMP缺点是比較占用带宽,会消耗一定的CPU和内存,在CPU太高和网络流量大情况下。无法有效进行监控。

5、定义故障告警主次

对于监控同一台server的服务,须要定义一个主要监控对象。当主要监控对象出现问题,仅仅发送主要监控对象的告警。其他次要的监控对象暂停监控和告警。比如用Ping来做主要监控对象。假设Ping不通出现Timeout,表示server已经当机或者断网。这时仅仅发送serverPing告警持续监控Ping,由于再继续监控和告警其他服务已经没有必要。

这样能大大降低告警消息数量,又让监控更加合理、更加有效率。

本地监控脚本的规范化部署

6、对在本地部署的监控脚本要进行统一规范的部署并记录到KM系统。

7、实现对常见性故障业务自我修复功能

实现对常见性故障业务自我修复功能脚本进行统一部署并对修复后故障进行检查告警检查频次不多于3次。

8、对监控的业务系统进行分级

一级系统实现7*24小时告警,二级系统实现7*12小时告警,三级系统实现5*8小时告警。

9、 监控范围及目标

实现对负载均衡设备、网络设备、server、存储设备、安全设备、数据库、中间件及应用软件等IT资源的全面监控管理;同一时候自己主动收集、过滤、关联和分析各种管理功能产生的故障事件。实现对故障的提前预警和高速定位。对网络和业务应用等IT资源的性能进行监控,定期提供性能报表和趋势报表,为性能优化及未来系统扩容提供科学根据。

通常情况下。我们能够将监控对象这么来分:

1.server监控,主要监控server如:CPU 负载、内存使用率、磁盘使用率、登陆用户数、进程状态、网卡状态等。

2.应用程序监控,主要监控该应用程序的服务状态,吞吐量和响应时间,由于不同应用须要监控的对象不同,这里不一一列举。

3.数据库监控,仅仅所以把数据库监控单独列出来。足以说明它的重要性。一般监控数据库状态,数据库表或者表空间的使用情况,是否有死锁,错误日志,性能信息等等。

4.网络监控,主要监控当前的网络状况,网络流量等。

以上四条应该算是最主要的,也是保证站点正常执行必需要知道的几点内容,这样才干实现我们常说的“运筹帷幄之中。决胜千里之外”。

【附录】商业免费:百度云观測、360云监控、安全宝、监控宝(云智慧)、阿里云盾(自家产品) 斗波server监控、安全狗、云盾、AnyView(网络警)和西西server流量监控管家是一款server管理软件等

免费开源:cacti 、nagios 、ganglia 、zabbix 、Pingdom 、Munin、monitorix、MRTG、 Observer、 Zenoss 、Collectd、 Argus 、Monit、 Graphite 、Linux-dash和Simple Server Monitor 、sshtop等

商业收费:

sumserver监控软件(www.zhetao.com) *

PRTG_Network_Monitor(Paessler 公司) *

主机(server、小型机)监控服(www.create-china.com.cn)*

网络眼睛server监控系统

迈克菲SECURE技术 灵动server监控

OpManager(www.zohocorp.com.cn)*卓豪

听云基调检測中心(rpc.networkbench.com)

深信服(SANGFOR)

数据中心监控系统对决:DCIM vs.BMS

数据中心业务管理系统(www.idcbms.com/Solutions.htm)

美信科技server和业务监控平台(www.mxsoft.com)

超级监控(www.chaoji.com)

清竹server监控系统

Site24x7 server监控(www.site24x7.com/zhcn/index.html)

海思科server监控管理软件(www.deskview.com.cn)

应用系统监控服务(www.longtelchina.com)

机房监控系统一体化解决方式(www.macrounion.com)*

分布式数字监控平台(www.csydxx.com)

web服务监控(5istudio)

融智兴华

机房监控-机房环境监控系统-IDC机房集中监控(www.create-china.com.cn)

76server执行状态监控系统

的IDC客户管理系统(www.idccrm.cn)

Cyberoam安全产品(http://www.cyberoam.com/cn/productoverview.html)*

ChinaIDS非法信息系统(chinaids.net)

以及各个防火墙和安全软件的附加监控系统(*)等

企业自己二次开发:非常多不一一列举

很多其它:http://server.51cto.com/sCollege-299411.htm和http://www.hao352.com/webmonitor/
http://www.forxing.com/introduce/2.html http://www.zhetao.com/list8 http://www.freesinno.com/g/products/index.html http://www.mxsoft.com/ http://www.netistate.com/ http://www.suninfo.com/view-313.html http://www.jiankongbao.com/ (监控宝产品新版) 360|百度云測|阿里云盾以及各种C/S端软件程式
http://www.ruijie.com.cn/cp/riil-rj/smart http://www.cissu.com.cn/brandview.asp?/36.html http://www.betasoft.com.cn/ http://www.dhc-network.com/main-c1-173-c2-395-c3-401.html http://www.techexcel.com.cn/solutions/servicewise/itmanage.html http://www.bangzhutai.com/ http://www.01tech.com.cn/wug/ http://www.broada.com/view/product.php?func=detail&catalog=030201 http://fuyun.safedog.cn/ http://www.nstrong.com/product/ITMaster/chanpingaishu/ http://www.zhongdait.com/productsinfo.aspx?Col_ID=305&&col_menu=249
Hyperic HQ、Monitorix、Opennms和开源网管软件。

1.http://developer.baidu.com/apm/

2.http://data.tsci.com.cn/News/HTM/20141104/1443115.htm

3.http://www.oneapm.com

4.http://network.51cto.com/art/201303/386554.htm

5.http://www.zohocorp.com.cn/manageengine/application-performance-management.html

----------------------------------------------------------------------------------- http://demo.forxing.com/home.php 帐号:guest password :guest http://sum.zhetao.com/console.dep username:shengwei password:Windows10。
演示地址:http://182.92.99.5:8880/index.jsp
账号:shengwei
password:sw123456 http://demo.freesinno.com 账号:admin password:free8admin http://127.0.0.1:8121/login.html 账号:admin password:admin http://demo.appmanager.com/MyPage.do?method=viewDashBoard
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: