您的位置：首页 > 运维架构 > Linux

linux运维工作的七项内容

2014-03-14 18:03 204 查看

一，【基础运维检查】
或叫例行检查或叫例行巡检
mail cacti
1.理解例行检查列表的内容、检查项的含义以及可能引发的问题。
2.按照例行检查表，定期检查系统状态，发现异常立即通报并推进解决。
3.定期检查线上服务模块，排除可疑进程, 发现问题及时通报。
4.理解监控和统计报表的各项含义，每天定时检查报表，发现异常立即通报并推进解决。
5.制定服务例行检查要点和方法，部署执行并不断完善，避免检查的盲点。

工作清单参考
1.在预期的时间内，根据执行手册，保质保量完成产品线既定的例行检查工作。
2.通过技术方式提高例行检查的效率。
3.有能力发现潜在问题，制定或者补充合理的检查清单和检查方式，保证基础运维有效进行。
4.进行问题和追查，并解决可能的隐患。

具体检查项举例
机器性能：idle>60%，memfree>60%，io<30MB/s，nic<90MB/s，disk_used<80%
模块日志：请求次数<800次/s ，耗时<300ms/次，日志fatal|error|warnning条数
系统日志：查检内核日志是否有异常输出 '(I/O error|EXT2-fs error|ERROR on|Medium Error|error recovery|disk error|Illegal block|Out of Memory|dead device|readonly)'
数据报表：前一天用户访问量报表，前一天用户提交量报表，各地域访问服务流量情况和耗时情况，非正常用户(网页抓取)访问量情况
备份检查：检查夜间的数据备份是否正常。

如在排查过程中遇到问题，需要及时跟进：
凭估问题影响，及时通报，跟进问题，定位问题，提出解决方案，经确认后执行解决方案，最后通报问题已解决并给出如何让此类问题不再次发生。

二，【整理预案】
工作清单参考
1.根据服务稳定性和部署现状，整理服务执行预案。
2.将服务分级别，分层次，整理不同重要性的应急预案。
3.定期进行预案演练，每季度进行一次大规模预案演练，但如有重要级别的服务，可以加快预案练习频率（每月演练一次）
4.记录预案执行时间，人员，操作耗时，影响服务时间，服务恢复时间，最后整理整个预案演习的时间和真正影响服务时间。
5.根据预案演练发现的问题，记录问题原因，并更新预案，如果有遗漏的监控应在预案演练后及时添加监控。
6.优化预案执行过程，预案执行自动化，降低影响服务的时间。

三，【故障处理】
1.熟悉服务日常故障处理方法和预案执行要点。
2.对已知线上故障能按流程进行通报并按预案执行。
3.及时处理并回复相关的服务报警信息。
4.能透彻分析报警原因,并推动报警问题解决。
5.能发现服务隐患，总结处理方法和提出预案改进建议。

四，【数据备份】
1.根据服务类型，将需要备份的数据划分重要级别，理解什么数据需要全量备份，什么时候需要增量备份，并且需要确认数据需要保留天数。
2.编写数据恢复预案，定期演练，包含但不限于每季度的数据恢复测试；
3.根据服务调整、机器迁移等服务变更须及时更新备份方案；

五，【机器管理】
1.熟悉服务器资源状况，机房分布情况，并能做到批量管理，自动化管理。
2.合理使用服务器资源，根据不同服务的需求，安排不同配置的服务器。
3.保证服务器正常运行，对服务器硬件添加或变更来解决资源不足问题。
4.熟悉服务器上下架、上下线、搬迁相关流程。

六，【服务管理】
服务与服务间的关联关系。
线上服务操作注意事项。
及时发现服务上的问题，并及时跟进、推动解决。
整理运维文档，记录每个服务的问题或潜在问题和这个服务的特殊点。

七，【技术审核】
1.编制或审核上线步骤、回滚方案。
2.按流程高质量地完成上线、操作，包括上线后的检查复核以及紧急情况下的回滚操作。
3.用脚本和自动化的方法实现上线和操作,改进上线/操作过程。

具体审核点：
1.评估变更对运维影响（如资源、接口、平台），产出评估影响，以及应对策略。
2.评估变更对业务的影响（如流量、收入、网页数等）
3.变更执行
3.1变更时间、地点、参与；
3.2变更方案（含执行方案、预案）；
3.3变更执行；
3.4变更check；（业务和运维）；
3.5变更回顾；
4.对所做的变更进行回顾和总结
4.1变更问题总结和改进；
4.2改进措施与实施；
4.3改进对业务推动；
4.4改进对运维推动；

原文链接
/article/7248294.html

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航