一次客户防火墙配置导致业务故障分析
相关敏感信息去除
1.故障情况
在2019年7月11日接收到值班人员反馈,在23:45开始,三套网管终端显示XXXXX、XXXXX、XXXXX所有网元脱管,在00:00恢复,持续15分钟。同时相关技术人员也反馈在此时间段,三套网管的服务器也与各自网元中断联系,也是持续15分钟。本次故障从7月11日发现,到7月14日解决,一共持续了4天。
2.拓扑说明
防火墙采用采用透明模式部署在服务器与网管网络之间,配置相应的安全策略。
整个网络使用二层数据交换,不涉及路由转发
3.采取措施
经过线路检测,设备检测,数据包抓包,防火墙日志分析,设备日志分析和主机日志分析都未能定位故障原因。后经过防火墙售后工程师协助定位,定位出故障原因,并同时更改防火墙配置,解决故障。
4.故障解决
4.1.XX网管网络抓包分析
在针对XX网管系统进行抓包分析,故障事件段内有大量OSPF的HELLO报文从XX网元汇聚交换机上进行转发,但是无法通过防火墙转发到服务器上,说明防火墙相关配置阻止了OSPF报文抓发。
4.2.XX网管网络抓包分析
针对XXXXX,XXXXX传输网管网络进行抓包分析,故障事件段内,有大量二层以太网帧从XXXXX,汇聚交换机上转发,但是无法通过防火墙转发到服务器上,说明防火墙阻止了相关二层数据包
4.3.更改防火墙配置
针对以上现象,并通过测试,调整防火墙相关配置:
1、配置全局网络-非IP报文转发
针对XX网管网络存在OSPF不能转发问题,设置防火墙转发非IP报文。
2、配置虚拟交换机-转发带有标记数据包
针对XX网管网络存在部分二层数据包不能抓发问题,设置防火墙转发带有标记的数据包。
经过以上配置,同时进行充分的测试,故障消失。
5.网络中断事件分析
经过分析和推断,为何23:45-00:00固定事件段网管网络中断,为何防火墙上线一个多月期间并未发生此次故障,总结出以下可能原因:
1、XX网管网络中的设备在23:45-00:00需要发送OSPF报文与服务器建立通信机制,进行某种业务操作,而在故障之前并未采取这种业务操作。
2、XX网管网络中的设备在23:00-00:00需要建立带有TAG的二层数据包与服务器建立通信机制,进行某种业务操作,而在故障之前并未采取这种业务操作。
3、XX,XX三套网管网络在故障事件段同时进行业务操作机制不明,如有需要,要进行彻底排查。
6.相关建议
防火墙是严格按照指定策略规则进行数据包过滤和抓发,此次业务故障确实是因为防火墙配置不当造成,但是同时也说明整个网络存在网络环境不合规和异常举动,建议按照以下几个方面对风险进行规避:
1、核实XX、XX网管网络中设备是否存在定时业务操作在23:45-00:00执行
2、对网管服务器进行漏洞扫描安全加固
3、推进等保评测,推进业务堡垒机使用
- 一次enq: CF - contention 导致数据库宕机的故障分析
- 一次数据库不繁忙时一条sql语句2个执行计划导致业务超时的故障处理
- 一次故障记录keepalived配置疏忽导致的故障
- 一次解决华为5700交换机接口处于discard状态导致业务不通的故障
- 业务慢故障分析-查询错误导致
- 某业务系统由于连接数限制导致间歇性访问慢故障分析案例
- 【故障处理141119】一次数据库不繁忙时一条sql语句2个运行计划导致业务超时的故障处理
- 一次故障记录keepalived配置疏忽导致的故障
- 一次arp防护配置错误导致的故障
- 可直接嵌入业务系统为终端客户提供分析服务的阿里云分析型数据库
- 分析一次STP无法生效的故障
- 对一次网络故障的分析
- POS刷卡故障排除示例--EC配置导致POS刷卡失败
- oracle ----系统服务 --- 文件体系结构 ----网络配置 -----利用企业管理器登录数据库 -----利用SQL Plus登录数据库 -------运行时故障分析与解决
- mips64高精度时钟引起ktime_get时间不准,导致饿狗故障原因分析
- 【Linux笔记】GRUB配置与应用,启动故障分析解决。
- 一次MySQL慢查询导致的故障
- java应用线上一次故障诊断分析
- 通过jstack与jmap分析一次线上故障
- Linux索引节点(inode)用满导致的一次故障