您的位置:首页 > 大数据 > 云计算

智能一代云平台(二十七):一次线上环境出问题排错经历

2017-06-01 17:15 232 查看

【前言】

    我们最近新上线一个新的功能是对题库的查询和练习,我们是在微信公众号中挂载的阿里云,阿里云反向代理到我们的机房中。

【一次排错的经历】       

    线上环境出问题自然对我们的影响十分大的,不敢稍有怠慢赶紧进行相关排查;

    一、一次访问的流程:

        微信公众号——>阿里Nginx——>机房公网——>机房内网——>机房Nginx——>机房应用服务器;

    二、出现的现象:       

        1.公众号中的挂载的功能访问不了;

        2.在我们机房用有线连不上阿里服务器只能用无线进行连接;   

    三、排查过程:    

        A.定位问题

          1.排除应用本身问题:

            直接访问局域网中应用可以访问到,说明不是应用内网部署的问题;

          2.排除网络中映射问题:

            访问机房内网映射外网对应的地址,也是可以访问通的;说明不是映射问题;

          3.排除阿里上的问题:

            访问阿里对应的应用地址,访问不通;说明是阿里到机房公网这个环节肯定有问题;

        B.寻找原因:

          1.进行测试:

           (1)看阿里的Nginx打出的日志一直是机房对应的外网地址拒绝连接

           (2)在线上用服务器去ping阿里服务器不能ping通

           (3)用阿里的服务器去ping公网的IP能ping通

          2.根据测试定可能原因:

           (1)阿里本身的Nginx或网有问题

           (2)我们机房内网将阿里服务器的IP屏蔽了

          3.进行验证:

           (1)测试阿里本身Nginx或网问题:

                首先在阿里的Nginx上做了代理百度的测试,发现没有问题说明阿里及本身的Nginx没有问题;

           (2)机房内网将阿里服务器屏蔽:               

                另外的一台阿里云服务器上装上Nginx代理到我们的机房,发现可以代理到,确定是我们机房的网的措施应该被屏蔽掉了;

          4.临时解决办法:

            由于网络核对还需要走审批,需要一定的时间,我们临时的快速的解决办法是让阿里Nginx代理到另外的阿里的Nginx代理到我们的机房中这条路,这样是可以的。

          5.最终解决办法:

            网络的人员检查网后,进行了相关设置;我们可以从内网上可以直接远程上阿里的服务器后,然后将阿里的服务器再改回来,这时可以正常代理到;

【总结】

     1.在开发阶段预想到的情况在线上环境都会出现,而且在线上环境出有些问题是在开发阶段预想不到的;

     2.由1可以得出在线上总会出些不在预料之内的问题,如何快速解决问题那?    

      (1)出问题后将问题进行逐步的分解

      (2)在各个环节验证问题是出在哪里
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: