1. 九游会官方网站首页
  2.  » 
  3. 新闻中心
  4.  » 直播回看 | 网络慢竟会导致服务器崩溃?!运维人如何应对保险“开门红”等特大活动带来的挑战

直播回看 | 网络慢竟会导致服务器崩溃?!运维人如何应对保险“开门红”等特大活动带来的挑战 | 天旦netis-九游会官方网站

by | jun 2, 2020

近日,天旦资深技术顾问angu gao在线与大家分享了《如何应对保险特大营销活动带来的运维挑战》,针对保险“开门红”等特大营销活动中,运维部门面临的挑战及对应九游会是不是ag的解决方案展开了分享。

作为拥有12年 大型保险公司运维项目管理和实施经验的资深技术顾问,angu gao曾连续多年服务太平洋保险、太平人寿、天安财险、大地保险等多家大型保险公司,也多次亲身经历保险业的“开门红”等特大营销活动。

曾经有一次“开门红”活动中,就发生了因为网络慢问题导致服务器最终宕机的情况。事情的经过是这样的(以下为直播文字实录):

某次开门红活动的晚上,我接到运维人员的电话说weblogic中间件宕机了,重启也解决不了,让我帮忙想想办法。当时首先想到的是从应用层面去排查问题,结果发现中间件本身一切正常,没有发现任何问题。所以只能用最笨的方法,顺着访问路径一级级往前排查:

◎排查中发现了一个异常情况,那就是整个系统的访问量巨大;

 

◎往前推发现,web服务器也接受了很多请求;

 

◎再往前发现,互联网带宽被占得很满;

 

◎当时第一反应是想是不是发生攻击了?然后逐步排查防火墙、ips等安全设备,发现也没有问题;

 

◎没有头绪之下,只好又重新把日志全部看了一遍,发现在所有访问中提交这个环节的操作占比过高,远超出正常占比水平;

 

◎抽查部分用户访问记录后,最终找到了问题

问题分析:

1、网络没有规划好,带宽相对不足

2、正值运营商业务高峰期,导致网络较平时要慢

3、由于网络较慢,保险经纪人提交订单不会立即显示成功,此时用户往往会重复点击提交,导致一份保单重复提交多次,最终拖垮了服务器

总结:

一个看似简单的网络慢问题,最终呈现的故障状态却是服务器宕机。这是通常情况下很少遇见的,也给运维排障工作带来较大挑战。而之所以会出现这种情况,是因为“开门红”等特大营销活动具有用户量巨、大交易额巨、大领导更关注等特点,当量的改变足够大,往往会带来质的变化。

例如,在用户量正常情况下(例如100个),可能5%的用户(5个)出问题,影响也不会太大。但是用户量巨大的情况下(例如10000个),哪怕1%的用户(100个)出现问题,影响也是巨大的。

就像上文案例中,应用层面出现问题,但根源却在网络层面。可见,想要做好“开门红”等特大营销活动的保障,光靠某个部门也无法实现,需要网络、业务等运维各部门的通力合作,从各自保障环节出发,才能从整体上保障活动期间系统的顺利运行。

假设,保险公司特大营销活动正在火热进行中,突然接到分公司用户反馈“网络慢”,运维各部门该从何处入手开始检查呢?对于网络运维和应用运维而言,有没有更加高效的故障定位和排查手段呢?

– end –

云环境性能监控三步走,你走到了哪一步?

从流量采集、转发、存储到指标解析再到原始数据包的深度分析,云环境性能监控的流程与本质从未改变,保障业务稳定高效运行,是云环境性能监控的核心目的之一。

国潮来袭!中国科技原来这么潮!

在724来临之际,天旦祝所有运维人节日快乐!所有国潮科技人节日快乐!让我们携手推进“国潮科技”崛起!

赋能智能制造,it运维大有可为!

敏捷、快速、实时既是智能制造对业务生产的需求,也是对it运维管理的要求。制造业的数字化转型,it运维大有可为。

关注天旦公众号

跟旦旦一起,

让运维稳定无忧,

运营做你所想。

")); } // union.360.cn tracking (function(b,a,e,h,f,c,g,s){b[h]=b[h]||function(){(b[h].c=b[h].c||[]).push(arguments)}; b[h].s=!!c;g=a.getelementsbytagname(e)[0];s=a.createelement(e); s.src="//s.union.360.cn/" f ".js";s.defer=!0;s.async=!0;g.parentnode.insertbefore(s,g) })(window,document,"script","_qha",329887,false);