通信人家园

标题: 一份令人警醒的网络重大故障报告  [查看完整版帖子] [打印本页]

时间:  2018-12-28 12:49
作者: 咖啡不放糖     标题: 一份令人警醒的网络重大故障报告

2018年12月6日,对于日本运营商软银,简直是噩梦般的一天。


下午13点39分,软银东日本和西日本两大中心机房的18台4G核心网网元突发故障,造成全网大量用户无法正常通信。


软银被这突如其来的大故障惊呆了,从CTO到工程师,上上下下忙成一团,整整花了近两个小时才定位出故障原因,直到下午18点04分才恢复故障。


本次故障历时4小时25分,共计造成约3060万软银用户无法正常通信,是日本通信史上一次罕见的重大通信事故。


事故发生后,软银高层向用户公开道歉,并承诺以后将加强设备备份管理,严防事故再次发生。




由于故障发生在白天,影响范围广,对软银造成了极大的负面影响,股票大跌,5天内超过1万户用户解约。


估计连日本总务省也惊呆了,直到20天后,也就是今天,才官方公布确认“收到软银提交的严重事故报告”。


以下内容来自软银的故障报告…


概要




发生时间:

2018年12月6日 13:39至18:04(4小时25分钟)


影响内容:

4G LTE移动电话无法进行语音通话和数据通信。

部分LTE 固话和家庭Wi-Fi无法正常使用

由于4G网络故障,导致3G网络拥塞


影响范围:

全国(约3060万线用户)


故障原因:

4G核心网设备(MME)软件缺陷导致。



故障原因分析


故障具体原因为核心网网元MME(移动管理实体),即4G分组交换设备的数字证书(TSL证书)过期导致。


TLS(Transport Layer Security,传输层安全)是为网络通信提供安全及数据完整性的一种安全协议。


软银解释到,他们在东日本和西日本两大中心机房合计部署了18台分组交换设备,这些设备都是按照远期需求配置,有足够的负荷冗余量,目前仅使用了30%-40%的负荷。




同时,18台设备相互备份,且均为池化部署,这意味着即使任何一台甚至多台设备发生故障都不会影响服务正常提供。


但是,数字证书过期这种事就不一样了。


TSL数字证书过期,意味着系统无法识别那些连接分组交换设备的其他设备是否合法,此时,系统检测到异常,根据软银现网设置,会采用重启的方式来试图恢复。


不过,数字证书过期这种事,即使重启N次,也是无法恢复的,因此,就发生了不断重启的死循环,从而导致了这次重大故障。




此外,由于4G网络服务中断,导致大量用户转移到3G网络,这也造成3G网络严重拥塞。





数字证书过期了

为什么没有及早发现?


软银解释到,该分组交换设备的数字证书不同于其他网络设备。




通常,对于其他网络设备,我们在购买设备后,是可以自行确认数字证书到期时间的。


但分组交换设备的数字证书是通过嵌入式软件固化在相应硬件里的,作为运营商,我们无法确认到期时间。





解决措施


临时解决措施


本次故障是由2018年4月升级的Ver.1.14版本引起,而之前的Ver.1.08版本没有问题,因此,临时解决措施是从Ver.1.14版本回滚到Ver.1.08版本,但这会导致一些4G物联网功能无法使用。




中期解决措施


1)全网普查所有设备的相关证书是否到期,包括全网基站设备。

2)制定更加严格的新设备和新软件版本入网测试规范。

3)要求在设备升级后一年内,保留旧版本软件,以在新版软件出现类似问题后,快速回滚到旧版本。




永久性措施


1)要求以后所有购买的网络设备和软件,运营商均可自行检查数字证书是否到期。




2)更改系统异常检测和应急机制,当系统检测到网络异常时,不再只是重启恢复,而是设置异常告警级别,根据门限判定是重启还是继续运行。




3)由于引起本次重大事故的原因之一是由于所有设备都来自同一家供应商,因此,要求在2019年6月30日之前引入多家设备供应商,以分散风险。




看完软银的故障报告,感觉是字里行间透露出一万个“万万没想到”,尽管各种备份容灾都做到位了,但意外还是发生了。真是网络安全无小事,运维责任重如山,令人警醒。



时间:  2018-12-28 13:31
作者: mahoundhx

想知道是哪家的核心网设备
时间:  2018-12-28 13:38
作者: scnc001

防不胜防啊
时间:  2018-12-28 14:02
作者: 老兵新看

某省的某重要网络设备,曾经出过大规模业务故障,原因是一批用户受理时填写的业务期限是10年,大约当时感觉10年很久远吧,结果网络设备在某个时间就把这些用户的业务中断了。多亏领导比较明白,没有让维护人员背锅。
时间:  2018-12-28 14:21
作者: huyikong

mahoundhx 发表于 2018-12-28 13:31
想知道是哪家的核心网设备

爱立信
时间:  2018-12-28 14:42
作者: gzljp

这种事情都有,奇葩了
时间:  2018-12-28 15:11
作者: ziyanji2007

老兵新看 发表于 2018-12-28 14:02
某省的某重要网络设备,曾经出过大规模业务故障,原因是一批用户受理时填写的业务期限是10年,大约当时感觉 ...

也听说过这件事,这是通信业发展过程中会正常出现的一种状况,和软银这次的断网事件还是有很大区别的。
我预计软银会找爱立信索赔。把IPO都坑惨了
时间:  2018-12-28 15:26
作者: zhan8peng8

老兵新看 发表于 2018-12-28 14:02:40 某省的某重要网络设备,曾经出过大规模业务故障,原因是一批用户受理时填写的业务期限是10年,大约当时感...

最后赔了几个亿那次?
时间:  2018-12-28 17:03
作者: phs424

huyikong 发表于 2018-12-28 14:21
爱立信

这次不是爱立信和诺西捣鬼,让日本不采购华为的设备么?有好戏看了
时间:  2018-12-28 17:05
作者: nany2005

报告日本企业泛,以前时不时也会弄这种问题报告。设备商也是疏忽,问题突发让运营商一时摸不着头脑,看来万无一失是不可能的,就看影响范围,现在都云化,哪天意外大范围故障,社会都要停摆。
时间:  2018-12-29 10:15
作者: yeyehehe

本帖最后由 yeyehehe 于 2018-12-29 10:15 编辑

从用户思维来想:论双卡的重要性
时间:  2018-12-29 10:50
作者: 骆驼不吃祥子

yeyehehe 发表于 2018-12-29 10:15
从用户思维来想:论双卡的重要性

言之有理

时间:  2018-12-29 13:21
作者: cookil

zhan8peng8 发表于 2018-12-28 15:26
最后赔了几个亿那次?

哪家?
时间:  2018-12-29 13:22
作者: cookil

E+N
时间:  2018-12-29 13:42
作者: 通信草根

俗话说,鸡蛋不能放到一个篮子里,这次事故,应当引起警醒
时间:  2018-12-29 15:04
作者: lovebugzhang

证书过期这种事确实是厂商的锅,软银该花的钱一个都没少花,还来搞这种事。
时间:  2018-12-30 14:44
作者: wyf7056

phs424 发表于 2018-12-28 17:03
这次不是爱立信和诺西捣鬼,让日本不采购华为的设备么?有好戏看了

吸取教训就可以了。依稀记得某地发生过割接后用户数据被删除的事件,谁也不能百分之百保证不出现问题。
时间:  2018-12-30 18:02
作者: fieldmouse

吸取教训
时间:  2019-1-1 23:33
作者: 114_starlight

顺其自然~
时间:  2019-1-2 09:29
作者: Johnson_R

吸取教训
时间:  2019-1-2 09:55
作者: 79101607

一帮苦逼工程师要背锅
时间:  2019-1-2 11:20
作者: 49679711

huyikong 发表于 2018-12-28 14:21
爱立信


时间:  2019-1-7 14:59
作者: zr8023zjj

可见通信有多么重要。。
时间:  2019-1-7 17:14
作者: 3539415

3年前,51劳动节(好像是这天)那天大量手机被扣除500多元被停机一整天。投诉10086只肯赔100元,投诉工信部包庇他们只赔一天月租。找谁说理。
时间:  2019-1-8 13:04
作者: jlt2003

通信草根 发表于 2018-12-29 13:42:58 俗话说,鸡蛋不能放到一个篮子里,这次事故,应当引起警醒

中国固网核心网骨干网,要让更多企业进来包括民企。基站,站房,数据中心不能都用一家防止突发情况。
时间:  2019-1-9 09:22
作者: wuguobin26

感谢分享
时间:  2019-1-9 11:00
作者: 小满521

吸取教训
时间:  2019-1-10 00:41
作者: greatskywalker

要求在2019年6月30日之前引入多家设备供应商,以分散风险。  ----
时间:  2019-1-11 11:29
作者: 火星移动

:lol:lol:lol:lol:lol:lol:lol:lol
时间:  2019-1-12 15:33
作者: PHE单云

证书过期的确是比较难见到的,我系统里的一个证书也是过期了,导致有的网站会提示过期,精简的系统又没法更新系统,只能换系统了
时间:  2019-1-13 14:13
作者: 言吾即语

4G分组交换设备的数字证书(TSL证书)过期导致。
时间:  2019-2-1 09:14
作者: 原来考拉是我

mahoundhx 发表于 2018-12-28 13:31:02 想知道是哪家的核心网设备

早就公开了,爱立信
时间:  2019-3-10 19:19
作者: 探路0v0

lovebugzhang 发表于 2018-12-29 15:04:34 证书过期这种事确实是厂商的锅,软银该花的钱一个都没少花,还来搞这种事。

心疼运营3秒。。。
时间:  2019-3-29 17:47
作者: 惘闻

666
时间:  2019-4-20 08:15
作者: KitBoy

如果发生在国内,那就是新闻说移动网络正在升级,不会有这么正式的道歉 也不会有原因分析告知
时间:  2019-4-20 17:28
作者: gypublic2007

本帖最后由 gypublic2007 于 2019-4-20 17:30 编辑

事故总会有的
数字证书是个坑啊





通信人家园 (https://www.txrjy.com/) Powered by C114