通信人家园

标题: 通信业特大事故!调查结果出炉了  [查看完整版帖子] [打印本页]

时间:  2024-7-24 11:10
作者: qin123456     标题: 通信业特大事故!调查结果出炉了

北京时间7月23日,美国联邦通信委员会(FCC)公布了关于AT&T全国性移动通信网络重大中断事件的详细报告。

此次中断持续至少12小时,影响遍及美国50个州、华盛顿特区、波多黎各及美属维尔京群岛,所有AT&T移动用户均无法使用语音服务和5G网络。

FCC深入调查揭示,AT&T网络中断由一系列复杂因素共同作用造成。

其中包括网元配置不当、内部流程未被严格遵守、缺乏同行评审机制、新网元安装后的测试不充分、实验室测试标准低、缺乏有效的变更审批与风险缓解策略等。

这些因素叠加,使得即使在配置错误被修正后,网络仍无法迅速恢复正常,导致中断时间延长。

事故发生在凌晨2:42,一名AT&T员工在进行常规夜间维护时,错误地将一个未经充分测试的新网元加入核心网络,旨在提升网络功能与容量。

由于缺乏必要的同行评审,错误配置未能在部署前被识别。

随后,错误配置引发连锁反应,自动安全机制误判而切断了网络连接,仅3分钟内,所有语音与5G数据处理节点被隔离,导致全国范围内服务中断。

尽管AT&T迅速采取行动,移除了问题网元并试图恢复网络,但大量用户同时尝试重新注册,超过了网络管理系统的承载极限,引起严重拥堵。

这种状况持续近10小时,即使在初步恢复后,仍有用户遭遇服务不稳定,直到数小时后性能才逐渐恢复正常。

FCC强调,此次中断不仅影响公众对紧急服务如“911”的访问,还阻碍了日常生活中的沟通需求,包括与家人、雇主、医疗服务提供者等的联系。这凸显了运营商需严格遵循最佳实践,强化网络控制,提高故障应对效率。所有网络变更必须基于内部规程和行业标准,未经审批的修改严禁上线。

本次事件发生之际,正值AT&T面临多重挑战,包括近期曝出的用户数据泄露事件,涉及长达半年的通话与短信记录。这无疑加剧了公众对该公司网络安全的信任危机。

不得不说,AT&T作为海外领先的运营商巨头,看上去很高大上,但从其组织松散、管理不规范、专业水平不高或缺乏正式体制支持等情况来看,其实也只是一个草台班子。FCC的调查揭示了一系列基础管理上的疏漏和失误,如网元配置错误、未遵守内部程序、缺乏同行评审、测试不充分、无有效控制措施等,这些都反映出AT&T在网络运维管理上存在的问题。在如此重要的通信基础设施运营中,AT&T未能展现出应有的专业水准和严格管理,导致了大规模的服务中断,对公众生活造成了严重影响。

国内运营商情况又如何呢? 通信敢言

时间:  2024-7-24 11:25
作者: Vladimir_lenin

哈,这自媒体还好意思这么写
时间:  2024-7-24 11:31
作者: 客家人

  想起广西移动的HSS数据库,2个硬盘主备一起格式化,大半个省失联了
时间:  2024-7-24 11:41
作者: laozhu

运维不受重视,全世界都一样一样的
时间:  2024-7-24 15:38
作者: coffee198375

客家人 发表于 2024-7-24 11:31
想起广西移动的HSS数据库,2个硬盘主备一起格式化,大半个省失联了

客总一定不是广西移动用户。。。。
时间:  2024-7-24 15:39
作者: coffee198375

不重视运维。。。。
时间:  2024-7-24 16:20
作者: 客家人

coffee198375 发表于 2024-7-24 15:39
不重视运维。。。。

   嗯,广西移动的事是谁干的?
时间:  2024-7-24 16:49
作者: undebug25

本帖最后由 undebug25 于 2024-7-24 16:50 编辑
客家人 发表于 2024-7-24 11:31
想起广西移动的HSS数据库,2个硬盘主备一起格式化,大半个省失联了


美国调查的那么清楚,肯定是客总给美国提的思路吧
果然客总就是客总@客家人
辛亏美国没有华为的设备,不然客总可以直接说出是谁的设备出的问题
时间:  2024-7-24 16:56
作者: coffee198375

客家人 发表于 2024-7-24 16:20
嗯,广西移动的事是谁干的?

人干的呗,难道是客总?。。。
时间:  2024-7-24 18:08
作者: 客家人

coffee198375 发表于 2024-7-24 16:56
人干的呗,难道是客总?。。。

   不知道那个神勇的三方操作人员,今安在?
时间:  2024-7-24 18:09
作者: 10219459

我知道那个肯定有美国人参与,甚至主导。
时间:  2024-7-24 19:41
作者: 矿石5G基站

看来全世界都差不多
时间:  2024-7-25 00:20
作者: coffee198375

客家人 发表于 2024-7-24 18:08
不知道那个神勇的三方操作人员,今安在?

今在ATT?。。。
时间:  2024-7-25 08:26
作者: 决战紫金城

六月底的事故吧
时间:  2024-7-25 08:56
作者: hzm17

AT&T网络速度是真的快,这上夜班还操心“旨在提升网络功能与容量”也是无敌了~
时间:  2024-7-25 09:06
作者: wenqiang_hu

神操作
时间:  2024-7-25 10:11
作者: tyking403

有种新闻联播的感觉,国外水深火热。
不如说说2023.6广东电信的故障
时间:  2024-7-25 10:50
作者: kandao

根本不是这么回事,故意的。

2024年,大重启,大断网,大停电会接二连三的发生。

这个世界从19年,那个毒开始,到疫苗,完全不正常了。这是他们计划的一部分。

很多人难道没有感知到,有的事情变得邪乎的你傻呼呼的都觉得不理解,不正常。没有常识,没有逻辑。

但是你的脑子总是在纠偏,你认为这个世界只是短暂的偏离赛道,很快会恢复正常。你错了。

更邪乎还没来到。你要有所准备,至少有个心理准备才好。未来能够坦然接受。

我不是和开玩笑。未来世界,如果你能够活下来,你在回过头来想一想,你会觉得我说的对不对了。
时间:  2024-7-25 13:17
作者: huasai

客家人 发表于 2024-07-24 16:20:22 嗯,广西移动的事是谁干的?

移动甩锅是黑客通过电信网络入侵搞的。??,无时无刻都不忘甩锅电信。
时间:  2024-7-25 13:32
作者: 5793721

tyking403 发表于 2024-7-25 10:11
有种新闻联播的感觉,国外水深火热。
不如说说2023.6广东电信的故障

是啊,这事过去这么久都没结论没出来的,到底是什么原因造成的公众是完全不得而知,只记得当时一堆缝纫机说是国外设备的问题,


时间:  2024-7-25 14:02
作者: xvis

能不能把标题加个美国,他们的烂事发到这里来干嘛
时间:  2024-7-25 14:26
作者: TZLX

客家人 发表于 2024-7-24 11:31
想起广西移动的HSS数据库,2个硬盘主备一起格式化,大半个省失联了

这叫啥?围中救美?
时间:  2024-7-25 14:38
作者: lizzcat

这种自媒体式的标题,让人感到恶心
时间:  2024-7-25 14:47
作者: lesgo

coffee198375 发表于 2024-7-24 15:39
不重视运维。。。。

说明中外一样,都不重视运维
时间:  2024-7-25 14:50
作者: lesgo

是时候让电信技术发展缓一缓了,好好梳理下目前的网络吧!
时间:  2024-7-25 15:54
作者: bfworld

本帖最后由 bfworld 于 2024-7-25 15:55 编辑

说那么多, 其实就是不重视运维, 维护人员技术不过关。   
20年前没有网络事故吗? 当然有。   那时候出了问题, 我们后续做法是什么?  分析问题,找到原因, 加强人员技术培训,避免事故再次发生。    现在出了问题, 加强人员技术培训?不存在的, 所有的问题会归根到没有按照规范操作, 然后会新增一大堆的审批制度和流程。  要是流程和审批就能解决技术问题, 还要机务员干什么?
时间:  2024-7-25 16:19
作者: coffee198375

bfworld 发表于 2024-7-25 15:54
说那么多, 其实就是不重视运维, 维护人员技术不过关。   
20年前没有网络事故吗? 当然有。   那时候出了 ...

流程和审批的第一用途划分(撇清)责任。。。。
时间:  2024-7-25 16:20
作者: coffee198375

5793721 发表于 2024-7-25 13:32
是啊,这事过去这么久都没结论没出来的,到底是什么原因造成的公众是完全不得而知,只记得当时一堆缝纫机 ...

内部有结论。。。。
时间:  2024-7-25 16:46
作者: 五星级用户

coffee198375 发表于 2024-7-25 16:19
流程和审批的第一用途划分(撇清)责任。。。。

精辟
时间:  2024-7-25 22:20
作者: 5793721

本帖最后由 5793721 于 2024-7-25 22:21 编辑
coffee198375 发表于 2024-7-25 16:20
内部有结论。。。。

内部肯定是有结论的,但是影响这么大却没对公众有个合理的解释,这是服务还是管理?
时间:  2024-7-25 22:25
作者: 玛莎拉蒂321

5793721 发表于 2024-7-25 13:32
是啊,这事过去这么久都没结论没出来的,到底是什么原因造成的公众是完全不得而知,只记得当时一堆缝纫机 ...

如果是外国设备早爆出来了。不是说了思科去人了希望一起排查,人家没同意。开始网上在说是思科设备的问题
时间:  2024-7-25 22:27
作者: 玛莎拉蒂321

5793721 发表于 2024-7-25 22:20
内部肯定是有结论的,但是影响这么大却没对公众有个合理的解释,这是服务还是管理?

没赔钱吗?据说要了就给?
时间:  2024-7-25 22:48
作者: DandelionV

顶一下
时间:  2024-7-25 23:14
作者: 客家人

coffee198375 发表于 2024-7-25 16:19
流程和审批的第一用途划分(撇清)责任。。。。

  给讲下广西移动hss故障怎么处理的
时间:  2024-7-26 09:04
作者: xiaoxiaohe99

不是国内的
时间:  2024-7-26 09:27
作者: sw_abb

这标题真的是
时间:  2024-7-26 10:09
作者: coffee198375

5793721 发表于 2024-7-25 22:20
内部肯定是有结论的,但是影响这么大却没对公众有个合理的解释,这是服务还是管理?

企业在没有触犯法律的情况下可以选择不公布,或者也可以为了企业形象公布相关情况,你可以给企业提质询。。。。
时间:  2024-7-26 10:10
作者: coffee198375

客家人 发表于 2024-7-25 23:14
给讲下广西移动hss故障怎么处理的

客总无所不知还需要讲啥。。。。
时间:  2024-7-26 10:13
作者: 13869145568

“AT&T员工在进行常规夜间维护时”,甲方亲自运维吗?
时间:  2024-7-26 11:58
作者: 18626549610

没啥意思
时间:  2024-7-26 12:57
作者: EdwardHua

所以对高科技的使用也要一分为二地看待,如果没有备选方案,1%的失效可能带来灾难性的打击

时间:  2024-7-26 14:45
作者: szlanjack

和美国波音飞机事故类似。。
时间:  2024-7-26 14:49
作者: hao150

5793721 发表于 2024-7-25 22:20
内部肯定是有结论的,但是影响这么大却没对公众有个合理的解释,这是服务还是管理?

问题是没人敢公布,仅限领导知晓
时间:  2024-7-26 14:55
作者: tele_89757

客家人 发表于 2024-7-24 16:20
嗯,广西移动的事是谁干的?

华为干的,客总你能拿他如何?
时间:  2024-7-26 17:39
作者: sycl0012

5793721 发表于 2024-7-25 13:32
是啊,这事过去这么久都没结论没出来的,到底是什么原因造成的公众是完全不得而知,只记得当时一堆缝纫机 ...

两台设备互联接口配置问题,问题很低端,处理过程更是拉跨
时间:  2024-7-26 17:45
作者: oooooooo

13869145568 发表于 2024-7-26 10:13
“AT&T员工在进行常规夜间维护时”,甲方亲自运维吗?

可能那边甲方的活就是甲方干
时间:  2024-7-27 08:31
作者: 希夷者

危言耸听,别这样夸张好不好




通信人家园 (https://www.txrjy.com/) Powered by C114