"崩溃"的2024:十大互联网宕机事件复盘与启示

谁能想到,“崩”也成了一种上热搜的新姿势。回顾2024年,微软、腾讯云、支付宝、美团、阿里云、微软、百度地图、网易云音乐等多家头部互联网企业相继发生App崩溃事件,引发网友热议。

美团崩了,外卖点不了;百度地图崩了,导航面临挑战;微软蓝屏故障,很多人工作直接受影响……不少人从这一次次的系统故障中深刻体会到,互联网对生活工作的影响无处不在,认清网络安全之重要。

我们梳理了2024年至今影响范围较大的十起互联网宕机事件,并按照对人们的影响将它们分为五个级别,从轻到重进行了排列。

五星:全球性事件

四星:国内,影响B端

三星:国内,影响C端,工作相关

两星:国内,影响C端,生活必备

一星:国内,影响C端,非必须

下面,我们就一起看看这些宕机事件的“名场面”,以及背后的原因都是什么。

网易云音乐半年崩两次 音乐播放等异常

时间:2024年8月

评级:⭐️

8月19日,不少网友反映,网易云音乐页面出现“服务器发生错误”,音乐播放、加载等均出现异常。随后,“网易云音乐崩了”登上微博热搜。
此次故障持续时间近两个小时,期间有传言称,故障因“网易云音乐开发者删库跑路”。对此,网易云音乐官微回应称,没有删库,没有跑路,因基础设施故障,导致网易云音乐各端无法正常使用。

值得一提的是,今年3月,网易云音乐也曾因系统故障登上热搜。彼时,网易云音乐登陆状态失效,需要重新登录。网易云音乐客服回应称,登陆情况异常是网络异常导致,与版本更新无关,故障在一段时间后修复。

中国移动系统故障 用户无法登陆

时间:2024年10月

评级:⭐️⭐️

10月21日,多位中国移动用户反映,中国移动客户端和官网等无法登陆,充值等业务无法办理。

当晚,中国移动广东公司官微发文回应称,10月21日15:47起,中国移动广东公司陆续接到客户反映,官方App无法登录、充值等业务无法办理。技术部门迅速开展故障排查,发现负载均衡设备异常,导致业务系统不稳定。经过紧急处置,系统服务已于17:06全面恢复。

百度地图短暂崩溃 定位出现错误

时间:2024年8月

评级:⭐️⭐️

8月7日,百度地图因为系统问题崩上热搜。当天中午,有网友在社交平台反映,百度地图出现自驾路线无法正常规划、定位错误等问题。紧接着,“百度地图崩了”登上微博热搜。

百度地图客服对此回应称,目前百度地图系统确实出现错误,服务器正在紧急修复中。当天下午,相关问题已修复。

美团APP因系统升级崩了 外卖服务无法使用

时间:2024年4月

评级:⭐️⭐️

4月26日,有网友在社交平台表示,美团APP崩了,主页面无法加载,外卖等服务无法使用。

对此,美团官方客服表示,目前系统正在升级,可能导致部分用户的主页面无法加载,已在紧急处理。等系统升级后,就会自动恢复正常。

双11支付宝崩了 无法正常支付

时间:2024年11月

评级:⭐️⭐️

在双11大促即将收官之时,支付宝又崩了。11月11日,不少网友表示遭遇支付宝异常无法付款,付款时显示“重复扣款”“支付失败” “服务异常”等。还有网友称,支付宝出现余额宝提现未到账、花呗还款扣款成功但账单没清等。随后,“支付宝崩了”登上热搜榜第一。

支付宝官微对此很快作出回应,称“因系统消息库出现局部故障,导致部分用户的支付功能受到影响。该故障不会影响用户的资金安全,截止上午10点50分故障已经修复。”

4月9日,“支付宝崩了”也曾登上微博热搜,部分网友反映支付宝无法使用,用不了蚂蚁森林等功能。对此,支付宝客服表示,今日确有系统异常报错,少量用户访问部分页面时出现了短暂性的访问不畅。这一情况已经快速恢复,用户的资金和信息安全都不受影响,各项功能也都可以正常使用。

大周一 企业微信文档崩了

时间:2024年12月

评级:⭐️⭐️⭐️

12月2日上午,不少着急开例会的网友反映,企业微信文档崩了,页面打不开,多项功能无法使用。

随后,企业微信文档官微发文称,“因访问激增,部分企业微信文档出现文档打开异常,目前已完成修复。”

WPS三个月崩了四次 在线文档无法使用

时间:2024年9月

评级:⭐️⭐️⭐️

9月6日,“WPS崩了”再度冲上热搜。大量网友反馈WPS出现在线文档无法打开的故障。而这已经是该应用三个月内第四次宕机。

8月21日WPS就因发生服务异常而引发热议。当天下午,WPS客户服务官微回应:经紧急修复,WPS服务已恢复。作为补偿,8月22日0点-24点,所有用户可以免费领取15天会员。

7月8日上午,“WPS崩了”也曾冲上热搜。随后,WPS客户服务致歉称,“因服务异常给大家添麻烦了,大家反馈的问题我们在火速排查并修复,服务已恢复正常。”

另外,在6月28日下午,也有不少网友反映“WPS崩了”,金山文档打不开。金山办公当时向媒体回应称,崩溃原因或与云服务异常有关。

阿里云服务器故障 小红书、B站崩上热搜

时间:2024年7月

评级:⭐️⭐️⭐️⭐️

在数字化时代,云服务被广泛应用,涉及众多企业和个人用户。因此,云服务宕机的影响辐射范围往往也更广。

7月2日,“B站崩了”“小红书崩了”“恋与深空崩了”“酷安都崩了”等多个词条登上微博热搜。不少网友反馈称,B站视频评论区及个人主页无法正常加载,浏览历史、消息界面、客服界面等均出现访问故障。小红书等应用也都出现网络异常问题。随后,有消息称,此番连锁故障与服务商阿里云有关。

同日,阿里云客服向媒体回应称,上海地域可用区N网络访问出现异常,经过处理现已恢复,但B站服务器不是阿里云的。

据了解,阿里云在近几年曾多次出现服务故障。2023年11月,阿里云产品控制台访问及API调用出现使用异常,导致“淘宝又崩了”“闲鱼崩了”“钉钉崩了”等话题相继登上微博热搜。2022年12月,阿里云爆发香港Region可用区C大规模服务中断事件,导致多个香港及澳门站点受到影响。

今年以来,B站也曾多次服务器崩溃,用户无法正常访问,此前官方解释因服务器负载过高。

腾讯云服务器故障 1957个客户报障

时间:2024年4月

评级:⭐️⭐️⭐️⭐️

4月8日,“腾讯云崩了”冲上热搜。不少网友反馈称,腾讯云出现服务故障,网页显示504错误,服务器网络连接不上,控制台无法访问。

当天下午4点45分,腾讯云官微回应称,官网控制台相关服务出现异常,工程师紧急修复中,部分地区已恢复。下午5点16分,腾讯云在微博称“整体已恢复”。

4月14日,针对此次故障,腾讯云官方发布复盘及情况说明。说明显示,此次故障一共持续了近87分钟,期间共有1957个客户报障。云API异常导致控制台登陆不上,而依赖云API提供产品能力的部分公有云服务,也因为云API的异常出现了无法使用的情况,比如云函数、文字识别、微服务平台、音频内容安全、验证码等。

腾讯云表示,此次故障最根本的原因,是在版本变更过程中,没有有效执行沙箱验证和预案演练,暴露了在变更管理上的不足,接下来将从提升系统韧性、强化变更管理与保护措施、增强故障响应与沟通能力等几个方面快速进行改进和完善,以减少故障的影响范围和影响时长。

微软蓝屏,一桩全球IT灾难级事件

时间:2024年7月

评级:⭐️⭐️⭐️⭐️⭐️

微软蓝屏故障,可谓今年内影响范围最广、损失最大的一起宕机事件,波及至少20多个国家,被认为是一桩全球IT灾难级事件。

7月19日,全球约850万台装有Windows操作系统的计算机出现“蓝屏”死机现象,出现故障的终端并不限于桌面终端,还覆盖了大量的服务器和云节点,而且相关主机重新启动后依然会自动进入蓝屏状态,反复崩溃。紧接着,“微软蓝屏”登上微博热搜。

由于微软蓝屏故障,美国、英国、德国、荷兰、西班牙、波兰、比利时等10多个国家的部分机场、车站、码头及媒体、电信、银行等行业的运营受到影响。另外,多国的石油、天然气、电力、股票、货币和债券交易商都在19日当天难以正常展开交易。

而导致这一历史事件的主角是美国网络安全企业CrowdStrike。CrowdStrike的一个错误更新导致受影响的电脑和服务器无法正常启动,迫使它们陷入了恢复启动循环。CrowdStrike在全球范围内被广泛用于管理Windows PC和服务器的安全。

值得一提的是,在此次全球微软蓝屏事件中,国内企业受到的冲击很小。因为CrowdStrike是个典型的B2B企业,其安全控制软件多部署在企业环境中,个人家庭电脑此次受影响很小,国内受到波及的主要是少数使用CrowdStrike软件的外企。

写在最后:

过去一年,互联网应用宕机事件几乎每个月都有发生,虽然大多都在2个小时左右的时间修复,但还是给用户的生活和工作造成不便。而网友在吐槽应用崩溃导致的糟糕使用体验之余,更是将宕机事件与各个大厂的裁员行为联系了起来,认为“大厂裁员裁到大动脉”,波及到了相关技术、运维团队的正常运作。

不过,这种言论也仅仅是网友的调侃或猜测,真实原因难以考究。理论上来说,一个成熟的互联网公司,边缘业务可能会因为人才流失受到影响,核心业务基本不可能,大规模宕机事件更多是技术层面的问题。

比如上文提到的,支付宝、百度地图、网易云音乐、美团短暂崩溃都是因为系统故障或升级引起的,阿里云服务器故障是因为上海地域可用区N网络访问出现异常,微软蓝屏事件是第三方安全软件的锅,腾讯云崩溃则暴露了在变更管理上的不足。

随着互联网应用发展愈加成熟,硬件安全早已不成问题,但技术系统软环境的安全仍有待完善。互联网企业尤其是头部企业,除了分析总结宕机原因,还应对系统架构进行优化,比如增强服务器的冗余设计,定期进行系统测试和演练等。

此外,各类应用交替出现故障,考验平台基础设施、技术能力和修复速度的同时,如何做好用户运营亦受到关注。平台通过官方渠道及时告知用户问题和大致恢复时间,避免用户产生误解和恐慌。像WPS、网易云音乐那样给用户补偿会员也是一种方法。

最后,作为用户,衷心希望各大厂商能够筑牢网络安全“防火墙”,宕机事件不再频繁上演。

极客网企业会员

免责声明:本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时,应及时向本网站提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明。本网站在收到上述法律文件后,将会依法尽快联系相关文章源头核实,沟通删除相关内容或断开相关链接。

2024-12-24
"崩溃"的2024:十大互联网宕机事件复盘与启示
衷心希望各大厂商能够筑牢网络安全“防火墙”,宕机事件不再频繁上演。

长按扫码 阅读全文