云行业黑天鹅事件频现 多云战略已经势在必行

3月3日凌晨,阿里云突发大规模宕机故障,波及华北地区诸多互联网企业,企业的APP、网站全部瘫痪。因为事发时间为半夜,有网友戏称“一大波程序员小哥哥、运营小姐姐被迫从温暖的被窝爬出来,迎着5级大风走进北方透骨奇寒的夜。”对于宕机原因,阿里云官方回应称“华北2地域可用区C部分ECS服务器等实例出现IO HANG,后经紧急排查处理后逐步恢复。”

此次事件以阿里云给出赔偿方案而告终,但留给人们的思考却在持续——随着云服务应用领域愈发广泛,云厂商一次短时宕机事故,产生的影响也是空前巨大的,金融术语“鸡蛋不要放在一个篮子里”放在云领域是否也广泛适用?如何减少因为云服务的不确定性对业务造成的影响?“多云战略”究竟有多大价值?下面我们来展开讨论。

云行业黑天鹅事件频现 多云战略已经势在必行

当宕机无法预估,降低风险将成为常态

据不完全统计,阿里云近年来几乎每年都有发生较为严重的宕机事件:2012年10月30日,由于电力故障,阿里云部分服务器30余分钟无法正常访问;2013年1月23日,阿里云发生网络系统故障,OSS服务无法正常进行,故障持续长达6小时。2014年11月14日,阿里云杭州可用区D网络故障;2015年9月1日,因云盾升级触发bug,导致文件被系统误删;2016年7月6日,阿里云北京机房内网发生故障,导致大量互联网公司业务受到影响;2018年6月27日,阿里云出现大规模访问异常……

作为行业老二的腾讯云,近年来并未好到哪里去。2016年7月30日上午,有不少微信用户投诉,称无论是重启手机、卸载重装、清空内存等动作,都无法登陆账号,对此腾讯回应称,确系腾讯云发生故障。2017年5月24日,有用户反应称账号下的机器受到大流量DDOS攻击被封号。随后腾讯云发布道歉公告称”用户所受到的实时攻击已经超出腾讯云为用户提供的基础防护服务的上限。2018年8月15日,有企业反馈其在腾讯云上的数据丢失,该公司就此次故障对腾讯云提出了高达11,016,000元的索赔要求。

尽管云服务商均出现过较为严重的宕机经历,但需要指出的一个事实是:无论是从理论研究层面,亦或是实践运行中,云厂商提供的公有云服务,以普遍高达99.95%的SLA,还是要比绝大多数用户自建机房可靠性要更高,出现故障更多是非人为因素或是一些极小概率事件导致,不必因此“讳疾忌医”觉得公有云不安全。我们需要做的,就是在风险来临前,将其发生的概率尽可能降低,而通过接入多家云厂商,来尽可能减少对单一厂商的依赖,从而分散风险,提高业务的可持续性,成为解决方式之一。

“多云战略”的历史必然性:风险分担与优势互补

本次宕机事件后,如何预防服务中断、避免关键数据丢失成为大家关注的重点,“多云战略”再一次成了业界的焦点话题。所谓“多云战略”,指的是企业同时采用两家或以上的云服务供应商,并且在多个云之间部署热切换系统。这样当任何一家云服务商出现运行故障时,企业的关键应用和核心数据,就能迅速切换到其他云服务商的设施上继续运行。

云行业黑天鹅事件频现 多云战略已经势在必行

采用“多云战略”,同时在多家云服务商购买云计算资源和服务,将IT资源分散部署到多个云平台,其好处显而易见,通过在多家供应商提供的解决方案中发掘潜在的服务质量、能力或价格优势,可以根据云厂商的情况随时拓展或者变更,不再受限于厂商,也能够显著提高业务安全性和和分散风险。

多云这一趋势也得到了市场的验证。据RightScale发布的2018年云计算调查报告显示,81%的受访企业采用了多云策略。而据IDC的预测数据,到2020年9成以上的企业都会采用“多云”来构建基础IT能力。企业选择多家云服务商来满足他们的IT需求,已经变得越来越普遍,通过采用多家云厂商,实现风险分担并充分发挥各家云厂商的技术优势,从而获得更好的服务,这也符合客户的利益诉求。

将核心数据、重要业务分散部署在多个云厂商,这一“鸡蛋放在多个篮子里”的做法,其实是“老生常谈”,但过去多数企业并没有真正重视起来,近年来的各类宕机事件,在提醒企业管理层的同时,也让“多云战略”被真正放到了实践层面。对此,建议用户在选择云厂商时,尽量选择业务经过规模化验证的云服务商,如采用了阿里云,可同时选用腾讯云、百度云、金山云等作为互补,从互联网业务起家的云厂商,其公有云实力不容置疑,毕竟是打过硬仗的,即使发生宕机,完备的容灾机制,也能让损失降低到最低范围。

从欧美国家云计算发展经验来看,基于IT系统的复杂性和对可靠性的高要求,企业在选择云厂商时,更倾向于选择经过大规模业务实践验证过的云服务商,亚马逊AWS、微软Azure云等都是久经业务场景考验的云服务,也是往往企业最核心的选择之一,而包括IBM、Oracle等IT厂商转型做云服务的企业,因为缺乏实际业务场景验证,其云服务水平并不如意。

放眼国内,包括阿里云、腾讯云、百度云、金山云等一批在互联网海量业务场景中历练而出的云服务商,具备优良的容备灾和大规模业务部署能力,其抗风险性更强,“多云战略”时,可以重点关注。最后,站在用户的角度而言,面向未来更加复杂多变的业务场景,云厂商之间相互协同,共同抵御风险,站在同一“战壕”里协同作战,也未尝不可。

极客网企业会员

免责声明:本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时,应及时向本网站提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明。本网站在收到上述法律文件后,将会依法尽快联系相关文章源头核实,沟通删除相关内容或断开相关链接。

2019-03-08
云行业黑天鹅事件频现 多云战略已经势在必行
3月3日凌晨,阿里云突发大规模宕机故障,波及华北地区诸多互联网企业,企业的APP、网站全部瘫痪。

长按扫码 阅读全文