阿里云华北地区出现大规模宕机故障,多家互联网公司都遭到了服务突然中断的影响。事故发生后不久,阿里云官方凌晨回应称,华北2地域可用区C部分ECS服务器等实例出现IOHANG,经紧急排查处理后逐步恢复,此外将根据协议尽快赔偿。
宕机,云服务商无法避免的事情
这些年,随着互联网经济的快速发展,云服务的技术水平、服务模式和使用规模都在持续提升,公有云服务日益被当做与水、电、煤气同等级的基础设施来看待。然而与其他基础设施一样,公有云服务同样会出现故障。以2018年的情况为例,包括亚马逊AWS、微软Azure、谷歌云在内的主流云计算厂商,都出现过规模较大的宕机事件。
2018年3月2日凌晨,因亚马逊AWS的网络服务出现问题,导致依赖AWS服务的部分Alexa开始出现失声问题。该智能音箱的红色指示灯不停闪烁表明服务出现中断,Alexa也一直发出系统内置道歉声。随后几小时内,Alexa又接到了成千上万封投诉。
2018年9月4日上午,微软Azure美国中南区数据中心附近发生雷击在内的恶劣天气,影响冷却系统的电压,导致多个Azure服务出现连接问题,客户难以访问存储在该区数据中心的资源。受影响的服务包括Office365、ActiveDirectory、VisualStudioOnline、VisualStudioTeamServices等。
2018年11月9日,谷歌公有云上提供的Kubernetes服务(GKE)宕机。节点池建置功能出现异常,维运人员无法透过CloudConsoleUI建立新节点。
在国内云服务领域,阿里云,腾讯云在2018年也出现过宕机情况。
2018年6月27日,阿里云出现重大技术故障,恢复时间大概花费一小时。后经过技术复盘,阿里给出的故障原因为工程师团队上线自动化运维新功能时,执行了一项变更验证操作,该操作在测试环境中未发生问题,上线后触发未知bug所致。
2018年7月24日,腾讯云出现宕机情况。用户登录腾讯云时反复出现超时、退出等情况,即便更换运营商,结果也一样。随后,腾讯云发布通知称初步确定是运营商光缆中断,运营商已经找到断点,主要受影响的为广州区域部分用户。
纵观这些宕机事故,其原因可说是五花八门,有软硬件故障造成、也有环境温控失效造成、甚至还有雷击天气的因素。
可见,在当前技术条件下,无论在国内还是国外,云服务厂商出现宕机情况都是难以避免的。
阿里云宕机损害品牌信誉
过去长时间以来,阿里云在国内具有极高的信誉度,凭借这种信誉度阿里云赢得了巨大的市场,截止2018年底,阿里云的市场份额稳居国内第一。
除了稳居国内运服务市场第一外,阿里云这2年还加快了国际化步伐。如今已经在全球19个地区运营了多达52个可用区。阿里云不但已经实现了对美、英、德、日、中等云计算重要市场的覆盖,而且还在新加坡、马来西亚、印度尼西亚、澳大利亚、中东等区域快速拓展服务市场。据研究机构Gartner数据显示,2018年,阿里云在全球市场份额排名已升至第三。
阿里云国内第一,全球第三的”江湖地位”,使得昨天这场宕机事件显得更加引人注目。
事故发生后,阿里云及时做了回应。阿里云回应称”北京时间2019年3月3日凌晨,华北2地域可用区C部分ECS服务器等实例出现IOHANG,经紧急排查处理后逐步恢复。目前我们已经全面排查其他地域及可用区,未发现此类情况。非常抱歉给您带来的影响!如有任何问题,可通过电话工单随时反馈,感谢您的理解和支持!针对本次故障,我们将根据SLA协议,尽快处理赔偿事宜。”。
从阿里云的回应来看,还是比较实诚的。但从目前的情况来看,此次宕机对阿里云品牌信誉还是带来了不小的影响。
有受到影响的阿里云用户纷纷在各种社交网站上吐槽,疑其技术保障体系的缺陷。
玺哥认为,阿里云必须重视用户的质疑和反应,因为对用户来说,把自家的业务和服务放在阿里云平台上,是对阿里云的信任和认可,现在因为阿里云的原因,自己的服务受到了影响,自己服务的客户、收入也受到了影响。
本次宕机事件,一方面让用户开始对阿里云这个品牌本身产生了质疑,另一方面,也迫使更多企业认真思考“多云战略”。
“多云战略”受关注,腾讯云们的机会来了
本次宕机事件后,如何预防服务中断、避免关键数据丢失成为大家关注的重点,同时, “多云战略”成了大家的焦点议题。
将关键计算能力、核心数据尽量分布在多个品牌的云上,这是避免损失的有效做法。这其实是“老生常谈”,技术人员都知道,但过去多数企业的管理层都没有对此真正重视起来。而近年来各种”宕机”事故的频繁发生,也给企业敲响了警钟,“多云战略”已成为企业在IT基础建设方面的共识。
所谓多云战略,指的是企业同时采用两家或以上的云服务供应商,并且在多个云之间部署热切换系统。这样当任何一家云服务商出现运行故障时,企业的关键应用和核心数据,就能迅速切换到其他云服务商的设施上继续运行。
实际上,多云战略在欧美先进地区早已广泛为企业接受。据IDC的预测数据,到2020年9成以上的企业都会采用“多云”来构建基础IT能力。随着国内企业纷纷跟上这个技术潮流,期望同时采用多个云服务品牌,为关键应用提供安全性。腾讯、电信等云服务商必将得到更多发展机会。
同时,欧美国家企业界的经验表明,由于企业普遍期望降低自身在IT方面的成本、同时又希望提升IT系统效率,所以他们在选择云服务商时,往往倾向于采用行业内排名靠前的品牌。在多云战略中,企业也会同时采用两家排名前列的品牌来支撑自身的IT系统。在欧美,亚马逊AWS、微软Azuer云等,都是各企业多云战略中的常规选项,当前IT系统的高度复杂性、升级迭代的密集度,也只有这些顶级服务商才能胜任。
同理,在国内云服务领域里,目前市场份额排名靠前的阿里云、腾讯云、电信云等,必将成为多数企业“多云战略”中服务商品牌的主要选择。
玺哥认为,正在使用阿里云的许多大企业、甚至中小企业,在考虑部署多云战略时,或将腾讯云列入优先考虑名单。换句话说,本次宕机事件后,在企业界兴起的“多云战略”技术潮流中,腾讯云极有可能成为最大的受益者。
腾讯云们的机会来了,但能否追赶上阿里云的脚步,就要看腾讯云能否抓住这个机会了。