在丢包率为0.1%的传统以太网中,我们生活安然,并无不适。而现在,人工智能(AI)带来的数据量激增改变了这一切。
那些以太网曾经看来微不足道的“苟且”开始变得如鲠在喉,它让人们越来越无法忍受。至少对于那些以AI为生的公司和个人而言,情势正变得越来越紧迫:
根据华为GIV 2025(Global Industry Vision)的预测,企业对AI的采用率将从2015年的16%达到2025年86%,彼时,新增数据量达到180ZB,95%的非结构化数据(语音/视频等)依赖AI处理,越来越多的企业将利用AI辅助决策、重塑商业模式与生态系统,并重建客户体验。
一项实测支持的业务观察显示,因为AI业务带动的数据量高速增长,0.1%的以太网丢包率会导致AI的计算力损失约50%——面向AI,在计算和存储领域已经取得突破之后,这一现实让网络设备供应商感受到了前所未有的压力。
为提升AI运行效率,过去数年间,闪存已经大范围进入存储领域,它让数据存储的时延降低超过了100倍;在计算领域,GPU等主要服务于AI的芯片也将数据处理能力提升了100倍以上。
在ICT领域,AI的短板眼下只剩下一块——网络设备。针对这一问题,华为网络产品线总裁胡克文认为,面向AI的未来,网络设备应该做到“强制性”的零丢包。
每家ICT厂商都是努力做着同一件事情,生产出这类适应AI需求的网络设备,全球范围概莫能外。它意味着巨大的挑战与创新,也意味着可见的、巨大的市场回报。
7天的训练,4天完成
如今,围绕这块短板,华为再次领先了。在上周的春季新品发布会上,它推出了植入高能效AI芯片的新款交换机CloudEngine 16800。
这款业界首款面向AI时代的计算中心交换机,可以借助其实时学习训练能力和独创的iLossLess智能无损交换算法,在以太网中实现零丢包机制,并实现流量模型的自适应自优化。
2018年,华为轮值董事长徐直军宣布,华为将AI定位为新的通用技术,并发布了AI发展战略,全面将AI技术引入到智能终端、云和网络等各个领域。
CloudEngine 16800能通过AI技术的应用实现突破,显然直接受惠于此战略的执行。基于AI技术,该款产品在网络调优上实现了智能化:一个是单流局部调优,另一个是整网全局调优。
如果将网络视作一个城市的交通网,前者实现了在一个十字路口智能调整红绿灯时间的功能;而后者,则实现了动态关联调整全市红绿灯时间的功能。
据测算,这一系列AI技术的应用,不止在用户端将AI算力从50%提升到100%,同时还将数据存储IOPS的性能提升了30%.
一家互联网巨头已经对这款新品进行了测试,业务内容则是当下方兴未艾的无人驾驶AI训练。
训练的效果让人们大吃一惊——以往1天运行的数据需要训练7天才能完成,而现在,这家公司只用了4天。对于高速的商业竞争而言,这几乎是直接为用户提供了一种接近核心的竞争力。
做一台AI时代的交换机
华为也因此将“内嵌AI芯片”定义成了AI时代数据中心交换机的三大特征之一。在其最新定义中,另外两项特征则分别是“单槽48 x 400GE高密端口”,和“能够向自动驾驶网络演进的能力”。
“如果这三大特征,你不符合的话,你可能就不是面向AI时代的数据中心交换机。”胡克文说。
2012年华为发布了100GE的正交架构产品CloudEngine12800数据中心交换机,并在此后一路高歌猛进。从2016年起,华为的数据中心交换机已连续三年蝉联市场份额第一。2018年,在标志最高应用标准的金融行业,华为数据中心交换机也坐上了头把交椅。
华为在技术创新上的投入一直为外界称道,并被视为华为企业基因式的存在。但这种基因以何种形式在机体中发挥作用,外界通常知之甚少。在这一点上,CloudEngine 16800为实现跨越式硬件平台升级所做的技术准备,则可以清晰地显现出这一基因的“运作”方式。
为满足AI时代流量倍增的需求,CloudEngine 16800单槽位提供了业界最高密度48端口400GE线卡,单机则提供业界最大的768端口400GE交换容量,这一交换能力是业界平均的5倍。
其中,针对400GE接口的标准化工作,华为早在2015年便已经启动——考虑到企业AI等新型业务驱动了数据中服务器从10G到25G甚至100G的切换,华为判断行业必然要求交换机支持400G接口,400GE接口标准化工作于2015年启动,并针对数据中心应用完成了标准化。
此外,在新材料新工艺、能效和散热等领域,CloudEngine 16800的创新林林总总,不胜枚举。例如,在用户直接可见的节能方面,与业界相比,新品可将平均每bit数据的功耗降低50%,这相当于每台每年节省32万度电,约合电费26万元。
自动驾驶从秒级识别开始
另一项用户可以直接感受到的革新,同样来自于AI技术的应用。这种用户可感知的能力被称为“能够向自动驾驶网络演进的能力”。
在传统数据中心,在接到故障告警后,技术人员必须依靠人工排查的运维手段定位故障,如果不够幸运,一项故障排查通常需要数小时,甚至更长的时间。这在业务部门看来,显然是无法接受的——它无法面向一个充满挑战的AI时代。
和解决丢包问题一样,华为将问题“交还”给了AI,期待自动驾驶网络能够彻底改变运维人员面对的窘境。
现实中,汽车领域的自动驾驶技术正经历着高速的演进,要在网络世界实现自动驾驶,进程同样存在,一步到位并不现实。在这一点上,胡克文相当乐观:只要有梦想和追求,未来就一定能实现。
“首先,能不能做到在秒级(时长)中把故障识别出来?(那样,IT人员的)压力就会小很多。”他说。
要实现自动驾驶网络,供应商至少要在算法、数据和本地推理与执行等领域同步推进,并在软硬件技术端实现AI的闭环。
据胡克文透露,目前华为相关的iNetOps智能运维算法已经可以支持72大类典型故障,在盲测中,它支持的故障定位准确率超过了90%.
结合这些软实力,以及内置AI芯片提供的硬支持,华为最终在CloudEngine 16800中大幅度提升了“网络边缘”即设备级的智能化水平,使得交换机具备了本地推理和实时快速决策的能力。通过本地智能和集中的FabricInsight网络分析器,CloudEngine 16800构建了一个分布式AI运维架构,并最终实现了秒级故障识别和分钟级故障自动定位。
这一系列的努力,最终让CloudEngine 16800在AI时代背景下展现出了它与众不同的一面。
在同一背景下,数据中心已经成为了AI的“孵化工厂”;现在,要让这个AI在企业数字化转型中扮演更为重要的角色,“孵化工厂”的升级也已进入了时间的节点。
或许,就像华为所努力的方向一样,“孵化工厂们”也是时候考虑如何建设一个自动驾驶的高性能网络来提升AI算力,并最终实现AI业务的加速了。毕竟,AI时代的网络,断然不会接受“苟且”。