机器学习、AI推动高效能运算 散热问题成关注焦点
随着科学、金融、物流、制造和石油天然气等领域开始采用高效能运算执行机器学习和人工智能(AI),高效能运算产生的热能以及其对节点、机架和丛集热密度的影响也引起相关社群的高度关注。 根据Inside HPC报导,机器学习和AI在2017年大放异彩,使得CPU、GPU和新兴类神经芯片为满足高效能运算丛集加速运算需求而不断升高瓦数的趋势受到注意,这些新发展不只是过去趋势的延伸,更代表一个转折点。 瓦数过高导致用户只能选用水冷方式,帮助高效能运算服务器使用的高效能芯片节点散热,才能维持合理的机架密度。如果不在节点层透过水冷散热方式冷却,就可能需要扩大导线的距离、楼板空间或数据中心。 而机器学习和AI会加速此一趋势,在AI应用程式的训练或学习阶段(特别是使用深度学习∕类神经网路方法时),GPU产生的热能和瓦数问题是众所周知的,甚至还会影响部署GPU的应用程式。 就算在训练阶段使用Knight’s Mill这类准GPU架构(透过“基本”机器学习或深度学习,然后切换至Skylake等CPU进行实际使用),瓦数∕密度∕散热等问题依旧存在,而且不太可能获得改善。 分散式冷却系统可以解决各数据中心的需求,而运算能力及瓦数的转折点正是加速全球高效能运算中心及OEM制造商采用丹麦水冷系统大厂Asetek产品的动机。Asetek的分散式泵浦架构是以每个服务器节点内的低压、冗余泵(redundant pump)和封闭环水冷为基础,提供热捕捉和散热的高度弹性。 Asetek的ServerLSL是服务器级的液体辅助空气冷却(LAAC)解决方案,可做为导入水冷系统的过渡阶段,或作为数据中心整合高效能运算节点的工具。ServerLSL可取代效率较差的空气冷却器,并透过每台服务器的热交换器将100%的热空气排放到数据中心。 这样一来,高瓦数服务器节点仍可维持高丛集机架密度,并由现有CRAC和冷却器处理热能,不需要改变基础设施,并可将水冷及传统空气冷却节点混合在同一机架当中。Asetek的RackCDU系统则是针对机架,对于整个数据中心的散热成本可产生更大影响。RackCDU系统使用与ServerLSL相同的泵浦和冷却器。