AI芯片大军来袭(上)_热点评测

专为训练DNN量身客制的第一批商用芯片将于今年上市。由于训练新的神经网络模型可能需要几周或几个月的时间，因此，这些芯片可能是迄今为止最大也是最昂贵的大规模商用芯片…

深度神经网络(DNN)就像遥远地平线上的海啸一样涌来。

鉴于该技术的演算法和应用仍在演进中，目前还不清楚深度神经网络最终会带来什么变化。但是，迄今为止，它们在翻译文本、辨识影像和语言方面所取得的成就，清楚地表明他们将重塑电脑设计，而这种变化正在半导体设计和制造方面发生同样深刻的变化。

专为训练DNN量身客制的第一批商用芯片将于今年上市。由于训练新的神经网络模型可能需要几周或几个月的时间，因此，这些芯片可能是迄今为止最大、也最昂贵的大规模商用芯片。

新创公司追逐深度学习

业界可能会在今年看到来自新创公司Graphcore一款未使用DRAM的微处理器，以及一款来自其竞争对手——晶圆级整合先锋Cerebras Systems的产品。英特尔(Intel)收购取得的2.5-D Nervana芯片已经在生产样片了，其他十几个处理器正在开发中。同时，从Arm到Western Digital (WD)等几家芯片公司也在研究核心，以加速深层神经网络的推论部份。

“我认为2018年将是一场各种产品纷纷出炉的派对。”加州大学柏克莱分校(UC Berkeley)荣誉教授David Patterson表示：“我们刚刚开始看到许多公司开始评估一些想法。”

这个趋势非常明显，Patterson和共同作者John Hennessey在上个月发表有关运算的开创性文章最新版中，另外写了一个新的篇章。作者对内部设计提供了深入的见解，例如Patterson针对Google TensorFlow处理器(TPU)以及苹果(Apple)和Google最新智能型手机芯片中的Microsoft Catapult FPGA和推理模组发表评论。

“这是电脑架构和封装的复兴，”Patterson说：“明年我们将会看到比过去十年更有趣的电脑。”

过去几年来，深度神经网络的兴起，让创业投资(VC)的资金重新回到了半导体领域。《EE Times》最近发表的新创公司评选计划‘Silicon 60’中，列举了七家与神经网络芯片有关的新创公司，其中包括两个鲜为人知的名称：中国北京的寒武纪科技(Cambricon Technologies)和美国德州的Mythic Inc.。

“我们看到基于新架构的新创公司爆增。我自己追踪了15到20家......过去10到15年来，在任何一个细分领域中都不曾有超过15家的半导体公司同时涌现的事情”，连续创业家Chris Rowen说。他从Cadence Design Systems离职后，成立了一家公司Cognite Ventures，专注于神经网络软件。

Rowen说：“Nvidia由于其强大的软件地位，将难以与其在高阶服务器训练方面竞争。而如果你去追求智能型手机市场你会觉得自己疯了，因为你必须在很多方面都做得出色。不过在高阶或是低阶的智能型手机市场，还是可能会有一些机会。”

市场观察家The Linley Group负责人Linley Gwennap表示，Nvidia最新的GPU (Volta)表现非常出色，他们调整了对于DNN的速度训练。Gwennap说：“但我当然知道这还不见得是最好的设计。”

Gwennap说，英国Graphcore和美国Cerebras是在训练芯片方面最值得观察的两家新创公司，因为他们筹集的资金最多，而且似乎拥有最好的团队。由Google前芯片设计师创立的新创公司Groq声称，它将在2018年推出一款推理芯片，能在每秒运作效能和推论中以4倍的优势击败竞争对手。

AI芯片大军来袭(上)0

英特尔Nervana是一款大型的线性代数加速器，位于硅中介层上，紧邻四个8GB HBM2存储器堆叠。（来源：Hennessy和Patterson合著的《Computer Architecture: A Quantitative Approach》

Intel的Nervana称为Lake Crest (上图)，是最受关注的客制设计之一。它执行16位元矩阵操作，资料共用指令集提供的单个5位元指数。

如同Nvidia的Volta，Lake Crest逻辑元件位于台积电(TSMC)的CoWoS中介层上，紧邻着四个HBM2高频宽存储器堆叠。这些芯片被设计成网状，提供3-10倍于Volta的性能。

虽然去年微软在DNN上使用了FPGA，但Patterson仍然对于这种方法持怀疑态度。“你为FPGA的灵活性付出了很多代价。但程式设计真的很难，”他说。

Gwennap在去年年底的一项分析中指出，DSP也将发挥作用。他说，Cadence、Ceva和Synopsys都提供针对神经网络的DSP核心。

加速器缺少共同基准

虽然芯片即将问世，但是架构师们还没有决定如何评估。

就像RISC处理器的早期，Patterson回忆说，“每一家公司都会说，『你不能相信别人做的基准，但是你可以相信我的』，那不太好。”

那时，RISC供应商在SPEC基准测试中进行了合作。现在，DNN加速器需要自己定义的测试套件，涵盖各种资料类型的训练和推理以及独立的或是丛集的芯片。

因此，由20多家主要服务器和软件制造商组成的“交易处理性能委员会”(TPC)在12月12日宣布组建了一个工作组来定义机器学习的硬件和软件基准。 TPC-AI委员会主席Raghu Nambiar表示，目标是创建无论加速器是CPU还是GPU都适用的测试。但是，这个团队的成员名单和时间架构还处于变化中。

百度(Baidu)于2016年9月发布了一个基于其深度学习工作负载的开放原始程式码基准测试工具，使用32位元浮点数学进行训练任务。它在六月份更新了DeepBench以涵盖推理工作以及使用16位元数学。

美国哈佛大学(Harvard University)研究人员发表的Fathom套件中，定义了8个人工智能(AI)工作负载支持整数和浮点数据。Patterson说：“这是一个开始，但是要成为一个让人感觉舒适的全面基准测试套件，还需要更多的努力作。”他说：“如果我们努力打造一款好的测试基准，那么所有投入工程的钱都会花得值得。”

除了基准之外，工程师还需要追踪仍在演变中的神经网络演算法，以确保其设计不会被束之高阁。

高通(Qualcomm)下一代核心研发总监Karam Chatha表示：“软件一直在变化中，但是你需要尽早把硬件拿出来，因为它会影响软件——你不得不催促让它发生。到目前为止，行动芯片供应商正在Snapdragon SoC的DSP和GPU核心上执行神经网络任务，但一些观察家预计，它将为机器学习客制一个新的模组，放在2019年的7nm Snapdragon SoC中。

AI芯片大军来袭(上)1

高通展示客制DNN加速器的研究范例，但它现在仍然使用通用DSP和GPU核心的软件（来源：高通）

Patterson说：“市场将会决定哪种芯片最好。现实是残酷的，但这是设计电脑让人兴奋之处。”

早期进入的业者已经进入这场机会竞赛中。

例如，Facebook最近证明，透过大幅增加封装到所谓批量大小的功能数，可以将训练时间从一天缩短到一小时。对于试图在本地SRAM中执行所有运作的Graphcore来说，这可能是个坏消息，因为这样的设计虽然降低了外部DRAM的存取延迟，但也限制存储器占用空间。

Patterson说：“这是为小批量资料封包而设计的，但几个月前的软件结果表明你需要大量的资料。这显示事情变化的速度有多快。”

另一方面，Rex Computing认为该公司正迎来一个有利的机遇。该新创公司的SoC最初是为高性能服务器设计的，使用了一种新颖的暂存器存储器。Rex Computing联合创始人Thomas Sohmers说Rex的方法消除了在虚拟页面表中快取资料的需求——因为这种使用GPU的技术会增加延迟。

因此，他说Rex的芯片性能比现在的GPU更好，特别是在处理普遍的矩阵/向量运算神经网络时。该新创公司计划6月份推出搭载256核心的16nm SoC，希望能提供256Gflops/watt的运算能力。

与此同时，研究人员正试图从32位元到1位元浮点和整数数学的一切可能，以找到最有效的方法来运算神经网络的结果。他们似乎同意的一点是，最好不要在不同的精确度之间转换。

AI演算法仍处于发展初期

深度神经网络几十年来一直在AI方面进行小部份的工作。从2012年开始，包括Facebook的Yann LeCun等研究人员开始使用特定类型的DNN辨识影像，最终以比人类更高的准确度显示令人惊叹的结果。深度学习技术吸引了研究界，现在正高速发表论文，寻求新的突破。

DNN现在提供商业服务，如亚马逊(Amazon)的Alexa和Google翻译，以及Facebook的脸部辨识。网络巨擘及其全球竞争对手，正竞相将这些技术应用于尽可能多的服务中，并期待找到杀手级应用。

微软每年都会以AI为主题举行两次员工内部会议。最近一次有5,000人参加，前SPARC处理器架构师Marc Tremblay表示，他现在领导微软在客制AI芯片和系统方面的工作。

专家坦承，他们没法完全理解为什么现有演算法能如此充份发挥。辩论主题是探讨这些网络演算法的相对有效性，例如递回(RNN)和卷积(CNN)神经网络。同时，新的模式仍在发明之中。

AMD研究员Allen Rush在最近一次关于AI的IEEE研讨会上说：“在未来五年内，演算法仍然极有可能发生改变。但我们打赌像矩阵乘法这样的最底层演算法是不会改变的。”

这就是Google以TPU所做的赌注，最新版TPU针对训练和推理工作。它本质上是一个大的乘法累加单元阵列，执行和储存线性代数常式的结果。Nervana和Graphcore的芯片预计会随之效仿。

哈佛大学前大脑研究人员Amir Khosrowshahi说，在神经网络方面取得的成就主要集中在AI领域。他曾经共同创办了Nervana公司，目前是英特尔Nervana部门的技术长。他在IEEE研讨会上表示：“由于深度学习非常成功，所以事实逐渐被掩盖了。如今，每个人都在做卷积神经网络，但这是一场悲剧......不要以为现在发生的事情一年后就一定会有成果。”

AI芯片大军来袭(上)2