Tensilica公司长期以来一直争辩道,一个带有扩展指令(在测试基准中自动生成)的小而高效率的RISC内核可以替代定制硬件开发。
这个观点的依据是这样一种思想,即某人用C语言开发出一种算法,会将其分成两部分:非关键性的部分占90%,关键性的部分占10%,然后用定制指令来加速那些关键的内部循环。
这样一来,尽管是用软件实现了应用,但对整个应用开发生产力的提高通常能达到一到一个半数量级,这接近了采用不可编程的数据路径能达到的效果。
这个观点的本质就是:巨大的效率提升来自于用来加速内部循环指令的专门硬件,剩下的代码则在一个普通的vanilla RISC内核上运行。
然而随着系统级芯片设计尝试性地向90nm转移、甚至少数顶级设计团队开始向65nm迈进,这种基本的假设或许要改变了,因为包含特殊硬件、具有自觉意识的简单和改进型RISC内核本身达到了前所未有的运行速度。
这个事实将被清楚地显现出来,Tensilica刚刚宣布了90nm的Xtensa内核、设计流程工具以及实现硅制造所必需的合作伙伴。
通过采用台积电的模拟90GT工艺,在不考虑任何指令集扩展的情况下,对于基本的Xtensa内核,它的7级流水线版本仿真实现了最低655MHz的时钟电源。
据Tensilica总裁兼CEO Chris Rowen介绍,这并不是通过使用所有最快的晶体管和忽视良率来对设计进行手工调整得到的结果。
“这是一种使用代工厂所推荐的标准库和裕量的条形内核,我们在工艺变化上一直都是很谨慎的。所以,如果客户确实还想进一步通过调整来提高性能,这也提供了一定的改善空间。”Rowen说。
尽管速度提升,该内核的尺寸并没有增大多少:7级流水线内核只占0.224mm2。通过130nm时代Xtensa内核就已使用的精巧的频率和时钟门控技术,其能耗仍可控制在一定范围内,至少对于90nm G型工艺和在指定的频率下是如此。
“我们在RTL过程上花了很多时间,更好地使路径最优化。”Rowen表示,“另外还花了大量的时间来与EDA合作伙伴一起工作,用他们的工具调整90nm库中的各种功能。”事实证明,这一工作可以避免使流水线扩展到七级以上。”
东芝公司透露了自行开发的速度极快、小尺寸的可配置RISC内核,它的65nm ASIC采用了这种内核。该内核包括高速缓存、调试硬件、DMA控制器和DSP扩展,在65nm裸片上的尺寸大约为1.6×3mm,基于静态时序分析,时钟频率在1GHz左右。
在此新内核的速度下,需要做相当多的努力来保证用户的特定扩展电路能够跟得上宿主CPU。这要求认真分析路径延迟、存储器延时和扩展硬件的流水线级数和物理布局。
这个新内核却带来一个架构上的新思路:当一个任务呈现出数据和算法上的并行性时,可以直接给出500-700MHz的CPU资源,而不需要为了可能的指令集扩展而分析内部的循环。
甚至多线程也会变得更加复杂。Rowen指出,假定算法创建了足够的间隙和执行窗口给额外的线程,仍存在一个问题就是与复制整个处理器相比,要留多少裸片面积用于只是复制寄存器集。
(来源:电子工程专辑)