四倍带宽存储器技术(QBM)采用一种“位填塞”机制,在不增加自身基准连接器的条件下增加了存储器子系统数据带宽。本文将介绍QBM技术的实现原理和性能特点,并将其与工程师所熟知的SDRAM和DDR技术进行比较。
QBM技术可以解决常见的RLC(电阻、电感、开关)效应,以及传输线路影响和当前计算机中存储子系统执行速度慢的问题。这些问题影响了存储器的密度和数据存储及传传输速度的提高。
在存储器技术的发展过程中,高密度、高速度和低成本是不变的目标。这三者的关系好比三角形的三个角,要同时增大三个角度是不可能的,在存储技术的发展过程中实现所有的三个目标一直是一种挑战。由于QBM技术不需要更高时钟频率的存储器器件,因此,系统也无需设计为高频,这使得实现数据总线的高速传输设计更加容易,实现了一种高速、经济高效、可扩展的解决办法,解决了不断增加的处理能力和存储器带宽之间的矛盾。
由于存储器是数据存储和传输的中心,没有它计算部件就不能有效发挥其功能,因此,速度和带宽是最重要的参数。
对系统设计人员来说,更快的处理速率已经成为一种巨大的负担,因为总要设法使存储器带宽与CPU速度匹配,而存储器的存取速度远远落后于CPU的处理速度,图1描述了处理速度与存储速度之间发展的失调。了解现有系统和与其相关的存储器,可以更好地理解数据传输以及系统设计人员所面临的困难。图2中以框图的形式描述了现在的典型计算机系统的组成。
图2显示了带有到一个控制器的数据和控制总线接口的中央处理器(CPU)。控制器以最简单的形式与存储器件连接,或者连到DIMM封装中的一簇存储单元上。存储器子系统包含一个带有数据、地址、控制总线和时钟的存储控制器。该系统与所有的信号同步,数据和控制在基准时钟下同步操作,该时钟速度也表示了数据进出存储器的速率。
总线至少要连在一个多管脚电容上,在本文的示例中,使用了四个这样的连接器。在每个连接器中,要插入一个DIMM封装的存储模块。后面将重点讨论每条据线上的数据速率、存储元件传输的数据速率和QBM传输的数据速率的分析,以及多个DIMM存储器子系统对系统数据速率性能的影响。
单数据速率在一个同步存储器子系统中,数据的写入或读出与基准时钟同步。 数据位周期与时钟周期相同,通过基准时钟频率可以测量出数据速率,例如,如果基准时钟频率为100 MHz,则数据速率为100 Mb/s(100 MHz)。在频域,为了产生一个类似时钟的数据位,数据必须在1、0、1之间变换。在本例中,数据位频率是基准时钟频率的一半。在图3的例子中显示的数据位频率是50 MHz。
了解数据位的有效时间后,可以发现位存在的时间并不是完全有用。在满足接收器的设置和保持时间后,信号持续时间的剩余部分实际上是一种浪费。
当数据位线与四个DIMM连接器相连接时,由于DIMM产生的电容负载、线路抽头以及传输线反射的影响而使得数据位信号的完整性受到影响。上面描述的这些问题在快速存储器子系统的执行中将产生严重的影响,使得更高频率存储器子系统的设计难度更大。
任何系统的性能可以通过在给定时间内系统所能处理的数据量来衡量。上面已指出,为了提高数据速率,系统的基准频率必须随着硅片的基准频率而增加,然而,要实现更高硅片频率有一定的困难。由于位时间太长而产生浪费,因此不用增加基准频率,而是在单个数据位时间内产生两个数据位。虽然这样提高数据速率也需要增加存储器件硅内部频率,但系统基准频率不变。这种不增加基准频率而使数据速率增加的方法产生了一种新的双倍数据速率(DDR)结构。
DDR存储器
通过图4可以很好地理解DDR结构的原理。
从图4中可以看到,基准频率(时钟)保持在100 MHz。在每个基准频率周期内,从存储器读出两位,即每个基准时钟周期内,存储器传输两个数据位。如果数据是在1和0之间变化,那么可以将数据位流看作基准时钟。因此,数据速率是基准时钟频率的两倍。
然而,为了获得更大的整体存储器带宽,还有很多需要改进的地方。 对于新加入这个行列的竞争者来说,存储器设计的复杂性在技术上和成本上具有很大的挑战性。快速的器件将具有更高的内部速度特性和复杂性,随着存储器的基准频率和数据率的增加,主板设计、控制器、电路板、DIMM和主板的复杂程度都要增加。 这是因为,通过提高基准时钟频率而获得增加的数据率使得整个设计余量降低。例如,印刷电路板的设计必须保证数据在DIMM和控制器之间传输时具有更好的数据位信号质量控制,每次技术改进都要解决在技术和成本方面的很多问题。
QBM结构在不增加存储器基准频率的条件下增加了存储器子系统的数据带宽。QBM利用现有的存储器和其它器件,实现了能获得两倍数据率的配置。该结构的原理是:当数据从存储器输出时,在接收器的设置和保持时间数据有效;当数据由控制器传输时,在存储器的设置和保持时间内数据有效。这里所讨论的存储器是DDR。实现QBM结构需要的其它器件有:一种“2到1” FET频率;一种具有基准频率输出、基准频率的90度相移输出以及双倍基准频率输出的锁相环(PLL)。
上面的讨论已经讲到,数据在接收器的设置和保持时间内有效即可,没有必要长时间有效。基准频率为100 MHz时,每个DDR器件输出的数据位的理想保持时间是5毫微秒。很明显,当接收器的设置和保持时间不足1毫微秒时,很多时间被浪费掉。为了降低位时间,就必须使用一种更高的基准频率。这将要求存储器在不断增加的频率下运行。为了避免更高频率问题(以及相关的系统设计复杂性和成本问题),QBM技术是一种将每个位时间分割,使另外一个有效的数据位插入到第一个数据位没有占用的时间内的方法。简单地说,QBM是一种“位填塞”(bit packing)机制。
图5到图7描述了QBM结构。
图5a中,两个DDR芯片连接到一个“2到1”的FET开关。开关的输出连接到一个用于模块排列的TAB。TAB可以是接收器,在实际的计算机环境中,TAB是模块的一部分,该模块与连接器管脚相连接。 连接器管脚通过印制线与接收器连接。当通过印制线传输数据信号时,必须解决电容负载效应和传输线特性的影响。当多个模块连接在一起组成一个存储器子系统时,负载和传输效应更明显,使得设计更复杂。
两个DDR芯片具有相同的基准频率,只是其中一个器件的时钟有90度(或者1/4周期)的相移。 每个芯片根据DDR规范操作,每一时钟周期产生两个数据位。如果数据位时间是理想的,在同一时间内可以读取两个芯片的数据。数据位时间分为两部分,对于系统设计人员来说,数据位时序在数据位时间的开头和结尾会发生不确定的变化(由于时钟抖动、偏移和最小/最大时钟到输出的变化)。 因此,实际有效的保持时间不足理想的一半,图5(b)给出了理想情况的例子。为了使FET开关准确地采样到示例中有效的信号部分,必须进行相移,该方法实际上是产生一种过滤效应,传输信号具有很少的不确定性的变化。FET开关在数据不确定时间过后定时打开,以对有效数据位的正确部分进行采样。
传输到接收器的数据位是存储器所产生的数据位的两倍。在一个时钟周期,有四位被"填塞"。FET开关对存储器的数据位采样,与那些数据位相关的数据脉冲也被采样。假定数据和脉冲的线长及特性参数一致,数据和数据脉冲将在合适的相位到达接收器。
将上面所讨论的两个芯片的情况扩展到一组芯片或者几个存储器组(bank)。下面的图6显示了两个基于DIMM的DDR存储器组以及连接到DIMM TAB和DDR器件的FET开关。
图7是一个实际具有图6所描述的特性的QBM模块示例。在存储器子系统中,为了提高密度,常常用到一个DIMM(或者多个DIMM)。 如果不是FET开关,所有在DIMM TAB 和DIMM上存储器芯片之间的连接和负载都要加到每个数据位线上,大量的负载将使设计非常困难,限制了密度的提高,也无法实现高频。而对于QBM DIMM,负载效应已经降到容易控制的程度。只有被选中的DIMM才将其负载加到数据总线上。运行期间,FET开关阻止所有其它未被选中的DIMM的负载出现在总线上,只有少量的由FET开关连接和短连接线引起的容性负载出现。因此,用QBM DIMM设计非常简单,存储器子系统密度的增加,并不防碍数据位频率的增加。还可将此方法扩展,即在主板上放置时钟和FET开关,从而可以使用标准存储器模块。
图7以框图的形式显示了DIMM级的QBM结构,其中有两个存储器插槽、FET开关和具有期望的相移和频率增加的PLL组件。
图8给出了相移时钟仿真波形。对已经实现的QBM结构进行实际测试以验证其可行性,测试的时钟频率为133MHz,产生的输出速率为533MHz。
图9给出了QBM测试的实际波形。这是接收器的数据信号, 接收器与DIMM连接器之间的连线大约为五英寸,图中也显示了标准时钟的基准时钟周期。从本例中可以看出,FET开关在位时间有效部分对数据位采样。图10给出了与图9相同的实际数据位,并与从DDR出来的数据位进行比较。
本文小结:
存储技术发展的主要设计目标是提高密度和速度,并降低成本。当今和未来的软件应用都需要增加存储器的密度,同时提高存储器子系统的速度。在密度和速度增加的同时还要降低成本,这给存储器生产商的压力不断加大。而QBM体系结构则利用成熟的存储器件,降低了成本。QBM很容易实现数据总线的高速传输设计,从而不再需要设计更高频的存储器件,因此,系统也无需设计为高时钟频率。毕竟,在一段线上控制速度比设计和控制硅器件更容易。
(源自:Kentron公司 作者: Chris Karabatsos)