低功耗设计——门控时钟

1. 前言

芯片功耗组成中，有高达40%甚至更多是由时钟树消耗掉的。这个结果的原因也很直观，因为这些时钟树在系统中具有最高的切换频率，而且有很多时钟buffer，而且为了最小化时钟延时，它们通常具有很高的驱动强度。此外，即使输入和输出保持不变，接收时钟的触发器也会消耗一定的功耗。而且这些功耗主要是动态功耗。

那么减少时钟网络的功耗消耗，最直接的办法就是如果不需要时钟的时候，就把时钟关掉。这种方法就是大家熟悉的门控时钟：clock gating。(电路图中看到的CG cell就是门控时钟了)。

2. 门控时钟的结构

2.1 与门门控

如果让我们设计一个门控时钟的电路，我们会怎么设计呢？最直接的方法，不需要时钟的时候关掉时钟，这就是与操作，我们只需要把enable和CLK进行“与”操作不就行了么，电路图如下：

这种直接将控制EN信号和时钟CLK进行与操作完成门控的方式，可以完成EN为0时，时钟被关掉。但是同时带来另外一个很大的问题：毛刺。

如上图所示，EN是不受控制的，随时可能跳变，这样纯组合输出GCLK就完全可能会有毛刺产生。时钟信号上产生毛刺是很危险的。实际中，这种直接与门的方式基本不会被采样。所以我们需要改进电路，为了使门控时钟不产生毛刺，我们必须对EN信号进行处理，使其在CLK的高低电平期间保持不变，或者说EN的变化就是以CLK为基准的。

很自然的我们会想到触发器，只要把EN用CLK寄存一下，那么输出就是以CLK为基准的；
其实还有一种办法是锁存器，把EN用锁存器锁存的输出，也是以CLK为基准的。

2.2 锁存门控

我们先看一下第二种电路，增加锁存器的电路和对应的时序如下：

该方法的原理在于:锁存器在CLK为低时透明。这样，EN 信号上的毛刺仅出现在CLK的低电平处，EN1与CLK进行与操作，可以将这部分毛刺消除掉。这样，GCLK上就没有毛刺了。

虽然达到了我们消除毛刺的目的，但是这个电路还有两个缺点：

如果在电路中，锁存器与与门相隔很远，到达锁存器的时钟与到达与门的时钟有较大的延迟差别，则仍会出现毛刺。
如果在电路中，时钟使能信号距离锁存器很近，可能会不满足锁存器的建立时间，会造成锁存器输出出现亚稳态。

如下图分析所示：

上述的右上图中，B点的时钟比A时钟迟到，并且Skew > delay，这种情况下，产生了毛刺。为了消除毛刺，要控制Clock Skew，使它满足Skew >Latch delay（也就是锁存器的clk-q的延时）。上述的右下图中，B点的时钟比A时钟早到，并且|Skew| > ENsetup 一 (D->Q)，这种情况下，也产生了毛刺。为了消除毛刺，要控制Clock Skew，使它满足|Skew|< ENsetup一(D->Q)。

常见的是第一种毛刺，不过我们可以将这个逻辑做成一个单元，这样就基本上能消除上面的那两种毛刺了，因为这个门控单元是对Skew作了控制，不存在前面描述的毛刺问题，即：

2.3 寄存门控

如2.1中提到的，我们还有另外的解决办法，就是用寄存器来寄存EN信号再与上CLK得到GCLK，电路图和时序如下所示：

由于DFF输出会delay一个周期，所以除非CLKB上升沿提前CLKA很多，快半个周期，才会出现毛刺，而这种情况一般很难发生。但是，这种情况CLKB比CLKA迟到，是不会出现毛刺的。当然，如果第一个D触发器不能满足setup时间，还是有可能产生亚稳态。

2.4 门控时钟结构选择

那么到底采用哪一种门控时钟的结构呢？是锁存结构还是寄存结构呢？通过分析，我们大概会选择寄存器结构的门控时钟，这种结构比锁存器结构的问题要少，只需要满足寄存器的建立时间就不会出现问题。那么实际中是这样么？答案恰恰相反，SOC芯片设计中使用最多的却是锁存结构的门控时钟。

原因是:在实际的SOC芯片中，要使用大量的门控时钟单元。所以通常会把门控时钟做出一个标准单元，有工艺厂商提供。那么锁存器结构中线延时带来的问题就不存在了，因为是做成一个单元，线延时是可控和不变的。而且也可以通过挑选锁存器和增加延时，总是能满足锁存器的建立时间，这样通过工艺厂预先把门控时钟做出标准单元，这些问题都解决了。

那么用寄存器结构也可以达到这种效果，为什么不用寄存器结构呢？那是因为面积！一个DFF是由两个D锁存器组成的，采样D锁存器组成门控时钟单元，可以节省一个锁存器的面积。当大量的门控时钟插入到SOC芯片中时，这个节省的面积就相当可观了。所以，我们在工艺库中看到的标准门控时钟单元就是锁存结构了：

当然，这里说的是SOC芯片中使用的标准库单元。如果是FPGA或者用RTL实现，个人认为还是用寄存器门控加上setup约束来实现比较稳妥。

2.5 门控优缺点

2.5.1 优点

通常情况下，时钟树由大量的缓冲器和反相器组成，时钟信号为设计中翻转率最高的信号，时钟树的功耗可能高达整个设计功耗30%。加入门控时钟电路后，由于减少了时钟树的开关行为，节省了开关功耗。同时，由于减少了时钟引脚的开关行为，寄存器的内部功耗也减少了。采用门控时钟，可以非常有效地降低设计的功耗，一般情况下能够节省20%~60%的功耗。

　　此外，由于门控时钟不需要用到MUX单元，加入门控时钟电路后，设计的面积也减少了。门控时钟电路的扇出越大，减低功耗和面积的效能越好。当然，扇出太大了，又会产生时序等的问题。

　　门控时钟电路非常容易实现，用工具自动插入门控时钟，不需要修改RTL代码，门控时钟与工艺无关。

2.5.2 缺点

那么完成了clk-gating结构后我们需要分析一下，clk-gating的收益是什么呢？功耗收益，能够在EN端不使能时关断时钟降低寄存器的动态功耗。那么对应的额外消耗支出有哪些呢？

面积增加，与门、或门和latch都是会增加面积的，因此工具不会无脑的插入gating，一般只有在EN控制的寄存器超过4bit时才会插入，这个值是可以设置的；
EN路径的时序更加紧张，为了保证时钟及时被开启，EN端必须更早的实现时序收敛（或者理解为EN路径是相对clk的，D路径是相对gating clk的）。关于这一点综合完的clk timing.rpt和clk gating timing.rpt对比下就会发现gating的timing路径中一般会减去一个时间比如-100ps；

3. RTL中的门控时钟

通常情况下，时钟树由大量的缓冲器和反相器组成，时钟信号为设计中翻转率最高的信号，时钟树的功耗可能高达整个设计功耗40%。加入门控时钟电路后，由于减少了时钟树的翻转，节省了翻转功耗。同时，由于减少了寄存器时钟引脚的翻转行为，寄存器的内部功耗也减少了。采用门控时钟，可以非常有效地降低设计的功耗，一般情况下能够节省20%~60%的功耗。

3.1 门控实现

那么RTL中怎么才能实现门控时钟呢？答案是不用实现。现在的综合工具比如DC会自动插入门控时钟。如下图所示：

上图的典型综合结果中（即不使用门控时钟的情况），在每个受EN使能控制的寄存器之前加入了一个MUX，当EN信号有效时，寄存器锁存输入信号D;否则保持原值。这种方法也能减少寄存器上的翻转，因而节省翻转功耗。然而，这种“载入一使能”结构中，每个寄存器都有一个MUX，假设MUX面积为4，则8位寄存器需要增加的面积为32。面积越大，意味着芯片成本越高，而且整体的功耗也会增加。另外，这种方式不能消除时钟树上的功耗。

对于右下角的门控时钟形式的综合电路，假设一个门控逻辑的面积为10，一个门控时钟信号可以驱动8位寄存器，则在门控时钟电路中，对每8个寄存器需增加一个门控逻辑，增加的面积为10。由此可以看到，门控时钟的电路比普通综合结果的面积更小、功耗更低。

这里有两点需要注意：

插入门控时钟单元后，上面电路中的MUX就不需要了，如果数据D是多bit的（一般都是如此），插入CG后的面积可能反而会减少；
如果D是单bit信号，节省的功耗就比较少，但是如果D是一个32bit的信号，那么插入CG后节省的功耗就比较多了。

这里的决定因素就是D的位宽了，如果D的位宽很小，那么可能插入的CG面积比原来的MUX大很多，而且节省的功耗又很少，这样得不偿失。只有D位宽超过了一定的bit数后，插入CG的收益就比较大。

那么这个临界值是多少呢？不同的工艺可能不一样，但是DC给的默认值是3.也就是说，如果D的位宽超过了3bit，那么DC就会默认插入CG，这样综合考虑就会有收益。我们可以通过DC命令来控制芯片中，对不同位宽的寄存器是否自动插入CG。一般情况都不会去修改它：

set_clock_gating_style -minimum_bitwidth 4

鉴于门控时钟的优点，我们需要把普通的综合结果“转换”为门控时钟的结果，我们主要是通过DC的power compiler来自动实现的。我们主要通过命令来设置门控时钟的风格和通过命令“启动”插入门控时钟。综合工具根据我们所设置的时钟门控的风格，插入相应的门控逻辑。因此，门控时钟的实现主要有两步，一步是设置门控时钟的风格，通过命令set_clock_gating_stale 及其选项来实现；另一步就是在网表中加入门控时钟，通过命令insert_clock_gating来实现。