超前进位加法器的优化设计

2014-02-09袁浩,唐建,方毅

通信技术 2014年3期

关键词：加法器晶体管功耗

袁浩,唐建,方毅

(1.中国科学技术大学电子科学与技术系,安徽合肥230027；2.中国科学技术大学信息科学实验中心,安徽合肥230027)

超前进位加法器的优化设计

袁浩1,唐建1,方毅2

(1.中国科学技术大学电子科学与技术系,安徽合肥230027；2.中国科学技术大学信息科学实验中心,安徽合肥230027)

在对超前加法器逻辑算法分析的基础上,介绍了一种优化设计方法。宽位加法器采用多层CLA(Carry Look-ahead Adder)块技术,按四位为一组进行组间超前进位,减小硬件延时,达到并行、高速的目的。并在晶体管级重点对全加器进行优化设计,从而降低整个电路的延时、面积和功耗。仿真结果表明,在SMIC65nm工艺下,设计出的16位超前进位加法器,其延时,面积,功耗相比传统结构都有了明显的改善,达到了优化的效果。

超前进位分层加法器优化

0 引言

作为减、除、乘、模乘等运算的基础,加法运算是最重要、最基本的运算。在加法运算中存在进位的问题,高位计算结果的得出与所有低于它的位相关。而且由于加法器常处于DSP处理器和高性能处理器的关键路径中[1],因此人们设计了多种加法器用以减少进位传输延迟时间,提高计算速度,如跳跃进位加法器(CSKA,Carry-Skip Adders)、行波进位加法器(RCA,Carry-Ripple Adders)、进位选择加法器(CSLA,Carry-Select Adders)、超前进位加法器等。

在各种加法器中,超前进位加法器的运算速度最快,但是结构也最复杂,从而导致功耗较大。设计时的关键问题就是如何在保持性能不变的情况下减小其面积和功耗。文中从两个方面对CLA进行优化设计以达到降低功耗、减小面积的目标。

1 CLA原理

一个n位的加法器,设ci来自(i-1)位的进位输出位,ci+1是第i位的进位输出位,cn是整个加法器的进位输出,c0是整个加法器的进位输入。第i位的输入为ai、bi,输出为ci+1和si,则有:

如果ai·bi=1,那么ci+1=1,称

为进位产生函数。如果ai⊕bi=1,就会把ci传递到i+1位,称

为进位传播函数。即有:

将式(5)展开有:

式(6)表明,n位加法器的每位进位的生成都可由进位生成函数和进位传播函数求出,即各进位彼此独立,不依赖于低位进位传播,因此延迟非常小。并且无论位数怎么增加,其总会保持三个逻辑级的深度,即生成进位的延迟是与位数无关的常数[2]。把用上述方法生成进位的加法器称为超前进位加法器(CLA)。

一般超前进位加法器产生pi和gi需要一级门延时,生成ci需要两级,生成si需要两级,最后输出加法结果总共需要五级门延迟,这与普遍需要2n级门延迟[3]的串联加法器比较,延迟显著缩短了。

2 结构的优化设计

当超前进位加法器扩展为比4位更宽位时,随着位数的增加式(6)的最后一项的项数在增多,通过最长时延路径的门数在增加从而导致其硬件延时会增大,并且也需要大扇入门、大驱动信号和长线驱动[4]。这在实际设计时是不太可能实现的。

为了解决这个问题,可以采用多层CLA块技术,对宽位加法器进行分组分层设计。

2.1 多层CLA块技术

假设一个n(n=2k,k为整数)位加法器,从中选取第i(i=4k,k为整数),如图1所示。

图1 n位加法器电路Fig.1N-bit adder circuit

从i位到i+3位构成一个4位的超前进位产生电路,图2为这个电路的输入输出信号图,该电路用传播函数和产生函数来生成通常的进位输出位,同时计算出块传播函数p[i,i+3]和块产生函数g[i,i+3],其中:

图2 4位超前进位产生电路的信号Fig.2 Signal of 4-bit carry look-ahead produce circuit

块产生函数和块传播函数描述了从i到i+3位这一组的整体进位特性,进而传送到上一级超前进位模块。图3为其逻辑图。

图3 块超前进位产生逻辑图Fig.3 Piece carry look-ahead logic diagram

这样按4位一组的形式对n位加法器进行分组,组内实行超前进位,组间也实行超前进位,并同时对超前进位逻辑进行分级,一般分为logn4级[3],如图4所示。最低一级超前进位逻辑模块会计算出组内的传播函数pi、产生函数gi以及块传播函数p[i,i+3]和块产生函数g[i,i+3]。高一级模块会根据上一级模块传送的p[i,i+3]、g[i,i+3]和c0信号计算出低一级各组的进位,并产生此组的块传播函数和块产生函数传递给更高一级。依次计算传递,产生的所有组的进位信号都会传递回最低一级的各个超前进位模块,此时通过加法电路就可以并行的计算出每一位的和。

图4 超前进位分层设计Fig.4 Carry look-ahead layered design

2.2 16位加法器的分层设计

这里以16位加法器为例,对超前进位块分层技术进一步阐述。

按两层CLA块技术将16位加法器以4位一小组分为4组,如图5所示。输入b0b1…b15和a0a1…a15送入产生和传播电路,输出(p0,g0),(p1,g1),…(p15,g15)信号给第一层CLA模块。在第一层次,4个4位超前进位产生电路输出位ci+1,ci+2,ci+3以及块传播和块产生函数p[i,i+3]和g[i,i+3](i=0,4,8, 12)。块传播和产生函数传送入层次2的4位超前进位电路。在第二层次,超前进位产生电路输出位c4,c8,c12以及字的传播和产生项p[0,15]和g[0,15]。除了c15以外所有进位位都已产生。将进位信号传送给求和电路即可得最后的计算结果。

图5 16位加法器的多层CLA块技术Fig.5 16-bit adder multilayer CLA piece technology

3 晶体管级电路优化

在结构上采用分层设计进行优化设计后,再对一些单元电路相应的改造,减少晶体管数目,降低翻转频率和寄生电容,以期达到减少功耗和面积的目的,这里重点对全加器单元进行优化设计。

图6是常见的28管CMOS全加器[5],该电路采用全加器的逻辑对称性降低了传统40管互补全加器的晶体管数目。

图7是基于CMOS反相器和CMOS传输门器的全加器,该电路晶体管数目只有20个,但是由于引入了多个反相器,电路的延时和功耗会增大。

图6 28管CMOS全加器Fig.6 28-tube CMOS full adder

图7 基于传输门的24管加法器Fig.7 24-tube adder based on transmission gate

改造后的全加器如图8所示,由于不用输出进位信号,同时减少了传输门电路中反相器的个数,晶体管数目减小到12个。采用反相器输出来恢复传输门的阀值损失,使得输出能够达到全摆幅,运算速度也加快,并且在保持了高质量的输出电平同时降低了功耗。

图8 改进的12管全加器Fig.8 Improved 12-tube full adder

在Cadence的Analog Design Environment环境中,基于SMIC 65 nm工艺,运用上述优化设计思想,采用全定制的方法设计了一款16位超前进位加法器。仿真波形如图9所示,加法器逻辑功能正确,测试结果如表所示,平均延迟642 ps,晶体管数目824个。优化后的加法器比用传统方法设计的延迟减小了10%,晶体管数目减小了5%,达到了优化的结果。

表1 16位加法器模拟结果Table 1 Simulation results of 16-bit adder

图9 16位超前进位加法器仿真波形Fig.9 16 bit carry look-ahead adder simulation waveform

4 结语

文中在对超前进位加法器算法研究的基础上,从结构和单元电路两个方面介绍了优化方法。结构上的优化实现了高速,单元电路优化设计达到了减小管子数目和延时的目的。两者结合,达到了整体电路的优化。运用这种思想,在标准单元建库的项目中,设计了4位,16位,32位,64位的超前进位加法器宏单元,这些加法器在速度、面积、功耗上都有较大的优势,可以在各种高性能,低功耗的超大规模集成电路设计中调度使用。

[1] 司焕丽,胡杨川.一种适用于SoC的时钟复位管理电路设计[J].通信技术,2013,46(12):104-106.

SI Huan-li,HU Yang-chuan.A Usefule Clock and Reset Management Circuit Design in SoC[J].Communications Technology2013,46(12):104-106.

[2] LANG T,BRUGUERA J D.Floating-Point Multiply-Add—Fused With reduced latency[J].IEEE Transaction son Computers,2004,53(08):988-1003.

[3] BU Hung-tie,WANG Yu-ke,JIANG Ying-tao.Design and Analysis of Low-power-Transislor Full Adder Using Novel XOR-XNOR Gates[J].IEEE Transactions on Circuits and Systems,2002,49(1):25-30.

[4] 王礼平,王观风.超前进位加法器延迟时间公式与优化设计[J].武汉理工大学学报:交通科技版,2004,28 (04):585-588.

WANG Li-ping,WANG Guan-feng.Carry Lookahead Adder Time Formula and Delay Optimization Design[J]. Journal of Wuhan University of Technology.Traffic Science and Technology Edition,2004,28(04)；585-588.

[5] MARTIN K,Digital Integrated Circuit Design[M].New York:Oxford University Press,2000:384.

YUAN Hao(1990-),male,graduate student,majoring in integrated circuit design.

唐建(1972—),男,博士,讲师,主要研究方向为音频算法和DSP系统；

TANG Jian(1972-),male,Ph.D.,lecturer,mainly engaged in audio algorithm and DSP system.

方毅(1975—),男,博士,工程师,主要研究方向为混合信号IC芯片设计。

FANG Yi(1975-),male,Ph.D.,enginneer,mainly engaged in mixed signal IC design.

Optimized Design on Carry Look-ahead Adder

YUAN Hao1,TANG Jian1,FANG Yi2
(1.Department of Electronic Science&Technology,University of Science&Technology of China,Hefei 230027,China；2.Experiment Center of Information Science&Technology,University of Science&Technology of China,Hefei Anhui 230027,China)

This paper introduces a novel design method based on the analysis of CLA(Carry Look-ahead) logic algorithm.The wide adder adopts the multilayer CLA block technique between groups,with four bits as a group,to reduce the hardware delay and achieve the parallel and high-speed purpose.The key point is to optimize the design of full adder at the transistor level,and thus to reduce the circuit delay,area and power consumption.Simulation result indicates that compared with the traditional structure,the delay,area and power consumption of the 16 bit CLA could be significantly improved,and the optimized effect in the environment of SMIC65nm thus be achieved.

carry look-ahead；layered；adder；optimization

TN432

1002-0802(2014)03-0339-04

10.3969/j.issn.1002-0802.2014.03.021