基于快速FIR算法的自适应滤波器的VLSI实现
2023-06-07刘明丘聪佳沐
刘明 丘聪 佳沐
摘 要:【目的】自适应滤波器能根据优化算法来自动调整传递函数,是一种强大的自适应系统,在信号处理、通信、雷达、声呐、地震学、导航系统和生物医学工程等领域有着广泛应用。随着集成电路工艺技术的发展,电路功耗显得尤为重要,可提升收敛特性和吞吐率。【方法】本研究提出一种基于快速FIR算法的3并行延时LMS自适应滤波器的架构,设计一种新颖的硬件高效架构,用于并行自适应3条支路的权重更新。与传统滤波器结构相比,并行滤波器具有更高的吞吐率和更低的功耗。为提高自适应数字滤波器的收敛特性,从三条权值更新支路中选择一个具有更好系统性能的分支。采用细粒度的算术运算单元和重定时技术,能有效降低关键路径的延时。【结果】从ASIC综合结果可知,与现有最佳结构相比,本研究所提出的3并行9抽头滤波器架构的功耗降低近16%,面积延时积(ADP)降低近11%。【结论】本研究所提出的架构设计具有重要的实践指导意义。
关键词:自适应滤波器;3并行DLMS;快速FIR算法;收敛特性;细粒度;专用集成电路
中图分类号:TN492 文献标志码:A 文章编号:1003-5168(2023)09-0015-04
Abstract:[Purposes] Adaptive filter is a powerful adaptive system, which can automatically adjust the transfer function according to the optimization algorithm. It is widely used in signal processing, communication, radar, sonar, seismology, navigation system and biomedical engineering. With the development of integrated circuit technology, circuit power consumption is particularly important,which can improve the convergence characteristics and throughput.[Methods] This study proposes a three-parallel delay LMS adaptive filter architecture based on fast FIR algorithm. A novel hardware efficient architecture is designed to update the weights of three parallel adaptive branches. Compared with the traditional filter structure, the parallel filter has higher throughput and lower power consumption. In order to improve the convergence characteristics of the adaptive digital filter, a branch with better system performance is selected from three weight update branches. The fine-grained arithmetic operation unit and retiming technology can effectively reduce the delay of the critical path. [Findings] From the ASIC synthesis results, compared with the existing optimal structure, the power consumption of the proposed 3-parallel 9-tap filter architecture is reduced by nearly 16 %, and the area delay product ( ADP ) is reduced by nearly 11 %. [Conclusions] It can be seen that the architecture design proposed in this study has important practical guiding significance.
Keywords:adaptive filter; 3-parallel delayed LMS; fast FIR algorithm; convergence properties; fine-grained; ASIC
0 引言
自適应滤波器是目前处理非平稳随机信号最常用技术。给定输入信号,迭代设计滤波器参数,以“最佳”映射输入信号到目标信号[1],估计误差来自目标信号和滤波器输出信号。迭代更新滤波器的机制参数来自最小化估计误差的成本函数,其中最典型的是基于最小均方误差准则的自适应滤波算法(LMS)[2]。
传统的LMS算法一般是用软件来实现的,LMS算法具有严格的执行顺序[1],将LMS算法映射到具体硬件电路中会产生较长的关键路径。为提高硬件结构的吞吐量,有研究提出一种基于并行DLMS(Paralleled Delayed LMS)算法的自适应滤波器的电路设计方案。DLMS算法更符合真实的硬件电路设计思想,但也有缺点,即随着延时量的增大,系统收敛性能也会随之降低[3-5]。
并行处理应用于数字FIR滤波器时,要么增加有效吞吐量,要么降低原始滤波器的功耗[6-7]。已有研究虽对顺序FIR滤波器的实现进行考虑,但很少有直接研究降低并行FIR滤波器的硬件复杂性或功耗。本研究提出将并行处理技术与并行DLMS算法结合起来,设计一种基于快速FIR算法的并行DLMS自适应滤波器[7]。
1 并行DLMS自适应滤波器硬件建模
1.1 快速FIR算法
并行处理能有效提高硬件吞吐量和降低硬件功耗。对于传统并行滤波器,硬件成本随并行度的增加而线性增加。在实际情况中,设计面积有限制,并行处理所产生的硬件开销是无法接受的。因此,有必要设计出一种新的并行FIR滤波器,比传统并行FIR滤波结构占用更少的面积。随着集成电路技术的发展,电路速度是除面积外非常重要的因素。
1.2 并行DLMS自适应滤波器的宏观结构
基于快速FIR滤波算法的基本理论,把(3×3)FFA跟DLMS自适应滤波算法结合起来,构建一个并行度为3的自适应滤波器。一种直接型3并行自适应滤波器整体结构如图2所示。其中,FIR模块采用(3×3)FFA结构,相较于传统的DLMS自适应滤波器,在相同的主频下,其吞吐量提升2倍。在吞吐率在达到某一特定要求范围内,可适当降低电路的主频,并行度的提高能降低电路功耗。直接型自适应滤波器结构具有收敛速度快、稳态误差小等优点。
1.3 权值更新模块的VLSI实现
自适应滤波器跟普通的FIR滤波器最主要区别是滤波器系数的产生机制。自适应滤波器具有自主学习能力,不用先验知识,最关键之处在于权值更新模块。3并行的自适应滤波器因FIR模块结构复杂,3条支路都要经过4组滤波器,借鉴传统的DLMS滤波器设计方法,本研究给出的一种权值更新模块结构如图3所示。
从图3可以看出,共有3条权值更新支路,通过以上权值更新模块产生9阶滤波器系数。其中,H0=[w0(3k) w3(3k) w6(3k)],H1=[w1(3k) w4(3k) w7(3k)],H2=[w2(3k) w5(3k) w8(3k)]。为降低电路复杂性,将收敛因子设置成2的整数倍,可利用移位运算来代替乘法运算,大大降低电路面积。
2 并行自适应滤波器的验证与分析
自适应滤波器的收敛特性直接决定其性能,大部分应用场景中对收敛速度和稳态误差要求不高,在设计自适应滤波器时,聚焦于电路主频、功耗、面积等核心参数。
2.1 自适应滤波算法仿真
基于系统的实际需求,本研究采用Matlab软件自适应滤波算法进行仿真研究。该算法采用3条支路的权值更新计算误差,选择误差小的支路的权值,再返回权值更新模块,循环往复。该算法能加快收敛速度,在一定程度上能降低稳态误差。
由于噪声统计具有随机性,通过并行自适应滤波器来模拟FIR滤波器。假定FIR滤波器系数为h = [10.0, 10.5, -15.0, 41.1, 33.3, 66.6]。试验时把收敛条件定义为误差信号绝对值R,分别定义三种边界条件,即SNR=30 dB、SNR=20 dB、SNR=10 dB,统计结果如图4所示。从图4可以看出并行自适应滤波算法的优势所在。
2.2 并行自适应滤波器硬件仿真
上节已对并行DLMS算法进行仿真比对,展现该算法具有良好的收敛特性。接下来对并行自适应滤波器的硬件建模进行功能仿真,结果如图5所示。Desired_in信号是夹杂噪声的输入信号,Error_out信号是经过自适应滤波后的输出值,经过2 000 ns左右达到较好的降噪效果。该图可充分证明本研究设计的自适应滤波器的正确性。
2.3 性能分析
在完成RTL级设计后,对并行自适应滤波器的整体电路进行仿真测试,对比理想值与建模输出的结果,验证设计的正确率。基于TSMC 65 nm标准工艺库,使用综合工具Design Compiler来完成3PDLMS自适应滤波器硬件单元的逻辑综合。
在对电路设计进行仿真验证后,使用TSMC 65 nm标准工艺库,在0.9 V的工作电压下完成逻辑实现和综合,最终得到的硬件速度、功耗、面积等逻辑综合结果见表1。
由表1可知,本研究提出的硬件結构是3并行9抽头的滤波器结构,比文献[1]和文献[2]中的设计具有明显吞吐量优势,几乎是文献[1]提出的结构的3倍,同时功耗也减少约16%。因此,在实际应用中,本研究提出的结构能降低电路时钟频率,大大降低动态功耗。若要进一步优化,可优先对快速FIR模块和权值更新模块进行优化,以最大程度减少电路面积、降低电路功耗,并提高运算性能。
3 结语
本研究对16位3并行自适应滤波器单元进行RTL级建模,在TSMC 65 nm标准工艺下,使用逻辑综合工具Design Compiler对其进行逻辑综合实现。本研究设计的3并行自适应滤波器硬件单元完成一次滤波计算要用6个时钟周期,计算误差最大不超过1/256,满足精度高、延迟低的要求。采用简化3×3FFA滤波结构,比传统设计大约节省33%的硬件成本。3PDLMS滤波器结构在同样时钟频率下,吞吐率为传统结构的3倍,在延时方面减小 5.4%,面积延时积(ADP)减小11%,功耗降低16%。
参考文献:
[1]MEHER P K,PARK S Y.Critical-path analysis and low-complexity implementation of the LMS adaptive algorithm[J].IEEE Transactions on Circuits & Systems I Regular Papers,2014(3):778-788.
[2]YI Y,WOODS R,TING L K,et al.High Speed FPGA-Based Implementations of Delayed-LMS Filters[J].Journal of VLSI signal processing systems for signal,image,and video technology,2005(1-2):113-131.
[3]MEHER P K,MAHESHWARI M.A high-speed FIR adaptive filter architecture using a modified delayed LMS algorithm[C]//IEEE International Symposium on Circuits & Systems,IEEE,2011.
[4]TSAO Y C,CHOI K.Area-efficient parallel FIR digital filter structures for symmetric convolutions based on fast FIR algorithm[J].Very Large Scale Integration Systems IEEE Transactions on,2012(2):366-371.
[5]SRINIVASAN S,BHUDIYA K,RAMANARAYANAN R,et al.Split-path Fused Floating Point Multiply Accumulate (FPMAC)[C]//2013 IEEE 21st Symposium on Computer Arithmetic,IEEE,2013.
[6]姜斌,包建荣.自动变步长BLMS自适应均衡的优化实现[J].电路与系统学报,2013(1):384-389.
[7]尚勇,刘卫东,吴顺君.基于并行算法的自适应滤波原理及性能分析[J].电子学报,2001(9):1230-1232.