基于FPGA的高速FIR滤波器并行结构设计

2017-03-30黄荣鑫

微处理机 2017年1期

关键词：基带时钟滤波器

骆希，陶伟，黄荣鑫

（重庆金美通信有限责任公司，重庆400030）

基于FPGA的高速FIR滤波器并行结构设计

骆希，陶伟，黄荣鑫

（重庆金美通信有限责任公司，重庆400030）

提出了一种基于FPGA平台的并行FIR滤波器结构，能大幅提升滤波器的计算能力。与传统的串行滤波器结构相比，并行结构的运算速度可以提高N倍，N为并行路数，同时运算延迟也会相应减小，在处理时钟速率有限的情况下，通过使用并行结构的FIR滤波器，可大幅提高运算吞吐量。以宽带数据链为应用背景介绍了并行FIR滤波器的使用与实现,以两路并行结构设计为例，通过Matlab对FIR滤波器运算进行了浮点级的仿真验证，然后用经典符号数表示以及优化定点滤波器系数，最后在Xilinx的K7系列芯片实现了定点并行滤波器。通过Xilinx提供的编译软件Vivado编译以及下载测试结果表明，该滤波器仅占用少量的资源，其等效吞吐量可达到1GHz。

可编程逻辑阵列;有限脉冲响应滤波器;吞吐量;浮点;定点运算;并行仿真

1 引言

有限脉冲响应（FIR）滤波器由于其优良的线性相位特性以及全稳定特点，在许多领域都得到了广泛应用。在某些应用中，如宽带数据链，在现代战场中需要对大量信息及时、准确地分发，剧增的远程多媒体通信流量必须依靠高速的无线数据传输系统，而无线传输系统中大量会用到FIR滤波器，随着数据传输速率越来越高，也就必然导致对FIR滤波器的运算速率要求也越来越高。

目前，对FIR滤波器的运算速率要求已经达到1GHz，这对硬件提出了非常苛刻的要求。本设计采用Xilinx公司K7系列FPGA芯片，芯片内部理论上可运行500MHz处理时钟，但在芯片极限的最高时钟下电路设计受约束的条件过多，并且电路的稳定性也缺乏稳定可靠的保证。通常在工程实践时，最高500MHz时钟可在电路中局部运行，在大规模布线运算时将FPGA处理时钟控制在350MHz以内，设计自由度较大，电路稳定性高[1]。

显然，现有FPGA芯片无法满足1GHz处理时钟的要求，因此需要采用并行架构进行设计实现，以增加电路面积倍数来换取电路处理的速率。

2 并行结构的FIR滤波器设计

传统串行FIR滤波器的时域表达式是：

串行结构对应的电路结构如图1所示，将串行滤波器运算改为并行运算时，需增加电路面积来换取等效的高速运算结果。滤波器表达式仍然不变，但输入、输出数据为并行多路[2]。

设计实现的思路如图2所示的并行结构滤波器，每一种颜色表示一路信号进入滤波器，对应上图中的5种不同颜色。在某一时刻，第一路滤波器输入数据是x(n)、x(n-1)…x(n-N+1)；第二路滤波器输入数据是x(n+1)、x(n)...x(n-N+2)，依次类推，第5路滤波器输入数据是x(n+4)、x(n+3)...x(n-N+5)，完成5路滤波器的一轮计算。把该时刻的5路信号输出按照串行输出，与串行的滤波器输出一致。相对于串行处理架构，并行处理降低了5倍的处理速率，五路并行200MHz的滤波器输出波形等效为一路串行1GHz的滤波器输出波形，但并行结构设计实现时，电路面积是串行结构的5倍。并行滤波器表达式为:

上述为通用的FIR并行架构滤波器的设计框架，在具体运用时可根据实际情况进行资源优化[3]。

图1 FIR滤波器串行设计实现内部结构框图

图2 FIR滤波器并行设计实现内部结构框图

3 FPGA应用实现

基带成型滤波器是决定发射信号带宽和频谱包络的主要决定因素。高速成型滤波器采用并行架构进行设计实现，通过并行处理的方式换取电路运行速率的降低。基带成型滤波器需要先对符号数据进行N倍插值后，再进行FIR结构形式的滤波处理[4]。

在K7系统芯片中，考虑到电路布局布线的稳定性，选定若常规的串行2X插值滤波需400MHz的时钟速率进行运算。这里采用并行滤波的电路设计，基带成型滤波工作在200MHz时钟下，2路并行运算插值滤波，输出2路并行200Mbps的IQ调制成型波形。2X并行滤波器设计实现框图如图3所示。每一路信号表达式为：

运算时先插值再滤波，2倍插值需对输入信号进行插零。在设计实现时，由于滤波器输入数据中有一半的数值为“0”，在实际运算时每一时刻只有一半的滤波器系数参与乘累加，另一半滤波器系数与全零的输入数据相乘，即可省略。在编程设计时，首先将滤波器系数分为两组，对并行滤波器输入的其中一路置全零，成型滤波器数据端口两路输入，两路输出，如图4所示。

图3 两路并行2X成型滤波器内部结构示图

图4 两路并行2X成型滤波器优化后的内部结构示意图

将并行架构的2X基带成型滤波器资源优化后，利用减少的冗余计算量，恰好可抵消因并行架构设计所带来的资源增量[5-6]。

4 仿真、调试效果

加电调试时，将并行滤波器输出的并行信号采集到Matlab上进行分析，通过并串转换还原为串行波形数据，在此基础上绘制眼图，2X成型滤波的输出信号每个符号由2个样点组成一个“眼睛”。π/4—DQPSK信号的调制发端存在差分编码的星座映射关系，所以眼图是交替的一个“大眼睛”和两个“小眼睛”的形式，具体图形如图5所示。

图5 Matlab眼图

经示波器观测DAC输出波形如图6所示，其波形较为光滑。DOQPSK信号在基带成型之前存在五电平的波形：±1、±0.707、0，目前成型滤波器输入端口采用10比特数据位宽进行量化[7-8]。

5 结束语

宽带数据链的传输带宽一般在几百兆量级及其以上，传统的设计实现手段已遇到器件工艺的限制，必须提升设计思路及实现方式以克服芯片器件的参数上限来满足带宽需求。此处提出的并行架构设计方式可以使FPGA在稳定工作的处理时钟下，等效实现超过芯片最高处理时钟上限的运算。

图6 示波器上基带成型波形及资源消耗量

经调试，FPGA芯片内部可完全实现调制、解调的400MHz比特速率的宽带信号处理，具有较强的工程应用价值，可根据需求灵活应用到其他系统的高速信号处理中。

[1]丁玉美,高西全.数字信号处理（2版）[M].西安:西安电子科技大学出版社,2002. DING Yu-mei,GAO Xi-quan.Digital signal processing[M]. Xi’an:Xidian University Press,2002.

[2]CHEN Zhi-zhang(David),WILCOX R,SAMPSON A,et al. The implementation of a new all-digital phase-locked loopon an FPGA and its testing in a complete wireless transceiver architecture[C].Seventh Annual Communications Networks and Services Research Conference.Moncton,Canada:CNSR, 2009:238-244.

[3]SARI H,MORIDI S.New phase and frequency detectors for carrier recovery in PSK and QAM systems[J].IEEE Trans Commun,1988,36(9):1035-1043.

[4]SHIHONG D,YAMU H,SAWAN M.A high data rate QPSK demodulator for inductively powered electronics implants[C]. IEEE International Symposium on Circuits and Systems Island of Kos.Greece:IEEE,2006:2577-2580

[5]陈大夫,朱江,时信华,等.全数字宽带接收机的并行结构[J].飞行器测控学报,2003,22(1):54-59. CHEN Da-fu,ZHU Jiang,SHI Xin-hua,et al.An parallel architecture for fully digital broadband receivers[J].Journalof Spacecraft TT&C Technology,2003,22(1):54-59.

[6]HELWIG A P,HU Bin.High rate Ka-band downlink digital receiver for MUOS[C]-IEEE Military Communications Conference,2007.Orlando,Florida,USA:IEEE,2007:1-7

[7]YI Hong-feng,GU Chun-yan,YI Ke-chu,et al.A high precise method for symbol timing synchronization[J].Journal of Xidian University(Natural Science),2005,32(6):915-919.

[8]王俊胜.全数字BPSK/QPSK解调器原理和应用[J].无线电通信技术,1992,18(4):255-263. WANG Jun-sheng.Priciple and application of all digital BPSK/QPSK demodulator[J].Radio Communications Technology,1992,18(4):255-263.

Design of High Speed Parallel FIR Filters Base on FPGA

Luo Xi,Tao Wei,Huang Rongxin
（Chongqing Jinmei Communication Co.,Ltd.,Chongqing 400030,China）

Based on FPGA,a new finite impulse response(FIR)filter structure is proposed,which increases the capability of processing by N (the number of subfilters)times compared with the serial FIR filter,and decreases the corresponding delay,with low clock rate,the throughout is highly improved by the parallel FIR filter.Under the background of the Wideband Data Chaining,the implement and application of the parallel FIR filter are introduced.An example of the floating point parallel 2-channel FIR filter is given to verify the algorithm on Matlab.Then a fixed point parallel FIR filter is designed on the Xilinx's K7 chips，which has optimum canonical signed digits coefficients. Compiling and deployment results show that the pareallel FIR filters run at the sampling rate up to 1GHz on the Xilinx's Vivado.

Field programmable gate array；Finite impulse response filter；Throughout；Floating point；Fixed point；Parallel simulation

10.3969/j.issn.1002-2279.2017.01.003

TN918

1002-2279-（2017）01-0009-04

骆希（1983-），男，重庆市人，硕士研究生，主研方向：信号处理，FPGA。

2016-08-31