参数估计定理

2020-08-11徐大专屠伟林

数据采集与处理 2020年4期

徐大专，屠伟林，施超，周颖

（南京航空航天大学电子信息工程学院，南京，211106）

引言

雷达、声纳和医学成像等目标参数估计系统可以从反射信号中获取目标的距离、方向和幅度等空间信息，正在国防和国民经济部门发挥越来越重要的作用。雷达参数估计的主要任务是目标检测、参数估计和区域成像。除了距离和散射信息之外，相控阵雷达和合成孔径雷达还可获得目标的方向信息，或者对观测区域进行成像。干涉合成孔径雷达甚至可以获得观测区域的三维空间信息。目前，雷达与通信技术相融合的趋势越来越明显，雷达和通信系统中MIMO 多天线技术的应用越来越广泛[1-6]，雷达通信一体化技术[7-14]的不断发展，从共用天线到共用射频，再到共用波形，融合的程度也在加深。

雷达是一种典型的信息获取系统，而通信是一种信息传输系统，那么，雷达和通信两种信息系统能否在信息理论的基础上进行统一的描述和刻画？信息论与雷达的关系是国际学术界长期关注，而未能解决的基础理论问题。2017 年，国际信息论期刊《Entropy》在“雷达与信息理论”特刊的征稿启示[15]中充分表达了国际学术界的迫切期望。

从Woodward 和Davies 研究距离信息[16-18]至今已有近70 年历史，特别是Bell 的研究工作[19]发表后，以互信息和相对熵为测度进行雷达系统的波形设计引起了国内外学术界的广泛关注。关于距离互信息的研究可追溯至20 世纪50 年代，Woodward 和Davies[16-18]采用逆概率原理研究距离信息问题，得到了单个恒模散射目标的距离互信息与时带积、信噪比（Signal noise ratio, SNR）的近似关系。然而，Woodward 和Davies 只研究了雷达参数估计系统中目标的距离信息问题，而没有涉及散射信息问题，并且逆概率研究方法的局限性导致他们的工作无法推广到多目标情况。一个颇为不解的现象是，关于距离信息的研究工作在此后近70 年中再无人涉足。1988 年，Bell 首先将互信息测度用于雷达系统的波形设计[19]，根据Neyman-Pearson 准则，Bell 证明了最佳波形设计与信道容量的最优功率注水解相对应[20]，正好与通信系统的最优功率分配问题相吻合。在Bell 的系统模型中，目标的距离信息隐含于冲激响应中。由于实际环境中目标位置是不断变化的，必须采用自适应的波形设计方法。由于Bell 的工作是针对目标检测问题提出来的，其模型并不区分不同的目标，因此，从本质上说，Bell 的工作只研究了空间信息中的散射信息问题，而没有涉及雷达参数估计系统中更重要的距离信息问题。

2017 年，笔者提出了雷达参数估计的空间信息概念，将空间信息定义为接收信号与目标距离及散射的联合互信息，从而将距离信息和幅度信息纳入的统一定义框架中[21]；2019 年进一步提出熵误差概念[22]，并用熵误差评价参数估计系统的性能。熵误差是均方误差指标的推广，在高SNR 条件下退化为均方误差,证明了每获得1 bit 位置信息等价于熵偏差缩小一半，或参数估计精度提高一倍。笔者团队已经通过理论推导得到了单目标/多目标距离信息和给定目标位置条件下散射信息的闭合表达式[23-24]。

2018 年，笔者将空间信息的概念推广到传感器阵列，给出了波达方向（Direction of arrival,DOA）信息和散射的统一定义[23]，并针对恒模信源，得到了DOA 互信息的闭合表达式。最近，进一步研究相控阵雷达的空间信息问题，把目标的距离信息、方向信息和散射信息纳入到空间信息的统一定义框架[25]。用空间信息理论解释雷达分辨率是笔者近期研究工作[26]，发现可以通过特征信道的散射信息定义空间分辨率Δ=2/ρβ，这种分辨率不仅与信号带宽有关，还与SNR 有关。由于新分辨率在形式上与Cramér-Rao 界（CRB）一致，故称Cramér-Rao 分辨率。Cramér-Rao 分辨率在理论上指出超分辨的可能性，并已得到多维最大似然估计方法的验证。指出传统分辨率是一维最大似然估计方法的分辨能力，而分辨率问题本质上是多维问题，因此，多维最大似然估计方法的超分辨率与传统分辨率并不矛盾。文献[27]总结了空间信息论研究的最新进展情况。

参数估计一直是雷达信号处理所关心的问题，并已形成相对成熟的理论体系。但以笔者的观点，参数估计还存在两大问题：第一个问题与参数估计精度的评价指标有关。参数估计的精度通常用均方误差衡量，然而，在中低SNR 条件下误差统计量一般不是二阶统计量，这时仍然采用均方误差作为评价指标既不全面，也欠合理。该问题在测量领域也普遍存在。第二个问题与参数估计的最优性有关，具体来说，是否存在某种最优的参数估计方法，如果存在，这种方法在何种意义上最优，且最优估计精度能达到多少？这两个问题正是本文参数估计定理要回答的。

本文的内容安排：第1 节给出雷达多目标参数估计的系统模型。第2 节给出空间信息的定义。第3节提出熵误差的概念，并用熵误差评价参数估计方法的性能；还给出一种新颖的抽样后验概率估计方法，该方法是一种随机参数估计方法，不同于传统的确定性参数估计方法。第4 节描述并证明参数估计定理。第5 节进一步展望空间信息论的发展方向。

1 雷达探测系统模型

假设有L个目标在探测范围中，目标间相互独立，目标的位置和散射信号也相互独立。雷达接收的基带信号可表示为

式中：ψ(t)表示带宽为B/2 的基带发送信号；sl=αlejφl为第l个目标的复散射系数，其中αl为幅度，φl=-2πfcτl+φl0为相位；τl=2dl/v为第l个目标的时延，dl为目标位置到雷达接收机位置的距离，v为信号传播速度；w(t)表示带宽为B/2，均值为零的复高斯白噪声，它的实部和虚部的功率谱密度均为N02。

一般来说，散射系数的幅度α是时延的函数，随距离的增加而减小。为简单起见，本文将α看成常数，隐含地假设观测区间较小，可以忽略衰减的影响。对于大观测区间，可将观测区间分成若干小区间，虽然每个区间的α不同，但在一个小区间内可视为常数，后面的分析方法仍然适用。

为了理论分析方便，假设观测区间的中心为目标参考点位置，目标观测区间设为[-D2,D2)，如图1(a)所示。则接收信号对应的时延范围为[-T2,T2)，如图1(b)所示。假设信号模型中发射信号是理想的低通信号，即基带信号为

图1 三种观测区间与信号波形Fig.1 Three observation intervals and signal waveforms

式中：T表示观测时间，假设T≫ 1/B，即BT≫ 1，这时信号能量几乎全部位于观测区间之内，即

ψ(t)的频谱为

根据Shannon-Nyquist 采样定理，以采样率B对接收信号z(t)进行采样，得到离散形式如图1(c)所示。

式中N=TB为时间带宽积(Time bandwidth product,TBP)。令xl=Bτl，表示目标的归一化延迟，它反映了目标位置与雷达的距离，那么，可以得到离散形式系统方程为

带宽为B/2 的高斯噪声的自相关函数为

以采样率B得到的离散噪声样值w(n)间隔为1/B的整数倍。由式(7)可知，噪声样值是不相关的，并且w(n)是复高斯随机变量，所以w(n)互相独立。

为了描述方便，将式(6)写成矢量形式

式中：z=[z(-N/2),…,z(N/2-1)]T表示离散接收信号；U(x)=[u(x1),…,u(xL)]T表示由发射信号波形和目标时延确定的位置矩阵，其第l列矢量u(xl)=[sin c(-N/2-xl),…,z(N/2-1-xl)]T是经过第l个目标时延后的回波；s=[s1,…,sL]T表示目标散射矢量；w=[w(-N/2),…,w(N/2-1)]T表示噪声矢量，其分量是独立同分布的、均值为0、方差为N0的复高斯随机变量。

2 空间信息的概念及其定量

2.1 目标和信道的统计模型

雷达参数估计系统目标的统计特性对应于通信系统的信源。目标统计特性是距离和散射的联合分布p(x,s)，一般目标的位置和散射是不相关的，即

式中：p(x)表示归一化距离的先验概率密度函数（Probability density function, PDF），p(s)表示散射信号的PDF。

在没有任何先验信息的情况下，目标的距离通常假定为在观测区间上均匀分布的随机变量。

雷达目标散射特性十分复杂，目前已经针对不同散射场景建立散射信号统计模型，本文只考虑恒模（Swerling 0）和复高斯（Swerling 1）两种典型的雷达电磁散射信号统计模型。恒模散射系数模型刻画的目标处于准静止状态，其功率恒定，相位φ在[0,2π]上均匀分布。复高斯散射模型刻画的目标由许多随机分布的散射体组成，且其中没有起主要作用的强散射体。散射系数的实部和虚部为相同的高斯分布且互相独立。换句话说，复高斯散射系数的幅度呈瑞利分布。两种散射信号的统计特性可表示为

设信道是复高斯加性白噪声信道（Complex Gaussian additive white noise, CGAWN），N维复高斯噪声矢量的概率密度函数为

那么，给定X和S时Z的N维条件概率密度函数为

式（12）展开可得

式中ℜ(·)表示取实部。式（13）定义了雷达参数估计系统的信道特性。

2.2 目标空间信息的定义

从统计的观点处理系统方程，令X和S分别表示多目标的归一化随机距离矢量和散射矢量，Z和W为随机接收信号矢量和噪声矢量。现有如下定义：

定义1（空间信息）目标的空间信息定义为接收信号与距离和散射信号的联合互信息，即

式中

表示接收信号的无条件分布。

由互信息的可加性可以证明，空间信息为距离信息I(Z;X)与已知距离的条件散射信息I(Z;S|X)之和，即

从式(16)可以看出，空间信息的计算过程为：（1）计算目标的距离信息I(Z;X)；（2）计算已知距离的条件散射信息I(Z;S|X)。

空间信息的定义是笔者在文献[21]中首次给出的，在此之前，距离信息的研究工作很少，而散射信息的研究则很多，但都没有将两者放在一起研究。通常认为距离和散射有不同的单位，很难将两者纳入一个统一概念框架之中。空间信息的定义是一个正式的标志，意味着香农信息论正式成为雷达等信息获取系统的理论基础。从此，同信息传输系统一样，信息获取系统也可以用比特作为单位进行统一定量了。

3 参数估计方法及性能评价

考虑复高斯散射目标和CAWGN 信道，这时接收信号Z也是复高斯的，其协方差矩阵R为

将z=U(x)s+w代入式（17）可得

条件概率分布刻画信道的统计特性，又称为似然函数。使式（19）达到最大的估计值称为距离x的最大似然估计，记为，则

实际中常用对数似然函数，那么

式（22）是多目标距离参数的最大似然估计表达式，显然，普通的单目标匹配滤波估计器不是最大似然估计器。从式（22）还可以看到，协方差矩阵在多目标参数估计中占有核心地位，如何充分利用统计信息对多目标参数估计的性能有很大影响。

设目标距离的先验分布为p(x)，由贝叶斯公式得后验概率分布为

式（23）的分母为归一化常数，先验分布的作用可看成一个多维权函数对似然函数加权。

使式（23）达到最大的估计值称为目标距离x的最大后验概率估计，记为MAP，则

如果目标距离在观测区间内服从均匀分布，则已知接收信号时目标归一化时延的后验概率分布为

式（25）的分母是定义在观测区间上的多重积分，积分结果是一个归一化常数。

显然，当先验分布与目标位置无关时，最大后验概率估计等同于最大似然估计。先验分布相当于一个窗函数，对最大似然估计统计量进行加权。实际中第一次参数估计时，因没有先验信息故使用最大似然估计。在后续参数估计和目标跟踪时，利用已有的先验信息作最大后验概率估计，不断提高参数估计精度。

初中语文课本中有不少抽象不易理解的内容。而色彩、线条、形象可以有效地调动学生的思维，便于他们理解。因此，语文教师可以运用这一认知规律，借助美术中的色彩和形象把课文内容具体表现出来，以视觉为突破口，对学生理解课文内容大有裨益。如教文言文《河中石兽》时，学生对“石兽掉入河底后在河流上游”这一点理解起来很困难，可以画一幅石兽在河底运动的动态图让学生看，这样化抽象的说理为具体的画面，学生就很容易理解了。

定义2（抽样后验概率估计）对后验概率分布p(x|z)进行抽样产生的估计值称为目标距离x的抽样后验（Sampling a posterior, SAP）概率估计，记为，则

常见的最大似然估计和最大后验概率估计都是确定性估计，对给定接收信号序列的估计值是唯一确定的，而抽样后验概率估计是一种随机估计器，对给定接收信号的估值SAP是不确定的。本文提出抽样后验概率估计的目的是为了证明后面的参数估计定理，因为它的性能取决于后验概率分布，而最大后验概率估计的性能不容易确定。这种思想与香农编码定理采用的随机编码一脉相承。抽样后验概率估计方法还具有重要的实际应用价值，它避免了确定性估计方法遇到的谱峰搜索问题，在多维参数估计应用场景具有低复杂度优势。

参数估计的性能通常用均方误差来衡量，然而，在中低SNR 比条件下判决统计量一般不是二阶的，这时用均方误差作为评价指标既不全面，也欠合理。那么，如何评价估计器性能呢？后验微分熵h(x|z)表示不确定性，h(x|z)越小意味着估计越准确。为了从信息论角度评价估计器性能，有

定义3（熵误差）设某一距离估计器的后验概率分布为p(x|z)，那么

称为距离估计的熵误差，其中

为对应于p(x|z)的微分熵。

熵误差简记为，这里熵误差表示参数矢量的联合估计精度。在此之前，由于参数间存在相关性，多参数估计的精度需要一个矩阵去描述，可参考费雪信息矩阵。熵误差用一个标量就可以表示联合估计的总体性能，充分反映信息论方法在描述估计器性能方面的优势。

定义4（熵偏差）熵误差的平方根σEE称为熵偏差。

以上定义的熵误差和熵偏差只与目标和信道的统计特性有关，与具体的参数估计方法无关，有时又称理论熵误差，以区别于后面与估计方法相关的经验熵误差。事实上，熵误差就是后验概率分布的熵功率，它是均方误差的推广。在高SNR 条件下，后验概率分布逼近高斯分布，这时熵误差退化为均方误差，因此，熵误差相比均方误差对各种SNR 条件具有普适性。

针对单目标情况，后验熵的近似表达式为[28]

式中离散熵为

而

称为检测因子，它刻画了检测到目标的概率，当ρ2→0时,ps→0；当ρ2→∞时,ps→1。

将式(29)代入式(27)可得熵误差的近似公式为

式（32）表明熵误差是克拉美罗界在各种SNR 条件下的推广，在SNR 条件下，ps趋近于1，熵误差退化为克拉美罗界。

图2 比较了目标距离估计的理论熵误差、均方误差、克拉美罗界和熵误差的近似公式。由图2 可见，后验概率分布随着SNR 的提高逐渐逼近高斯分布，这时熵误差渐渐退化为均方误差，并逼近克拉美罗界。

熵误差/熵偏差和距离信息具有密切的联系，设σEE(X)是先验分布p(x)定义的熵偏差，即

σEE(X|Z)是后验概率分布p(x|z)定义的熵偏差，即

那么有

式中I(Z;X)表示距离信息。那么，有

定理1每获取1bit 距离信息等价于熵偏差缩小一半，或估计精度提高一倍。

定理1 表明，距离信息和熵偏差都可以表征参数估计系统性能，距离信息代表获取信息的数量，熵偏差代表参数估计的精度，两者是完全等价的。该定理充分说明，用熵误差/熵偏差评价参数估计系统性能是合理的。

参数估计信息与参数估计精度之间的关系也有助于理解人类的学习与认知过程。人们以对事物的认知程度由某种概率分布刻画，尽管通常并不能给出这种概率分布的具体数学形式。学习过程就是信息获取的过程，获取多少信息量取决于认知概率的变化。如果认知概率分布的熵偏差越小，则获得的信息就越多。随着认知的逐渐深入，不确定性会不断降低，对事物的认识程度也不断提高。在人工智能和机器学习领域，还没有一个认知系统模型，学习过程由数据驱动，所以通常很难获得具体的认知概率分布，但可以通过机器学习结果来评估所获得的信息量。

图2 目标归一化时延的方差Fig.2 Variance of target's normalized delay

4 参数估计定理

香农信息论的核心内容是编码定理，那么，空间信息论是否存在类似的定理呢？在信号处理和参数估计领域，通常默认最大似然估计和最大后验概率估计是最佳的，并作为估计准则。人们长期忽视的基本理论问题是：（1）何种估计器是最优的；（2）在什么意义上最优；（3）最优的性能是什么？

参数估计定理涉及的内容非常广泛，本节只针对单目标位置参数估计问题给出证明的框架。在证明定理之前先定义需要用到的概念。

定义5（目标时延特性）在观测区间上一个目标的归一化时延为随机变量，归一化时延的先验分布称为目标时延特性。

在时延参数估计中目标时延特性相当于信源统计特性，故也简称为目标或信源。

定义6（参数估计信道）参数估计信道(X,p(z|x),Z)的输入是目标的归一化时延，定义在有限的实观测区间上，信道的输出是由接收复信号序列组成的集合，信道特性由条件概率密度函数p(z|x)确定。

定义7（估计器）估计器是对归一化时延的一个估计函数=f(z)，对给定的接收序列输出一个距离的估计值。

定义8（联合目标-信道）联合目标-信道(X,p(x),p(z|x),Z)是指目标时延特性和信道统计特性组成的总体。

联合目标-信道定义了估计器所要面对的参数估计环境，这里假定估计器已知联合目标-信道的全部统计特性。

定义9（参数估计系统）参数估计系统(X,p(x),p(z|x),=f(z),Z)刻画目标特性、信道特性和估计器组成的总体。

一次参数估计过程由目标、信道和估计器3 部分组成，简称为一次快拍。多次快拍将产生扩展目标和扩展信道，M次快拍的参数估计过程如图3 所示。

图3 M 次快拍的参数估计系统Fig.3 Parameter estimation system of M snapshots

定义10(无记忆扩展目标)无记忆扩展目标指扩展目标之间相互独立。

定义11(无记忆扩展信道)无记忆快拍信道（Memoryless snapshot channel，MSC）指多次快拍产生的扩展信道(XM,p(zM|xM),ZM)满足

联合目标-信道(X,p(x),p(z|x),Z)确定了后验概率分布p(x|z)和后验微分熵h(x|z)，进而也确定了理论熵误差为。本文还需定义另一种与估计器相关的熵误差。

定义12(经验熵误差)M次快拍的经验熵定义为经验熵误差为

定义13(可达性)熵误差称为可达的，如果存在一个估计器，其M次快拍的经验熵误差满足

定义14(联合典型序列)服从联合分布p(x,z)的联合典型序列{(xM,zM)}所构成的集合是指它的经验熵与真实熵差值小于ε的M长序列构成的集合，即

式中

这里定义的联合典型序列与香农信息论完全一致，即扩展信源信道(XM,p(xM),p(zM|xM),ZM)的输入和输出构成联合典型序列。

引理1对于无记忆快拍信道(XM,p(zM|xM),ZM)，如果是后验概率分布p(x|z)的M次抽样估计，则(,zM)是关于概率分布p(,zM)的联合典型序列。

证明：由于是后验概率分布p(x|z)的M次抽样估计，则扩展后验概率分布pf(|zM)=p(|zM)，那么

证毕。

抽样后验概率估计的性能完全由后验概率分布p(x|z)确定，因此，由抽样后验概率估计得到的扩展序列(,zM)是关于概率分布p(,zM)联合典型的。

定理2(参数估计定理)熵误差是可达的，具体来说，设估计器已知联合信源-信道(X,p(x),p(z|x),)统计特性，则，对任意ε＞0，必定存在估计器，其经验熵误差满足

且

反之，任何估计器的熵误差不可能小于理论熵误差。

定理分为正定理和逆定理两部分，先证明正定理。

正定理的证明：

(1)根据目标距离特性独立产生M次扩展目标xM；

(2)根据扩展目标xM和M次扩展信道特性p(z|x)产生接收序列zM，经过M次快拍产生的接收信号zM满足

采用抽样后验概率估计器，令是对于无记忆快拍信道p(zM|xM)的M次抽样估计，由引理1 可知，(,zM)是关于概率分布p(,zM)的联合典型序列。

根据联合典型序列的定义，对任意ε＞0，只要快拍数足够大，有

由于p(|zM)=p(,zM)/p(zM)，那么

也就是

根据熵误差及经验熵误差的定义，有

根据联合典型序列的定义和切比雪夫不等式，随快拍数M→∞，ε→0，则

这说明采用抽样后验概率估计器的经验熵误差可逼近理论熵误差。

逆定理的证明：

令=f(zm)是任一估计器，由该估计器获得的互信息记为If(ZM,XM)，那么

式中hf(XM|ZM)是该估计器的后验微分熵。显然(ZM,,XM)组成马尔可夫链，由数据处理定理

因此

由熵误差的定义立即有

证毕。

参数估计定理的证明是构造性的，就是说，抽样后验概率估计是一种实际可使用的估计方法，其性能是渐近最优的。

参数估计定理表明，熵误差是任何参数估计方法的理论极限。在此之前，虽然克拉美罗界也被当作是任何参数估计方法的理论下界，但它只有在高SNR 条件下是渐近的，而在中低SNR 条件下明显是不可达的。熵误差下界在各种SNR 条件下都是可达的，由于实际系统往往更多工作于中低SNR 条件下，因此，熵误差给出的理论下界具有更重要的实际意义。

5 结束语

参数估计定理指出，熵误差是可达的，并且是所有参数估计方法所能达到的理论下界。熵误差之于参数估计就像信道容量之于信道编码，率失真函数之于信源编码的作用一样，为所有参数估计方法指出了理论极限。参数估计定理还表明，本文提出的抽样后验概率估计方法是渐近最优的。随机估计的思想类比于香农信息论的随机编码，对提高参数估计的性能、降低估计方法的复杂性都具有重要意义。参数估计定理之于雷达系统的意义可类比于香农编码定理之于通信系统，可以作为最优参数估计问题的理论基础。

参数估计定理的证明意味着空间信息论的理论框架正在逐步建立。空间信息论统一了雷达和通信的信息论基础，必将对雷达、声纳和医学影像的系统理论和信号处理方法产生巨大的推动作用。空间信息与参数估计精度之间的关系有助于理解人类的学习与认知过程，对人工智能和机器学习相关的研究也有参考价值。