FastICA算法的收敛性与一致性分析

2020-01-17马倩茹冶继民

计算机工程与应用 2020年2期

马倩茹，冶继民

西安电子科技大学数学与统计学院，西安710126

1 引言

主成分分析（Principal Component Analysis，PCA）[1]是一种被广泛使用的统计方法，但它是基于二阶统计量展开的，只能估计模型的某一方面。本文主要讨论另一种统计方法，独立成分分析（Independent Component Analysis，ICA）[2-3]。ICA基于高阶统计量，可以更加全面地分析和处理相关实际问题。最初提出ICA 是为了解决鸡尾酒会问题，后来随着大量学者对ICA 的研究，它也被应用到很多其他领域，比如：语音信号、生物医学信号、图像信号等。其中，主要被用于处理盲信号分离问题。ICA是假设未知源信号相互独立，从源信号的线性混合（观测信号）中分离出未知源信号的方法，整个混合过程只有观测信号是已知的（混合过程和源信号均未知）。自从Hyvärinen 和Oja 提出ICA 这个概念以来，无数的学者对该统计方法展开研究，包括：算法的变形、性质、应用等。截止目前为止，已经出现了很多种ICA 方法，例如：极小化互信息法、信息极大化法（Informax）、快速ICA法（FastICA）等。本文主要研究的是FastICA[4-5]算法，实验证明，它在收敛速度方面优于大多数ICA算法。

FastICA 算法分为两种：（1）one-unit（或deflation）FastICA，一次只能分离一个源信号；（2）对称FastICA，可以同时分离多个所需的源信号，等价于几个one-unit FastICA并行。针对这两个版本的FastICA算法，很多学者做出了相应的研究。文献[6]中将源信号的先验知识作为参考信号，附加到FastICA算法中，减少估计所得的源信号与真实源信号之间的误差，并将其应用于处理生物医学信号问题。其实文献[6]的改进是可行的，因为对现实生活中的信号并不都是一无可知的，所以可以把已知的相关信息作为参考信号加入到信号估计中。文献[7-8]将FastICA 算法扩展到复数领域，用以处理复值信号。文献[9]中的FastICA 算法允许使用不同的非线性提取不同的独立成分，减少了因非线性的选取对估计效率和鲁棒性的影响（此处的非线性并非数学意义上的非线性，在第2 章有详细的定义）。文献[10]和文献[11]使用HuberM-估计和改进的M-估计作为非线性函数，以提高算法的鲁棒性。近年来，除以上的研究以外，对FastICA算法收敛性、渐进性、一致性等统计及数学性质的相关研究更是不少。文献[12]表明了归一化引起的额外旋转不会影响算法的收敛速度，而文献[13]则是使用主纤维束的概念，证明了算法局部二阶收敛到正确的分离。文献[14]证明算法可以达到Cramér-Rao 下界。由此可见，FastICA研究相当广泛，本文将研究扩展到样本领域。

本文主要给出FastICA 算法的收敛性与一致性分析。第2章和第3章是基础，主要介绍了ICA算法、全集FastICA 算法以及基于样本的FastICA 算法的数学模型。第4章证明了FastICA算法的相关收敛性质。首先证明了全集FastICA 算法的收敛性质，主要包括定理1所述的不动点定理，以及对比函数局部极大值和全集FastICA算法迭代函数不动点的关系。紧接着通过构造狄拉克函数，并且利用依概率收敛定理和大数定律，给出了基于样本的FastICA算法收敛性条件和相关收敛性质，证明了基于样本的fastICA 算法给出分离向量的估计是无偏的。在第5 章，证明了FastICA 算法给出的估计具有一致性。无偏性、一致性是评判估计方法的两个重要标准，无偏性保证了FastICA 算法给出的分离向量的估计无系统偏差，一致性保证了在获得较多样本的条件下，能够得到更准确的估计值。

2012年，学者Reyhani N使用经验过程的相关理论和P-Donsker，以及P-Glivenko-Cantelli的性质证明FastICA的一致性[15]。本文通过比较直观的统计方式证明FastICA的一致性，并且通过仿真模拟证实随着样本数目增加，FastICA估计所得源信号更加接近真实的源信号。

2 ICA数学模型

经典的ICA数学模型如下：

（1）si(i=1,2,…,m)期望为0，方差为1，即Cov(s)=I。

（2）A 是非奇异的正交方阵，即假设m=n。

ICA的基本思路是寻找分离矩阵使得y=Wx 尽可能相互独立。W 称为分离矩阵，W 的行向量w 称为分离向量。因为A=(a1,a2,…,an)是正交的，所以行向量w 是分离向量当且仅当存在i ∈{1,2,…,n}使得w=ai或w=-ai。

文献[2-3]提出通过极大化wTx 的负熵来求解w，负熵J(·)∝E(G(·)-G(v))2，其中，G(·):R →R 被称为非线性，通常假设为二阶连续可导的非二次偶函数，且v服从标准正态分布N(0,1)。所以：

其中，Sn-1:={w ∈Rn|‖ ‖w =1}，E{·}表示对观测信号x取数学期望，实际中用样本均值替代。上述优化问题进一步等价于极大化或极小化对比函数M(wTx)=E[G(wTx)]，本文以极大化为例，即：

文献[2]中提出3 种可选的非线性，峭度：x4/4 ，gauss:-exp(-x2/2)，tanh:lg cosh(x)。

3 FastICA算法

3.1 全集FastICA算法

通过使用拉格朗日乘子法求解上述优化问题，得到全集FastICA算法如下所示：

迭代式（2）中的g(·)和g′(·)分别表示非线性G(·)的一阶导数和二阶导数。文献[2]中提供了上述FastICA算法的详细推导过程。推导采用的是牛顿迭代的方式求解拉格朗日方程。整个推导过程中采取了两次逼近。2017年，S.Basiri等学者[16]根据源信号的独立性，给出了新的推导方式，没有用到两次逼近，同样得到上述结果。本文中将式（2）称为全集FastICA。

3.2 基于样本的FastICA算法

式（1）是经典的ICA 模型，但是在实际中可以得到的是如下的样本形式：

文献[2]中已经提出了模型（3）所示的样本ICA 模型，本文主要研究其相关性质。与模型（1）类似，对模型（3）也做如下的说明和假设：

（1）每次样本实现是独立同分布的。

（3）A 是未知的非奇异正交方阵。

（4）观测信号x(t)同样需要白化。白化过程中的期望和协方差阵分别用样本均值和样本协差阵估计，即：

假设模型（3）的x(t)已经被白化过，不难验证，白化后的x(t)样本均值为零向量，样本协差阵为单位阵，称模型（3）为基于样本的ICA 模型。同样的，用样本均值代替式（2）中的数学期望，得到的算法称为基于样本的FastICA算法。

4 收敛性分析

4.1 全集FastICA收敛性分析

近年来，很多学者研究了FastICA算法的收敛性，比如文献[2，12-13]。为了下文对基于样本的FastICA算法收敛性进行探讨，首先以更加简洁的方式证明全集FastICA 算法收敛性能的相关内容。将全集FastICA 算法式（2）分解为两个函数，并定义一个新函数：

可以看出R(·)和T(·)是根据全集FastICA 算法式（2）定义的，而U(·)则是根据文献[2]中全集FastICA算法局部收敛性条件定义的，收敛条件叙述如下。

引理1（收敛条件）假定输入数据符合ICA模型，数据z=VAs 是白化过的随机向量（其中V 是白化矩阵），而G(·)是一个足够光滑的偶函数。那么在约束下，混合矩阵VA 的逆矩阵中某行使得E{G(wTz)}取相应的局部极大值（或极小值，是极大值或极小值由下面公式中对应的“＞”或“＜”确定），当且仅当相应行对应的独立成分si满足：

式中，g(·)是函数G(·)的导数，而g′(·)是g(·)的导数。

由表1可知，棚内温度要小于棚外温度，绿棚温度高于黑棚温度；湿度以棚外最高，并且黑棚的湿度高于绿棚；光照度以棚外最高，绿棚高于黑棚，并且棚内直射光线明显减少，而漫射光线增多。

不等式（7）与U(·)的定义一致。引理1 表明，任何非二次函数G(·)只要满足E{sig(si)-g′(si)}≠0，就可以将概率密度空间分为两个半空间，而两个半空间分别对应式（7）取正负的两种取值。分布落在其中一个半空间的独立成分，可以通过极大化对比函数E{G(wTz)}来估计，而落在另一个空间中的分布，则可以通过极小化相同的函数进行估计。当U(w)≠0 时，全集FastICA算法可以收敛到混合矩阵的第i 个列向量ai。不失一般性，本文以极大化空间为例，即假设U(ai)＞0 ，此时ai是E{G(wTz)}的极大值。基于上面的假设，定理1成立。

定理1（不动点定理）混合矩阵A 属于正交矩阵集合O(n):={A ∈Rn×n|ATA=I}，ai是混合矩阵A 的第i列，U(ai)＞0，则ai是函数T(·)的不动点。

证明设矩阵A 有如下形式：A=(a1,a2,…,an)，则：，此处。将ai带入式（4），得：

上述推导中应用了si的相互独立性和E[si]=0 。且

由于定理1是基于ai可以实现正确分离，即达到对比函数M(wTx)的极大值成立的，所以，如下的定理2成立。

定理2 如果x*是M(wTx)=E{G(wTx)}的局部极大值，则它是函数T(·)的一个不动点。

4.2 基于样本的FastICA收敛性分析

为了分析基于样本FastICA 算法的收敛性，以及描述和证明FastICA 估计的一致性，参照文献[17]中M-估计和Z-估计的定义和一致性定理，引入对比函数M(wTx)的一个近似。首先构建一个观测样本x(t)的概率密度函数（8）：

其中，δ(x)被称为狄拉克δ 函数，是一个广义函数，该函数在除了零以外的点取值都等于0，而在整个定义域上积分等于1，即：。显然，δ(x)满足概率密度函数的充要条件：（1）非负可积；（2）正则性，在整个实轴上积分等于1。且函数δ(x)具有如下的性质：

因此，对于式（8）的pN取函数期望，可以得到：

本文中EN(·)表示对于概率密度函数式（8）取数学期望。所以，可以重写式（4）～（6）为如下样本形式：

并且，对比函数M(w)也可以定义为如下样本形式：

此处的MN即为M(wTx)的近似。为了方便下文的证明，在此假设E∞，且：

式中c 和p 是正常数。文献[18]中采取了类似的假设，并且解释了该假设的可行性。对于第2章的3个经典非线性函数，峭度：x4/4,gauss:-exp(-x2/2),tanh:lg cosh(x),至少存在p=4 的情形使得不等式（13）成立。可以证明，4.1 节的引理1、定理1、定理2 推广到基于样本的FastICA 算法依然成立。分析可知，只需要证明UN一致收敛到U 即可。首先引用文献[19]的依概率一致收敛定理。

引理2 假设x(t),t=1,2,…,N 是一个n 维变量分布的样本，θ 是紧集Θ ∈Rn上的随机向量。 h(x,θ) 是Rn×Θ 上的Borel 可测函数，使得∀x,h(x,θ)是连续函数，且E＜∞，则：

引理2其实是加强版的强大数定律，该引理的具体相关内容可以在参考文献[18]中找到。根据引理2很容易证得式（9）～（12）均依概率一致收敛到式（4）～（6）和M(wTx)。

定理3 假设w ∈Sn-1，且G(·)是连续函数，以下依概率一致收敛成立：

证明只需证明式（14）、（15）满足引理2 的条件即可。显然，Sn-1是紧集。由于G(·)的连续性，所以第二个条件也满足。现在只需证明期望有界即可。

当然也可以将函数G 看成算子，因为连续算子与有界算子等价，所以

因此，式（14）成立。同理

所以式（15）成立。

由于引理1、定理1 以及定理2 都是基于条件：U(w)＞0，根据定理3中式（15），显然它们可以扩展到基于样本的FastICA算法。所以基于样本的FastICA算法也是收敛的。在下一章一致性分析中，会用到式（14）的结论。引理1的扩展如定理4所示。

定理4 假设输入数据符合模型（3），数据x(t)已经白化过。在约束‖ ‖w =1 下，混合矩阵A 的某列ai可以使取得相应的局部极大值（或极小值）：当且仅当对应的独立成分si(t)满足：UN(ai)＞0(resp.＜0)。

定理1和定理2可类似推广。

5 FastICA的一致性

文献[15]讨论了FastICA 估计的一致性，但是是从经验过程的相关理论和P-Donsker，以及P-Glivenko-Cantelli 的性质讨论的。本文从概率论角度重新证明FastICA 算法得到估计的一致性。文献[17]中有经验过程的具体介绍。一致估计是指当样本数量充分大时，抽样样本指标充分接近总体指标。换句话说，一致估计等价于估计依概率收敛到真实值。

如文献[15]所述，FastICA 算法得到的估计是一种M-估计，或Z-估计。文献[17]第5章详细介绍了M-估计和Z-估计，极大似然估计是最常见的M-估计。从文献[2]关于FastICA 算法过程，可以看到，分离向量的估计w^是通过类牛顿法求解方程：Ψ(w):=E[xg(wTx)]=0，所以该估计可以看做Z-估计。引用文献[17]定理5.9来证明FastICA估计的一致性，具体内容如引理3所述。

引理3 假设Ψn(θ)是随机向量函数，Ψ(θ)是固定向量函数，且∀ε ＞0，下列两式成立：则：任意估计序列θ^n依概率收敛到θ0且Ψn(θ^n)=op(1)。

结合引理3与文献[17]可知，随机序列Ψn(θ)的零点依概率收敛到固定序列Ψ(θ)的零点。引理3 中符号op(1)表示依概率收敛，具体内容和运算可以参考文献[17]的2.2节。本文取：

定理5（FastICA 的一致性）假设ai可以分离得到正确的源信号si，且E[g′(si)]≠0、，则由Ψn(w):=En[x(t)g(wTx(t))]产生的FastICA估计是一致的，p

证明根据引理3，证明一致性，只需证明式（16）、（17）成立即可。根据引理2，式（16）成立只需证明：E＜∞。同定理3证明：

本文假设函数G(·)为偶函数，则E[g′(si)]≠0 、0。因此，上式成立。FastICA 估计的一致性得证。

6 计算机仿真

此部分仿真主要分为两方面，一方面验证FastICA算法具有良好的分离效果，另一方面验证FastICA 估计的一致性。

为了验证分离效果，采取如图1（a）所示的3张512×512的灰度图像作为源信号，使用matlab2017b随机产生混合矩阵，进而得到图1（b）混合信号。采用经典FastICA算法（2）分离源信号，得到图1（c）。式（2）中出现的数学期望用样本均值mean代替，非线性选取tanh:lg cosh(x)。由于ICA算法估计出的图像信号的幅值存在不确定性，会出现图像偏白或偏黑的情况。为了给出逼真的图像效果，将ICA 给出的图像估计的灰度值进行放缩变换，使变换后灰度值最大的像素点的灰度值为255，灰度值最小的像素点对应的灰度值为0。避免了图像偏白或偏黑的情况。从图1可以看出，源信号和分离信号除去顺序不一致，基本可以分辨出相互之间的对应关系。由此可见，FastICA的良好分离性能。

图1 图像分离效果

一致性指随着样本数目增加，分离信号与源信号之间的差距逐渐变小。为了验证FastICA 的一致性，选取4种波形信号：正弦波信号、方波信号、锯齿信号、随机噪声作为实验对象，并且不同的样本数目为200 和2 000。实验结果如图2和图3所示。图2和图3分别为N=200与N=2 000 的情形，两个实验对应的源信号选取均为上述4 种波形信号，源信号相同，只有样本数目不同。明显可以看出，图3的分离信号更加接近源信号。而图2的分离信号，尤其是锯齿形信号，很明显与源信号相差较远，源信号是光滑的，但分离信号则不是。由此可见，当样本数目增加时，分离矩阵可以更好地被估计，分离得到的源信号与真实的源信号更加接近。由此，验证了FastICA估计的一致性。

为了更进一步说明一致性，引入FastICA 评估的性能指标（Performance Index，PI）。文献[20]中有关于指标PI 的详细介绍及计算公式。等距样本数目区间为[0,500]、[500,1 000]、[1 000,1 500]、[1 500,2 000]、[2 000,2 500]、[2 500,3 000]、[3 000,3 500]、[3 500,4 000]、[4 000,4 500]、[4 500,5 000]，对于每一个样本区间，运行100次，随机产生100 个样本数，并取整，计算每次的PI 值，并且求得平均的PI 值，运行结果如表1 所示。根据文献[20]，PI值达到10-2，一般可以达到较好的分离效果，且PI 值越小，分离效果越好。观察表1 中的PI 值，随着样本数目的增加，PI 值明显递减。因此，一致性又一次得到证明。

大量的实验结果表明，当样本数目大于等于独立分量数目的10 倍以上时，一般均可以达到较好的分离结果，而自适应类的ICA算法达到收敛时需要的样本数目远远大于独立分量数目的10倍。例如，在本实验中，选取样本数目为40时，PI值已经可以达到0.001 663 94，此时，FastICA算法具有良好的分离效果。

图2 样本N=200 分离效果

图3 样本N=2 000 分离效果

7 结束语

本文将FastICA 算法写成样本形式，并且分别分析了全集FastICA算法和基于样本的FastICA算法的收敛性。证明了FastICA算法对比函数局部极大值和迭代函数不动点之间的关系，并且通过引理2 的大数定律，将其扩展到基于样本的FastICA算法。本文的另一个重要内容是运用概率论的方法证明FastICA估计的一致性。