贝叶斯推理模型Index-GMVAE在随机数据缺失填补中的应用*

2022-02-25李建勋

指挥控制与仿真 2022年1期

马超,蔡猛,李建勋

(1. 上海交通大学自动化系,上海 200240;2. 中国航空工业集团洛阳电光设备研究所,河南洛阳 471009)

现实世界的数据集常会存在数据随机缺失(MAR,Missing At Random)的问题,且样本数据缺失会大大降低分析算法的有效性。现有的处理缺失数据还原的方法大致分为两类:第一类是直接删除含有缺失值的样本点,这种方法简单易操作,但是会造成原有数据集信息的丢失；另一种方法是对缺失值进行插值,这种方法分为基于统计技术的方法和基于样本聚类技术的方法。基于统计技术的方法即常见的均值插值、众数插值等。基于样本聚类技术的方法是通过找到与缺失值样本相似的样本,再通过一定的算法进行插值。早期的方法常见的有K近邻、决策树等。

近年来，将深度生成模型应用于缺失数据处理逐渐成为研究的热点。该模型是一种基于贝叶斯网络的深度学习网络模型,通过一种无监督的方式学习任何类型的数据分布。在该模型中,通过定义观测数据和潜在变量的联合分布,用极大似然估计的方式去拟合观测数据分布。然而，推理隐变量的真实后验分布是十分困难的,所以，采用了基于变分推断理论的深度生成模型——变分自编码器(VAE, Variational Auto-Encoder),该模型可以通过隐变量学习观测数据集的分布,并在生成网络中将缺失数据推理出来。现有的VAE推理缺失数据方法通常将隐变量的先验分布设置为单高斯分布,并将数据的缺失位置当作掩码变量一同作为观测数据输入。这种设置可以降低算法的复杂度,但是，由于设置了单一先验高斯分布,将会在一定程度上损失观测数据的部分信息,且变分推断证据下界收敛较慢。

针对以上问题,本文提出了一种新的贝叶斯推理模型——位置索引高斯混合变分自编码器(Index—GMVAE, Index—Gaussian Mixture Vatiational Auto-Encoders),将隐变量的先验分布设置为高斯混合分布,可以使隐变量更好地学习观测数据的先验分布,从而提高随机缺失数据推理生成的有效性,并将缺失位置掩码作为一种变量建立了观测数据、隐变量、缺失掩码变量及高斯混合类别变量的四元联合概率分布,推导出了新的变分推断证据下界。该算法在Mnist手写数字数据集和UCI-Adult异构数据集上做了对比验证,实验结果表明,该算法在两种数据集上均显著提高了模型的证据下界收敛速度和推理效果及置信度。将缺失数据还原平均准确率提升10%左右,具有良好的鲁棒性。

1 Index-GMVAE算法理论推导

1.1 变分自编码器(VAE)理论推导

变分自编码器是一种典型的无监督生成网络模型,它将贝叶斯网络变分推断和深度学习结合用于数据的概率推理及生成。其基本网络结构如图1所示。

图1 变分自编码器网络结构图

该模型将复杂的观测数据空间映射到相对简单的低维隐变量空间上,则的边际概率为

(1)

其中，为生成网络参数且未知,隐变量的真实后验分布难以计算:

(2)

为了解决该问题,该模型构建了一个推理网络(|),为推理网络参数,运用变分推断方法去逼近真实后验分布(|),则观测数据的边际似然对数函数可以写为

log()=

～(|)[log()]=

[(|)||(|)]+～(|)[log(|)]-

[(|)||()]

(3)

结果的后两项即为观测数据边际似然函数的证据下界(ELBO),将其作为损失函数,迭代优化网络的和参数。如公式(4)、(5)所示:

(,;)=-[(|)||()]+

～(|)[log(|)]

(4)

其中:

(5)

如图1所示,该模型通过推理网络拟合出隐变量的均值和方差,并采样构造出对应的单高斯分布的值,然而采样过程不可导,为了能通过梯度下降算法优化网络参数,采用重参数法从～(0,1)这个新的标准正态分布中采样构造,对求导使梯度可求,如公式(6)所示:

=+·

(6)

1.2 Index-GMVAE理论推导

传统的VAE模型的隐变量的先验分布为单高斯分布,工程上便于实现,但是会在推理过程中丢失观测数据的部分分布特征。本文引用高斯混合分布作为隐变量的先验分布,该分布具有可以拟合任意概率分布的优秀特性。记～π()为离散的高斯混合分布类别变量,将原本的连续隐变量先验分布(),变为离散变量和连续变量的联合概率分布(,)。

针对完全随机缺失数据,本文将缺失数据的位置记录为张量,将缺失视为数据不可观测,设

(7)

记为原本未缺失的完整数据,为经过随机缺失处理后的可观测数据,则满足:

=·

(8)

因为原数据是完全随机缺失的,故可以假设隐变量与数据的缺失位置变量相互独立:

(,)=(,|)

(9)

此时观测变量的边际对数似然函数为

log(|)=

[(,|,)||(,|,)]+

(,|,)[log(|,,)]-

[(,|,)||(,)]

(10)

同样地,可得该似然估计的证据下界如公式(11)所示:

(,;,,)=(,|,)[log(|,,)]-

((,|,)||(,))

(11)

将该证据下界作为模型的损失函数,用随机梯度变分贝叶斯(SGVB, Stochastic Gradient Variational Bayes)估计器近似求解。首先用蒙特卡洛估计方法求损失函数第一项的重构损失期望,如公式12所示:

(,|,)[log(|,,)]≈

(12)

复原的数据对数似然函数一般为伯努利分布和高斯分布两种形式,在实验中不论是Mnist手写数字数据集还是UCI.Adult二分类异构数据集均归一化和离散化编码为0～1的值,故采用伯努利分布,如公式(13)所示:

(13)

其中，为生成网络输出的还原数据∈{=1|},即只对可观测数据计算重构损失。将不可观测位置上生成的数据作为还原的缺失数据。在变分推断理论中,隐变量分布的复杂性决定了整个优化问题的复杂性,一般将其拆分为多组相互独立的变量,如公式(14)所示:

(,|,)=(|,)(|,)

(14)

所以损失函数中的散度项可以展开为

-((,|,)||(,))=

(,|,)[log()+log(|)-

log(|,)-(|,)]

(15)

针对缺失数据还原问题,将类别的前后验分布均设为均匀分布,即期望为1,不参与损失函数的计算。设(|)～(;,,),可用蒙特卡洛估计法将式(15)展开为:

(,|,)[log(|)]=

(16)

(,|,)[loglog(|,)]=

(17)

2 Mnist图像数据集实验

2.1 缺失处理及实验设计

Mnist手写数字数据集是非常常用的算法验证数据集,共有0～9这10类数字,具有样本均衡、维度适中、易于验证等特点。实验中在原数据集的图像上构造了完全随机缺失(MCAR, Missing Completely At Random),缺失类型分为像素点缺失和像素块缺失。如图2所示,从左到右列依次为原数据集、缺失块和缺失点处理示意图、处理后效果示意图及均值填补示意图。

图2 图像完全随机缺失和均值填补

在图像像素随机缺失处理的基础上,先对其做插值预处理,常见的基于统计的插值预处理方法分为零插值法、均值插值法、众数插值法等。实验中采用均值插值法,记为缺失处理后的观测数据,为原观测数据的均值(即所有图片同一像素点的均值),如公式(18)所示:

(18)

模型网络先将缺失图像输入经过卷积层处理后再池化,降维成128维的向量,将高斯混合分布的类别数目定在8～12类之间,在经过softmax层得到高斯混合的类别概率向量后,依次拟合出每一类的高斯分布均值方差,用重参数法组合出隐变量值后再按概率向量组合出最后高斯混合分布的值,设置隐变量为10维向量,之后经过卷积层扩维,将推理还原出图像原来的完整数据与输入数据进行重构损失和KL散度计算,不断迭代优化网络参数,最后，推理出相对良好的缺失数据值。实验中的Index-GMVAE网络结构如图3所示。

图3 Index-GMVAE处理Mnist网络结构图

2.2 实验结果及分析

在整个模型推理的过程中,观测数据的对数似然函数证据下界(ELBO, Evidence Lower Bound)的收敛性和逼近0值的性能是判断网络推理性能好坏的重要指标,Index-GMVAE与VAE对比的ELBO迭代变化如图4所示。

图4 Index-GMVAE和VAE证据下界收敛对比

因为Index-GMVAE比VAE的ELBO多一项(,|,)[log(|)]类别重构期望,所以收敛最小值要比VAE大,但是收敛速度明显比VAE快很多。

将随机缺失图像用均值填补,传统VAE算法填补及index-GMVAE算法填补后图像的还原的效果对比和推理分类结果的ROC曲线对比如图5所示,从左到右列依次为图像均值填补示意图、VAE算法推理还原示意图及本文提出的Index-GMVAE算法推理还原示意图。

图5 图像均值填补、VAE推理和Index-GMVAE推理

从图5可以看出，Index-GMVAE算法的图像缺失推理还原能力明显强于传统VAE算法,具有更高的整体辨识度和低错误率。由图6中两种模型对数据类别推理的ROC曲线对比可知,Index-GMVAE算法显著提高了模型的概率推理性能,使模型推理具有更高的推理置信度。

图6 Index-GMVAE和VAE的ROC曲线对比

由图7最终得到的缺失数据还原的均方差对比可知，Index-GMVAE算法在还原精度上明显高于VAE算法,体现了算法在还原图像数据缺失时的有效性。

图7 Index-GMVAE和VAE推理缺失数据MSE对比

3 Adult异构数据集实验

3.1 缺失处理及实验设计

UCI数据库中的Adult数据集是一个典型的异构二分类数据集,它有48 842个样本点,每个样本有14个特征,有两种不同类型的数据特征。具体如表1所示。

表1 Adult数据集的特征展示

由表1可知,数据特征分为数值型和类别型两种类型,实验中为了便于记录缺失位置,将数值型数据等频分桶之后,两种类型的数据均进行One-Hot Enbedding编码,输入由14维变成133维的二值向量,将Mnist数据集模型中的卷积层变成全连接层来做隐变量的编码和解码,实验中设计任意1～3个特征的完全随机缺失。具体的网络结构如图8所示。

图8 Index-GMVAE处理Adult网络结构图

3.2 实验结果及分析

实验将高斯混合的分布的类别设为6类,设置隐变量为10维向量,与Mnist实验类似,Index-GMVAE收敛速度较快,但下界略高于VAE。Index-GMVAE和VAE的证据下界收敛对比如图9所示。

图9 Index-GMVAE和VAE证据下界收敛对比

将测试集数据的PCA降维分布、VAE和Index-GMVAE隐变量分布,两个模型推理结果的ROC曲线以及进行缺失数据还原的准确率进行仿真实验对比,结果如图10,11及表2所示。

图10 测试集数据分布及模型隐变量分布对比

图11 Index-GMVAE和VAE的ROC曲线对比

表2 Adult数据集的特征展示

由测试集数据的降维分布和两个模型的隐变量分布对比以及两个模型推理结果的ROC曲线对比可知,Index-GMVAE对数据分布的降维推理能力明显强于VAE,能学习到更为精确的数据分布,并且Index-GMVAE模型的推理置信度要优于VAE,这说明引入高斯混合分布及位置掩码后提高了模型的贝叶斯推理性能。可知本文提出的Index-GMVAE模型比传统VAE算法在缺失还原平均准确率指标上提升约10%,明显具有更好的缺失数据还原能力。这与在Mnist图像数据集上仿真得出的结论一致。

4 结束语

本文针对数据集的部分特征完全随机缺失问题,提出了一种基于高斯混合后验分布和缺失数据位置掩码的Index-GMVAE概率网络模型,用高斯混合分布替代原来的单高斯分布来提高从观测数据中提取分布特征的能力,并将缺失位置掩码也作为一种变量建立了观测数据、隐变量、缺失掩码变量及高斯混合类别变量的四元联合概率分布,推导出了新的变分推断证据下界(ELBO),提高了网络的收敛速度和概率推理性能。

算法在手写数字图像数据集Mnist和异构二分类数据集Adult上均取得了比VAE和传统聚类方法更好的推理还原能力,体现了算法的鲁棒性。但是本文方法只涉及了完全随机缺失情况下的数据还原,对于非随机缺失问题还没设计更好的应对策略,这将是下一步研究的重点。