基于Regression GAN的原油总氢物性预测方法

2018-06-07郑念祖丁进良

自动化学报 2018年5期

郑念祖丁进良

核磁共振氢谱(1H nuclear magnetic resonance spectroscopy,1H NMR)可用于检测有机化合物中氢原子与周围化学官能团的相互作用,在化学、中药材质量及药物分析方面早已得到广泛研究[1−2].近年来,该技术得到迅速发展.作为新的原油物性预测手段之一,该技术制样简单、灵敏度与分辨率较高,提供结构信息丰富,具有良好的发展潜力与应用前景[3−5].

由于原油物性复杂多变,常用的建模方法诸如偏最小二乘回归(Partial least square regression,PLSR)、支持向量机 (Support vector machine,SVM)、卷积神经网络 (Convolutional neural network,CNN)等往往无法适用于实际复杂的非线性关系,因此模型的泛化能力在一定程度上受到限制[6−8].近年来,生成对抗网络(Generative adversarial network,GAN)以其对抗学习成为人工智能领域的一个热门方向[9],其基本思想在于判别模型D通过对抗学习提取样本空间的潜在特征表示,迫使生成器G的概率分布匹配于未知的真实的数据分布.与传统的生成模型不同,GAN不是直接对样本空间中每个样本点进行概率密度估计,而是通过生成器G对样本分布进行隐式表达.因此,如何将GAN对抗学习获得的潜在特征表示充分利用以提高回归模型的泛化能力是一个值得思考的问题.

本文尝试解决预测回归问题,同时能够学习得到一个生成模型.近年来,在分类任务中采用生成模型的研究受到了广泛的关注,并取得了许多进展.Kingma等[10]采用变分方法改进深度生成模型和近似贝叶斯推理,使得生成方法适用于半监督分类问题;Radford等[11]将判别模型D中全部特征层应用于分类,取得了不错的效果,但其存在判别模型D与分类模型C不能同时联合训练的问题;Springenberg等[12]提出CatGAN(Categorical generative adversarial networks)对GAN进行半监督形式拓展,通过引入类别损失来进行指导GAN的学习,其基于熵损失的无监督学习方法表现较好.然而,以上工作均是应用于分类问题中,为此,我们提出一种回归生成对抗网络(Regression generative adversarial network,RGAN)对GAN进行拓展,从而应用于回归问题中,该模型同时训练得到回归模型R与生成模型G,且R与判别模型D共享首层潜在特征,在RGAN框架下,G,D及R相互促进,使得RGAN模型的预测精度及生成质量均得到提高.

1 基本原理与方法

1.1 GAN的基本理论

生成对抗网络GAN引入一种新的生成模型训练框架,该框架包括两部分:1)生成模型G捕获真实样本的概率分布,学习如何产生新的样本尽可能“欺骗”判别模型;2)判别模型D尽可能判断输入的样本是否来自于生成器G,G和D互相对抗,形成一个最大最小博弈游戏的价值函数.

其中,z表示从特定分布p(z)中随机采样所得的向量,pdata(x)表示真实样本数据的概率分布.GAN同样存在训练过程不稳定、模型崩溃等问题.在过去的几年中,从各个方面提出了很多模型用于提高其性能.DCGAN(Deep convolutional generative adversarial networks)[12]采用反卷积神经网络与卷积神经网络分别构造生成模型G与判别模型D,并对如何建立一个稳定的GAN网络提供了实验性的指导;CGAN(Conditional generative adversarial nets)[13]将条件变量同时加入G与D中,使得样本数据的生成基于条件变量;EBGAN(Energybased generative adversarial network)[14]从能量模型的角度对GAN进行改进;WGAN(Wasserstein GAN)[15]将Wasserstein距离代替JS散度(Jensen-Shannon divergence),用于估计真实样本数据分布与生成样本分布之间的距离,使得模型的对抗学习更加稳定,其目标函数为

其中,fw,gθ分别为判别模型D与生成模型G的参数形式,考虑WGAN训练的稳定性及指示性,因此,RGAN采用Wasserstein距离作为生成样本概率分布与真实样本概率分布之间距离的度量.

1.2 RGAN模型

回归生成对抗网络(RGAN)包括一个生成模型G、一个判别模型D及一个回归模型R.其基本思想是基于判别模型D通过对抗学习得到一系列潜在特征层,而这些特征层对于下游任务(例如分类或回归)往往具有促进作用,即通过R与D共享特征层可以提高回归模型R的性能表现.同时,利用回归模型R估计生成模型G的条件变量与生成样本之间互信息的下界值,约束生成模型G,并使生成模型G产生更真实的样本.由于对抗的性质,G迫使D的判别能力得到提升,这又有利于回归模型R预测性能的提升,因此就有可能利用这个闭环.在这个闭环中G,R,D可以交替训练使得各自模型趋于最优.但回归问题与分类问题的不同在于与判别模型共享的特征层不同,对于RGAN,回归模型R与判别模型D共享首层潜在特征对问题的解决起关键作用,RGAN具体结构如图1所示.

在图1中,G的输入为噪声z及条件变量c,输出为生成样本x0=G(z,c).由于对抗性,D迫使G根据条件变量产生生成样本.R根据判别模型D对输入样本提取的首层潜在特征,进行回归预测,同时作用于生成模型G的生成过程.G采用反卷积神经网络,D由卷积神经网络及全连接层组成,R的结构则可根据具体问题选取,本文取为卷积神经网络.

1.2.1 RGAN的目标函数

假设真实样本的数据分布为pdata(x),随机噪声z服从已知分布p(z),条件变量c的分布为p(c),fw,gθ和rψ分别为判别模型D,生成模型G 与回归模型R的参数形式.根据Wasserstein距离,将最大最小游戏目标函数作为G与D的价值函数.

图1 RGAN模型结构示意图Fig.1 Diagram of model structure of RGAN

回归模型R包括两个部分:

1)当其输入为真实样本x,回归模型R需要尽可能根据输入的样本数据做出正确的预测,采用MSE评估回归网络的预测效果.

2)当其输入为生成数据G(z,c)时,根据变分法,采用回归模型R估计G(z,c)与条件变量c之间的互信息I[c;G(z,c)]的下界值[16−17],该下界值通过最大化Ex∼G(z,c),c[logrψ(c|x)]获得,即最小化rψ(c|gθ(z,c))的负对数似然性(Negative log likelihood,NLL),通过基于MSE的损失函数实现.

因此,RGAN的目标函数表示如下:

其中,λ表示平衡判别模型D与回归模型R对生成模型G的约束作用,然而当λ=0时,RGAN仅仅将判别模型D的首层潜在特征用于回归问题中,对生成模型G无任何作用.

1.2.2 D与R共享首层潜在特征层

RGAN模型中,判别模型D与回归模型R共享首层潜在特征层,并非全部特征层.原因是判别模型D与生成模型G通过对抗学习逐层对真实样本进行特征提取,并逐层凸显有利于D判断样本是否来自于生成器G的特征,这些特征逐层越来越有利于分类问题,并且深层特征表示与回归问题所需要的特征并不一致,因此不能简单地利用判别模型D的全部特征层来做回归.但考虑判别模型D的首层潜在特征是对真实样本空间的浅层表达,有利于回归问题,因此,将其应用于回归模型以提高其泛化能力与预测精度.如图2所示,RGAN分别基于判别模型D的一系列特征层建立回归模型R,其中Conv1,Conv2及Conv3分别表示回归模型D中第一卷积层、第二卷积层及第三卷积层,可以看到回归模型R的训练集及测试集的损失函数均随周期数逐渐减小,同时在预测精度及训练稳定性方面,首层潜在特征Conv1均优于其后的特征层.因此D与R共享首层潜在特征对于提高回归模型的稳定性及预测精度至关重要.

图2 基于不同特征层RGAN回归模型R的表现Fig.2 Performance of regression model R of RGAN based on different feature maps

2 实验与方法

2.1 实验数据的获得

本实验所用原油样本均来自中国某石油化工实际生产过程,采用核磁共振分析仪测定样品的核磁共振氢谱,共采集479组数据,如图3所示,横坐标为化学位移值,纵坐标为峰强度.对应的原油物性总氢,通过实验室标准方法测取,其取值范围为12.95%∼13.96%.所有核磁共振氢谱谱图及物性信息均不经过预处理,仅归一化至[−1,1].

图3 原油样本核磁共振氢谱Fig.3 1H nuclear magnetic resonance spectra of crude oil samples

2.2 回归模型定量分析的评价参数

为了评估回归模型R的模型预测精度及泛化能力,本文采用相关系数与均方误差.相关系数越大,均方误差越小,模型性能越好.计算公式如下:

式中,n为测试样本集中样本数目,yi,yi,p,和p分别表示测试样本集中第i个样本对应物性的化学值、模型预测值、样本集的物性化学值均值和模型预测值均值.

2.3 RGAN的实现

根据RGAN的目标函数及基本思想,分为三个部分构造:1)生成模型G,输入为服从分布均值为0、方差为0.3的高斯噪声z及[−1,1]间均匀分布的条件变量c.采用三个反卷积层,卷积核大小均为5×1,中间层和输出层的激活函数分别采用ReLU及双正切函数;2)判别网络D采用卷积神经网络,卷积核大小为10×1,条件变量c与上层输出合并输入最后一个卷积层,中间层均采用Leaky ReLU函数作为激活函数,输出层为线性函数;3)回归模型R与D共享首个卷积层,输出层的激活函数为双正切函数.G,D与R的中间层均采用批标准化,训练过程中,超参数λ分别设置为{0,0.001,1},批次大小为32,优化器为ADAM,学习率为2×10−4,G,D与R交替训练,经过约200周期,RGAN训练过程趋于稳定,具体模型结构参数见表1.

3 讨论与分析

3.1 回归模型R与生成模型G的影响

RGAN引入一个额外的超参数λ,目的是使得回归模型估计的互信息下界值可以有效作用于生成模型中,并且超参数λ的取值对谱图生成与回归预测十分重要.当超参数λ=0,RGAN退化为WGAN,而回归模型R仅仅利用了判别模型的首层潜在特征,而无法作用于生成模型G.当超参数λ不为零时,回归模型R对G的条件变量与生成样本的互信息估计并最大化,使得生成模型G生成与条件变量相关且类似于真实样本,同时由于对抗性质,G迫使判别模型D提高性能,并使得D特征层能够与条件变量相关,从而利于基于D首层潜在特征建立的回归模型R,因此在R,G与D形成相互促进过程中,各自模型的性能得到优化,不仅增强了生成模型G的稳定性,而且提高了回归网络R的预测性能.

表1 RGAN网络结构及超参数Table 1 The network structure and hyperparameters of RGAN

超参数λ对生成G的影响如图4所示,RGAN生成模型G的损失函数在初期波动随λ值的增大而变得剧烈,原因在于在回归模型的约束作用增强使得生成模型能够对生成空间进行有效搜索,然后经过短暂调整后快速收敛至上界值,而随着训练的进行,判别模型“突然记起”某些特征,使得分辨真实样本与生成样本十分容易,因此生成模型的损失函数出现会骤降,同时由于对抗性质,生成模型随后学习到如何生成这些特征以“欺骗”判别模型以恢复原来达到纳什均衡,此外,生成模型由于回归模型R的作用的增大,其稳态偏差与骤降范围均较小,其恢复能力增强.

图4 超参数λ对生成模型G的影响Fig.4 Effect of hyper parameterλ on generative model G

超参数λ对回归模型R的影响如图5所示,随λ值的增大,回归模型R初期收敛速度加快,稳定偏差范围变小,模型泛化能力得到增强,从而提高了模型预测精度.按照一般对等原则,超参数λ应使得GAN目标函数与R估计的互信息值数量级一致,太大的λ会导致生成模型G趋于强化条件变量有关的区域,从而影响谱图生成整体效果以致不利于生成模型G与判别模型D取得纳什均衡,此外,对回归模型R也有不利影响,因此超参数λ的取值往往小于对等原则对应的取值,使得回归模型对生成过程起辅助作用.

3.2 回归模型R的预测精度

图5 超参数λ对回归模型R的影响Fig.5 Effect of hyper parameterλ on regression model R

本文分别构造一个卷积神经网络CNN预测模型和一个预训练模型CGAN+R.与RGAN结构参数一致,CGAN+R不同的是在对抗训练过程完成之后,将CGAN的首层特征应用于回归模型R中.设定CNN与回归模型结构参数相同,CNN与CGAN+R的优化器及其相关训练参数一致.结果如表2所示,与CNN预测模型相比,RGAN明显提高了预测相关系数Rp,减小了预测集的均方误差MSEP,且Rp和MSEP随λ的增大先分别增大、减小,之后分别减小、增大,表明λ的取值过大会严重影响对抗过程的进行,从而不利于回归模型泛化能力的提高.与预训练模型CGAN+R相比,RGAN(λ=0)联合训练对应于动态寻优过程,在G与D相互对抗的过程中,判别模型R以次梯度逼近于全局最优解,使得RGAN(λ=0)的预测效果略优于预训练模型.在数据集不进行相关预处理的情况下,SVM与PLS应用于原油物性预测模型的建立,PLS的预测性能高于CNN,低于RGAN,因此RGAN通过共享首层特征,联合训练,使得回归模型的预测精度及泛化能力得到了有效提升.

3.3 NMR谱图的生成

将服从高斯分布的随机噪声z及服从均匀分布的条件变量c分别采样,作为RGAN训练得到生成模型G的输入,G的输出以谱图的形式展现,如图6所示,当超参数λ分别为0,0.001与1时,每组共有320个1H NMR谱图生成样本,不经过任何挑选,图6(d)中真实1H NMR样本有479组.由于采样的随机性及缺乏相应评价手段,因此无法对NMR谱图生成的真实度进行定量分析,但可以定性地观察到随着RGAN中回归模型R对生成模型G的作用逐渐增强,生成的NMR谱图在化学位移值500左右的区域波形逐渐丰富,抑制了生成谱图中“假峰”及“杂波”的产生,因此产生的特征峰更类似于真实谱图,表明RGAN通过回归模型R对G的约束作用,使得生成模型G的NMR谱图生成性能得到了提高.

表2 RGAN与不同预测模型的比较Table 2 Comparison between RGAN and different prediction models

图6 超参数λ对NMR谱图生成的影响Fig.6 Effect of hyper parameter λ on generation of1H nuclear magnetic resonance spectrum

4 结论

近年来,GAN在图像生成领域中已取得令人瞩目的成就,本文提出一种新的GAN网络的拓展结构—RGAN,将GAN模型由图像领域应用到核磁共振氢谱原油物性定量分析中.RGAN通过判别模型与生成模型的对抗学习,使得判别模型提取了NMR谱图的一系列的潜在特征,采用判别模型的首层潜在特征建立回归模型,提高回归模型预测精度及泛化能力.通过增加互信息约束,采用回归模型估计其下界,生成模型产生更类似于真实的生成样本.RGAN各模型联合训练,相互促进,趋于各自最优.实验表明,RGAN提高了原油物性回归模型的预测精度及其稳定性,同加快了生成模型的收敛速度,提高了谱图的生成质量.

1 Jackman L M,Sternhell S.Application of Nuclear Magnetic Resonance Spectroscopy in Organic Chemistry:International Series in Organic Chemistry(2nd edition).Amsterdam:Elsevier,2013.

2 Simmler C,Napolitano J G,McAlpine J B,Chen S N,Pauli G F.Universal quantitative NMR analysis of complex natural samples.Current Opinion in Biotechnology,2014,25:51−59

3 Molina V D,Angulo R,Due˜nez F Z,Gunmán A.Partial least squares(PLS)and multiple linear correlations between heithaus stability parameters(P0)and the colloidal instability indices(CII)with the 1H nuclear magnetic resonance(NMR)spectra of Colombian crude oils.Energy and Fuels,2014,28(3):1802−1810

4 Adams A,Piechatzek A,Schmitt G,Siegmund G.Singlesided nuclear magnetic resonance for condition monitoring of cross-linked polyethylene exposed to aggressive media.Analytica Chimica Acta,2015,887:163−171

5 Chen J J,Hürlimann M,Paulsen J,Freed D,Mandal S,Song Y Q.Dispersion of T1 and T2 nuclear magnetic resonance relaxation in crude oils.ChemPhysChem,2014,15(13):2676−2681

6 Duarte L M,Filgueiras P R,Dias J C M,Oliveira L M S L,Castro E V R,de Oliveira M A L.Study of distillation temperature curves from Brazilian crude oil by 1H nuclear magnetic resonance spectroscopy in association with partial least squares regression.Energy and Fuels,2017,31(4):3892−3897

7 Zhang Y D,Chen S F,Wang S H,Yang J F,Phillips P.Magnetic resonance brain image classi fication based on weighted-type fractional Fourier transform and nonparallel support vector machine.International Journal of Imaging Systems and Technology,2015,25(4):317−327

8 LeCun Y,Bengio Y,Hinton G.Deep learning.Nature,2015,521(7553):436−444

9 Goodfellow I J,Pouget-Abadie J,Mirza M,Xu B,Warde-Farley D,Ozair S,et al.Generative adversarial nets.In:Proceedings of the 27th International Conference on Neural Information Processing Systems.Montréal,Canada:NIPS,2014.2672−2680

10 Kingma D P,Rezende D J,Mohamed S,Welling M.Semisupervised learning with deep generative models.In:Proceedings of the 27th International Conference on Neural Information Processing Systems.Montréal,Canada:NIPS,2014.3581−3589

11 Radford A,Metz L,Chintala S.Unsupervised representation learning with deep convolutional generative adversarial networks.arXiv preprint arXiv:1511.06434,2015.

12 Springenberg J T.Unsupervised and semi-supervised learning with categorical generative adversarial networks.arXiv preprint arXiv:1511.06390,2015.

13 Mirza M,Osindero S.Conditional generative adversarial nets.arXiv preprint arXiv:1411.1784,2014.

14 Zhao J B,Mathieu M,LeCun Y.Energy-based generative adversarial network.arXiv preprint arXiv:1609.03126,2016.

15 Arjovsky M,Chintala S,Bottou L.Wasserstein gan.arXiv preprint arXiv:1701.07875,2017.

16 Chen X,Duan Y,Houthooft R,Schulman J,Sutskever I,Abbeel P.Infogan:interpretable representation learning by information maximizing generative adversarial nets.In:Proceedings of the 29th International Conference on Neural Information Processing Systems.Barcelona,Spain:NIPS,2016.2172−2180

17 Kingma D P,Welling M.Auto-encoding variational Bayes.arXiv preprint arXiv:1312.6114,2013.