基于拉曼光谱和改进极限学习机的葡萄糖浓度检测
2020-09-18邢凌宇王巧云杨磊尹翔宇
邢凌宇,王巧云,杨磊,尹翔宇
(东北大学信息科学与工程学院,沈阳 110819)
1 引言
拉曼光谱分析作为一种研究物质分子振动及转动信息的非弹性散射光谱分析技术[1-2],由于其无损、分辨率高、快速实时、样本无需前处理、可用于痕量分析等优势及光谱特征峰清晰尖锐不易重叠、水分子拉曼光谱信号极其微弱等特点[3],使得拉曼光谱分析技术成为化学成分检测的研究热点之一。
定量回归的方法分为线性和非线性,其中线性回归包括多元线性回归、主成分回归和偏最小二乘回归等;非线性回归包括人工神经网络、支持向量机和极限学习机等。李水芳[4]采用线性偏最小二乘回归建模无损测定果糖和葡萄糖含量,罗韬[5]使用支持向量机对葡萄酒的主要风味成分进行快速定量分析,郑念祖[6]采用粒子群优化的人工神经网络预测酒精浓度。但是,偏最小二乘难应用于非线性问题求解;支持向量机模型复杂、计算量大;人工神经网络训练速度慢且易陷入局部收敛。而极限学习机作为一种新型的单隐含层前馈神经网络[7-8],可用于非线性问题的定量回归,具有泛化能力强、学习速度快等优势,由于其参数直接影响模型的预测精度,所以需要进行合适的设置及优化。
本文以葡萄糖样本为研究对象[9],介绍了极限学习机并结合几种改进算法进行比较和选择,又在其基础上提出了一种新型的自适应差分进化人工蜂群算法对极限学习机进行参数优化。结果表明,自适应差分进化人工蜂群算法优化的极限学习机模型具有更高的预测精确度和更强的模型稳健性。
2 样本制备与理论
2.1 实验材料及仪器
实验使用的MultiRAM傅里叶变换拉曼光谱仪由德国Bruker公司生产,配有高性能液氮冷却的Ge检测器、标准Nd:YAG(1064 nm)激光器和OPUS 7.0光谱分析软件程序。葡萄糖标准样本溶液是经商业渠道购买的葡萄糖经不同程度稀释后得到,配置浓度范围为0.1~1 g/100 mL。为避免在光谱采集和实验操作中发生特性变异,样本均冷藏保存在4 ℃以下环境中。实验前将样本均分两份,一份使用安捷伦高效液相色谱仪测量其浓度,一份置于石英透明杯中,用拉曼光谱仪在室温环境下测量,设置光源功率为400 mW,光谱分辨率为6cm-1,扫描速率为10 kHz,扫描范围为400 ~ 4000 cm-1,对每个样本重复采集3次并取平均值作为光谱的原始数据,以保证实验的准确性和可重复性。
2.2 人工蜂群算法
人工蜂群算法(Artificial Bee Colony Algorithm,ABC)是模拟自然界中蜂群采蜜行为的一种群体智能算法[10-11],目的是在解空间中寻找使用适应值函数进行衡量的最优蜜源,引入采蜜蜂、观察蜂、侦查蜂三种功能蜂不断更新。人工蜂群实质是通过蜜蜂个体局部寻优行为体现全局寻优结果的寻优方式,其简易流程见图1。
图1 人工蜂群算法简易流程图
初始设置蜂群总数N并根据式(1)随机赋予蜂群D维的蜜源位置:
(1)
迭代更新开始,采蜜蜂首先进行寻优,一只采蜜蜂随机匹配到另一只采蜜蜂,并在其附近根据式(2)寻优并应用贪婪准则更新,设有惩罚条件。
(2)
其中,i,k∈{1,2,…,N}且i≠k,γ为[-1,1]内随机数。其次每只观察蜂随机跟随到一只采蜜蜂并获得其位置及适应值,更新后的每只观察蜂随机匹配到另一只更新后的观察蜂,寻优更新方式同采蜜蜂且设有惩罚条件;最后侦查蜂在全局范围内进行更新,无惩罚条件。
完成一次更新后判断是否满足惩罚条件及是否完成设定的迭代次数,记录当前全局最优解的位置及适应值,若未达到限定最大迭代次数则重新进行蜂功能分配且进入下一次寻优。
采蜜蜂和观察蜂设有的惩罚条件,即每次寻优后若更新的位置未优于初始位置,惩罚数加1;每次迭代情况累加,惩罚数达到设置的惩罚阈值前若得到更优位置则惩罚数置零,若未得到更优位置则对该蜂惩罚,即不可逆地转化为侦查蜂继续迭代寻优,该蜂变更后作为侦查蜂不可向其他功能蜂转化。
2.3 自适应差分进化
由于人工蜂群算法存在早熟收敛、后期容易陷入局部最优且搜索精度不高等问题,其模型及构造仍有进一步改进空间,考虑结合其它智能算法协同搜索。差分进化(Differential Evolution,DE)是一种基于实数编码和保优贪婪策略的特殊遗传算法[12-13],通过群体内个体合作和竞争产生的智能指导搜索过程。
差分进化算法包括变异、交叉、选择三项操作。变异是将两随机个体做差后再以一定权重和第三个个体求和,计算公式见式(3):
(3)
其中,i,m,n∈{1,2,…,N},且i≠m≠n,V∈[0,1]为变异率用于控制差向量的影响。变异算子的每个基因位的改变取决于其它个体间的差值,充分利用了群体中其他个体的信息,扩充种群多样性同时避免单纯在个体内部进行变异带来的随机性和盲目性。
交叉是将经变异得到的新个体与初代个体按一定标准融合,计算公式见式(4):
(4)
其中,CR∈[0,1]为交叉率。交叉算子看似没有个体间的信息交互,但由于新个体是经差分变异而来,本身保有种群中其它个体的信息,因此变异同样具备个体间信息交互的机制。
选择是将经过每一代变异、交叉产生的新种群,运用贪婪选择的方式得到较优个体,组成下一代的进化群体,计算公式见式(5):
(5)
差分进化模拟生物进化过程,使种群的衍化朝着更优的方向前进。它在种群寻优的过程中利用个体局部信息和群体全局信息指导算法进行搜索,充分利用种群繁衍过程中产生的有用信息,具有协同搜索的特点,搜索能力强;不依赖问题的特征信息,通用性强且控制参数少、鲁棒性强,易于和其它算法有效结合;但其在保证群体优良性同时也存在不足,即容易陷入局部最优、对参数有一定依赖性且难以在有限时间内保证搜索,搜索效率有待提高。结合差分进化的人工蜂群算法简易流程见图2。
差分进化中变异算子和交叉算子的变异率V和交叉率CR是人为根据经验直接给出的特定值,在更新进化的过程中保持不变,干涉整体的寻优效果,所以考虑对此参数进行调整,提出自适应差分进化(Self Adaption Differential Evolution,SADE)理念来减少对此初始固定参数的依赖,利用当前得到适应值的全局最优值和均值的关系来调节变异率和交叉率,自适应调整公式见式(6)~式(7):
(6)
(7)
图2 差分进化人工蜂群算法简易流程图
自适应原理为:当目前适应值的全局最优值与均值相差较大时,变异率及交叉率的数值随之减小,使每个解自身的位置随机变异的发生概率减小、使两组解之间位置信息的互换程度降低,有助于缩小寻优过程的步长,尽量保留当前最优的状态;当目前适应值的全局最优值较均值相差较小时,变异率及交叉率的数值随之增大,有助于增加寻优过程的步长,能够在全局范围内大概率更新,避免陷入局部最优。此改进方法能够在获得较优解时缩小不良进化的概率,弥补部分早熟带来的影响。
2.4 基于优化算法的回归模型
本文采用的定量回归模型是极限学习机(Extreme Learning Machine,ELM)[16],一类基于前馈神经网络构建的机器学习系统和方法。传统ELM具有单隐含层,在学习速率和泛化能力方面具有优势,其目的是对反向传播算法(Backward Probagation,BP)改进,以提升学习效率低并简化学习参数的设定,克服了梯度下降的一些缺点,学习效率高,计算复杂度低。
ELM的输入权值ω和隐含层阈值b是初始随机或人为设置,给定后无需调整,只需在训练过程中解析得到输出权值β。由于ELM的ω和b是随机数,其取值的优劣对模型的训练有很大影响,现对传统ELM进行改进,结合几种常见的优化算法建立模型,运用MATLAB软件编程,实现对样本的定量回归。
2.5 实验的评价指标
本文结合采集到的拉曼光谱数据建立定量回归模型,以决定系数R2、预测集均方根误差RMSEP、训练集均方根误差RMSEC及相对分析误差RPD几个常用指标来评价模型性能。其中,R2表征预测值与真实值间相关程度,数值在0到1之间,越接近1预测值越接近真实值,拟合地越精确;RMSEP和RMSEC的值越小,模型的稳健性越强;在保证避免过拟合的前提下RPD的值越高,模型精确度越高,回归模型评价指标的计算公式见式(8)~式(11)。
(8)
(9)
(10)
(11)
3 分析与讨论
3.1 样本分析
实验使用41组葡萄糖样本,选取其中30组用于建立训练模型,余下11组用于预测。根据样本特征峰的位置及拉曼信息的分布情况,选取了拉曼位移在800~1800cm-1内的波段为实验波段,样本的原始拉曼光谱见图3。
图3 41组葡萄糖样本的原始拉曼光谱图
3.2 定量回归
对传统ELM模型进行改进,对比不同优化算法对模型的影响,采用几种常见的智能算法建立模型,分别得到基于遗传算法(Genetic Algorithm,GA)的极限学习机(GA_ELM)、基于粒子群算法(Particle Swarm Optimization,PSO)的极限学习机(PSO_ELM)和基于人工蜂群算法(Artificial Bee Colony Algorithm,ABC)的极限学习机(ABC_ELM)模型。三种优化模型的收敛情况见图4~图6。
图4 GA_ELM模型适应值迭代图
对三种优化方式的回归模型均做了500次的迭代实验,通过收敛对比图和验证实验可以得出:GA_ELM收敛较缓慢,在迭代过程中波动较明显、幅度较大,320次迭代后趋于稳定;PSO_ELM收敛速度较快,在100次迭代内波动较大,在迭代88次后处于稳定状态;ABC_ELM收敛最快,56次迭代后保持在一个较高的预测精度上,在三种方式中表现更佳。
图5 PSO_ELM模型适应值迭代图
图6 ABC_ELM模型适应值迭代图
基于人工蜂群算法后期容易陷入局部极值的不足,建立了基于差分进化人工蜂群算法的极限学习机(DEABC_ELM)和基于自适应差分进化人工蜂群算法的极限学习机(SADEABC_ELM)。进一步优化模型的收敛情况见图7~图8。
整理以上定量回归模型的评价指标,统计数据见表1。
通过迭代收敛图和评价指标表格可以看出,优化算法使极限学习机模型预测精度提高,其中ABC模型能够在较少的迭代次数、较短的运行时间内获得较高的预测精度和模型稳健性,在三种优化算法中表现突出,更能达到优化的效果。
图7 DEABC_ELM模型适应值迭代图
图8 SADEABC_ELM模型适应值迭代图
DEABC_ELM模型的预测精度提高,但其对参数的依赖性使收敛速度有所下降;SADEABC_ELM模型对参数做了自适应调整,在差分进化的基础上提高了收敛速度,其运行时间较人工蜂群算法相差不大,同时预测精度和模型稳健性显著提升。传统ELM、ABC_ELM、SADEABC_ELM模型的浓度预测情况见图9。
表1 定量回归模型评价指标
图9 a 、b、c分别为ELM、ABC_ELM、SADEABC_ELM模型浓度预测图
综合分析,SADEABC_ELM能够跳出局部极优,减少对固定值参数的依赖,较其他优化算法模型收敛速度快、预测精度高且搜索具有全局性及较强稳健性,能够更精确地预测葡萄糖溶液浓度。
4 结论
本文对41组用拉曼光谱法测量的葡萄糖样本进行研究,结合遗传算法、粒子群算法、人工蜂群算法等优化算法对极限学习机进行改进,分析模型评价指标和迭代收敛图得出,人工蜂群算法在三者中表现突出;又利用个体局部信息和群体全局信息指导的思想,结合差分进化对人工蜂群算法进一步更新择优提高预测能力,针对其对固定参数依赖性大的缺点对变异率和交叉率做了自适应调整,提出一种基于人工蜂群结合自适应的差分进化算法的极限学习机模型应用于葡萄糖浓度的定量分析。实验表明,SADEABC_ELM模型评价指标和收敛速度较优,预测精确度和模型稳健性显著提升,对极限学习机模型进行优化能够提高定量回归的精度。