基于多种变量分析方法鉴别食醋种类电子鼻信号特征筛选
2018-08-21赵玉珍于慧春
殷 勇,赵玉珍,于慧春
(河南科技大学食品与生物工程学院,洛阳 471023)
0 引 言
食醋作为人们日常生活中不可或缺的调味品,具有重要的营养与药理价值[1-2],如促进消化与吸收、抗病毒、降血糖等等。食醋的产品质量直接影响人们的健康,因此食醋的识别检测是非常重要的。目前,食醋检测主要采用感官评定[3]、微生物检测[4-5]和物理化学指数评估[6-7]等传统方法,但这些方法存在主观性强、操作繁琐、耗时等缺点。电子鼻作为一种非常有潜力的鉴别工具,在食醋鉴别分析中已有诸多研究报道[8-11]。由于食醋属于复杂样品,且对质量等级相近的多类样品进行鉴别时,鉴别难度大幅提升。同时,传感器之间的交叉响应所产生的冗余信息,对鉴别结果也极为不利。因此,采用电子鼻对食醋进行检测时,可利用特征提取与选择[12-14]优化表征特征,实现食醋样品的有效鉴别。据文献[15]报道,多特征表征模式可有效表征电子鼻信号的响应信息,提高电子鼻的鉴别能力。此外,面对所提取特征的多样性,进行电子鼻的特征优化,选取能够有效表征电子鼻响应信号的特征也是十分必要的。目前,关于电子鼻特征优化方法的研究不断涌现,如相关性分析[16-17]、聚类分析[18-19]、多重共线性分析[20]、Wilks Λ统计量[9,21]等等,但这些方法的适用性皆因不同的鉴别目标而存在应用效能上的差异。
本文在提取了 6种食醋电子鼻原始信息的多个特征值基础上,提出一种采取载荷分析进行电子鼻传感器阵列优选,并运用主成分分析(principal component analysis,PCA)融合Wilks Λ统计量进行多特征表征的选择策略。即采用载荷分析优选传感器,运用PCA消除传感器特征数据间的相关性,以更好、更准确地构造Wilks Λ统计量,并借助于生成主成分变量的线性组合系数,探索电子鼻数据的最佳表征特征变量集的构成。最后,为检验该特征选择策略的有效性,采用 Fisher判别分析(Fisher discriminant analysis,FDA)和 BP神经网络(back propagation neural network,BPNN)对特征选择前后的数据进行鉴别分析,并通过巴氏距离说明FDA和BPNN结果的可信性。
1 材料与方法
1.1 试验材料
试验材料为6种食醋,含3个品牌,每个品牌都包含质量等级相近但不同的2种样品。它们分别为建洛袋装、建洛桶装、来福瓶装、来福桶装、紫林瓶装、紫林桶装6种食醋,并且分别标记为JLDZ、JLTZ、LFPZ、LFTZ、ZLPZ、ZLTZ。各样品的基本信息见表1。为了使统计鉴别结果更可靠,每种样品准备54个平行试验样本,总计6×54=324个样本。每种样品随机抽取36个样本(占每种样本总数的2/3)构成训练集,训练集样本数共有6×36=216个,剩余的18个样本(占每种样本总数的1/3)构成测试集,测试集样本数共有6×18=108个。为了使研究结果具有稳健性与可靠性,共随机生成5组平行的训练集和对应的测试集进行比较分析。
表 1 食醋样品的基本信息Table 1 Basic information of vinegar samples
1.2 试验仪器和数据采集
试验所使用的电子鼻系统是实验室自行研制的。该系统主要由气敏传感器阵列、测量箱、数据采集装置及计算机等部分组成。气敏传感器阵列作为电子鼻系统的关键部分,主要由14个TGS型金属氧化物传感器组成,即 TGS813,TGS800,TGS821,TGS822,TGS824,TGS816,TGS812,TGS825,TGS826,TGS831,TGS832,TGS830,TGS880和 TGS842,它们所检测的典型气体详见文献[22]。在电子鼻测试过程中,各气敏传感器的加热电压为(5.0±0.05)V,回路的测量电压是(10.0±0.01)V。另外,为补偿测量环境对测量结果所造成的影响,该装置还配备有温度传感器和湿度传感器。温、湿度传感器为集成部件(奥松电子),型号为DHT11,其测量电压为(10±0.01)V,温度传感器的测量范围是 0~50℃,湿度传感器的测量范围是20%~90%RH。
电子鼻在开始工作前,首先需要进行大约30 min的预热,以期消除仪器本身不稳定所造成的影响。每个样本测试前进行空载测试,产生空载响应值(测量环境的响应值)作为传感器复原时的基准值;然后进行样本的测试;最后进行传感器复原,以便于下1个样本的测试。图1给出了传感器TGS800对1个建洛袋装样本的响应曲线图。根据图1可知,传感器在1 500 s后处于相对稳定响应状态。另外,由预试验知,传感器恢复960 s时可至基准状态。因此,电子鼻工作参数设置为:数据采集间隔时间1 s,空采时间20 s,样本采样时间1 500 s,复原时间960 s。
图1 传感器TGS800对1个建洛袋装样本的响应曲线Figure 1 Curve of sensor TGS800 response to one sample of bagged Jianluo vinegar
1.3 数据处理方法
1.3.1 数据预处理
为减少环境温、湿度以及信号噪声的影响,首先对电子鼻数据进行去基准处理[23],即每个样本采集的1 500个响应值减去其空载响应平均值,以部分补偿环境对气敏传感器的影响;然后,采用Savitzky-Golay五点二次多项式[24]对去基准处理后的数据进行平滑处理,以期消除噪声信号的影响。文中所有的数据处理工作在MATLAB R2014b软件平台实现。
1.3.2 特征提取
在实际应用中,积分值、方差、平均微分值等作为常见的特征参量[13]被应用于电子鼻信号表征领域,且均取得不错的应用效果。同时,不仅样本的响应曲线对鉴别结果有一定的影响,传感器的复原曲线也有一定的作用[25]。因此,在综合分析了电子鼻信号特征参量的基础上,本文拟采用样本响应曲线的积分值(integral value,INV)、方差(variance value,VARV)、相对稳态平均值(relation steady-state response average value,RSAV)、平均微分值(average differential value,ADV)、小波能量值(wavelet energy value,WEV)以及传感器复原曲线的平均微分值(average differential value of recuperation curve,ADVRC)6种特征作为食醋电子鼻信号的特征参量。由于 6种特征参量的量纲不同,各特征参量的提取结果均进行了数据归一化处理。
图2给出了每个传感器对1个建洛袋装样本响应信号的特征柱状图。由图 2可知,对于同一个传感器,不同的特征参量表现了不同的响应信息,揭示了气敏传感器的广谱响应特性;而同一特征参量对不同的传感器也存在一定程度的差异,体现了传感器的选择特性。因此,这6个特征参量可有效表征6种食醋的电子鼻信号。由于样品在测量过程中,温、湿度响应信息是变化的,因此选取能够反映其总体变化程度的积分值作为温、湿度响应信息的表征。对于单个特征表征时,电子鼻信号由14个气敏传感器对应的14个特征、1个温度传感器特征和1个湿度传感器特征表征。当由6个特征表征时,电子鼻信号由14×6个特征、1个温度传感器特征和1个湿度传感器特征表征。因此,初始特征矩阵为 324个样本×86个特征。
图2 各传感器对1个建洛袋装样本的6个特征的柱状图Figure 2 Bar results of six kinds of features for each gas sensor to one bagged Jianluo vinegar
1.3.3 特征表征策略
由于不同的特征对电子鼻鉴别性能有着不同的贡献度,所以进行特征参量的筛选,以选取对样本判别最为有效的特征是十分必要的。
1)载荷分析。对传感器阵列进行优化,不仅可减少冗余信息,还可减少数据量以降低计算的工作量。根据文献[12,26-27],对6种食醋共计324个样本第1 400 s时刻的电子鼻响应值进行载荷分析,分析结果如图3所示,横轴是第1主成分,纵轴是第2主成分。综合各个传感器所处的横纵坐标位置来看,所有传感器离原点都较远,表明这些传感器对样本检测都有贡献。传感器TGS822、TGS800、TGS813和TGS816的因子载荷分布较接近,表明这些传感器对食醋的检测信息比较相近,因此可以考虑去掉响应信号相似的部分传感器,以减少信息冗余。经计算分析,这 4个传感器的距原点欧氏距离依次为0.276 8、0.277 8、0.285 8和0.292 2,因此在这4个传感器中,选择剔除相对距原点较近的传感器 TGS822和TGS800。所以,经载荷分析后选择了12个传感器进行后续的数据分析。
2)相关性分析。相关性分析[20]是利用相关系数值对传感器间的相关程度进行评估。相关系数值的取值范围为[-1,1],相关系数绝对值越大,表明传感器响应信号之间的相关程度越高,也意味着对应的特征参量无关性不强。由于积分值反映了传感器对样本的总体响应[28],因此,对载荷分析优选出的12个气敏传感器之间用积分特征值进行相关分析,发现相关系数大于0.9的多达26对传感器,表明从这些传感器信号中提取的特征参量无关性不显著。在多元判别分析中,Wilks Λ统计量作为一种有效的特征变量选择方法,要求所提取的特征变量之间应该是独立的[29],故由电子鼻数据提取的特征参量不可直接用于构建Wilks Λ统计量。因此,需用数据变换方法来消除特征变量间的相关性,为选取能有效提高电子鼻鉴别能力的特征变量奠定基础。
图3 6种食醋的载荷分析图Figure 3 Loadings analysis plot for six kinds of vinegar samples
3)主成分变量选择。PCA作为一种重要的数据变换方法,它通过变换将原始数据空间投影到一个正交空间,将原始变量转换为独立的新变量[30]。因此,采用PCA处理电子鼻特征数据以消除特征变量之间的相关性,在获得主成分变量的基础上,构造Wilks Λ统计量并计算每个主成分变量的Wilks Λ值。Wilks Λ统计量[31]可以对多类样品中各变量的判别能力进行评估,因此在计算各主成分变量的Wilks Λ值后,并按照从小到大对Wilks Λ值进行排序,选出有利于分类的主成分变量。Wilks Λ值的数学表达见式(1)。
式中T为食醋电子鼻信号原始特征矩阵中每一列数值的总离差,D为原始特征矩阵中每一列数值的组内离差。
当T比较大,而D又很小时,Wilks Λ值则越小,各个类别间的差异性就越显著,越有利于鉴别。因此,适当地移除对应于较大 Wilks Λ值的主成分变量可能会进一步提高样品的鉴别效果。当移除不同数目的主成分变量时,食醋样品的鉴别结果也随之变化。图 4给出了基于不同数目的主成分变量对应的食醋样品测试集的 FDA结果。
图4 移除不同的主成分变量数对应的鉴别正确率Figure 4 Relationship between correct discrimination rates and removed principal component variables
从图4可以看出,随着移除主成分变量数目的增加,鉴别正确率先上升后急剧下降;当剔除10个主成分变量时,鉴别正确率达到最高值(86.11%),此时余下的 76个主成分变量即为鉴别能力最优的主成分变量集。
4)原始特征变量选择。在选择了鉴别能力最优的主成分变量后,利用选择的主成分变量选取原始特征变量是特征选择策略中的另一项重要内容。以主成分变量选择的76个主成分的每一个原始特征变量为对象,计算所选择的主成分变量对应于每一个原始特征变量的线性组合系数的绝对值之和,其计算公式见式(2)。
式中 P为一个原始特征变量对应生成主成分的线性组合系数的绝对值之和,t为被选择主成分的个数,Si为第i个被选择主成分对应的线性组合系数值。
当对应于某些原始特征变量的线性组合系数的绝对值之和大于某个指定值时,就形成了对应的原始特征变量集,指定值不同,原始特征变量集也随之不同,如表2所示。由于每个主成分变量是所有原始特征变量的线性组合,而对于每一个原始特征变量,线性组合系数的绝对值之和越大,说明该原始特征变量对生成的主成分变量贡献率越大,也越有利于食醋样品的鉴别。研究发现,线性系数绝对值之和较大的原始特征变量是少数的。但是,特征变量数目较少时,其所能表征的信息也较少,使鉴别性能下降。因此,寻找合适的原始特征变量集,以使鉴别性能达到最佳。
表2 线性组合系数的绝对值之和与原始特征变量数目的对应关系Table 2 Relationship between sum of absolute value of linear combination coefficients and number of original feature variables
图5给出了不同数量的原始特征变量集对应的测试集鉴别正确率。由图5可知,随着原始特征变量数目的变化,鉴别结果也发生了明显变化;当原始特征变量数目为48(对应的线性组合系数的绝对值之和大于5.4)时,鉴别正确率最高(92.59%)。因此选择48 个原始特征变量来表征食醋电子鼻信号。基于最佳变量集的不同传感器信号的特征表征结果如表3所示。根据表3可知,特征选择后每个传感器的表征特征发生了很大的变化,只有传感器TGS821和TGS830用6 个特征参量来表征样品,且仅有小波能量值这一特征适用于12 个气敏传感器。这说明在食醋鉴别时,特征参量的选择是非常重要的,选择合适的特征表征参量将有利于提高电子鼻的鉴别性能。
图5 不同数量的原始特征变量集对应的鉴别正确率Figure 5 Relationship between correct discrimination rate and number of original feature variables
表3 特征选择后各传感器的表征参量Table 3 Feature parameters of each sensor after feature selection strategy
2 结果与分析
为了验证特征选择策略的有效性和选择的特征表征参量的合理性,分别采用FDA、BPNN以及巴氏距离对6种食醋样品进行分析。另外,为了更好地说明研究结果的可靠性和鲁棒性,用随机生成的 5组训练集及其对应的测试集进行比较分析。
2.1 基于FDA鉴别分析
采用选择的48个原始特征参量来表征食醋样品的电子鼻信号,并进行FDA鉴别分析,发现5组训练集的FDA鉴别正确率均达93%以上,5组测试集的FDA鉴别正确率也在 90%以上。以第一组样本训练集及对应的测试集为例,FDA鉴别结果如图6所示。从图6可以看出,6种食醋样品基本上可以鉴别开来,充分表明所提出的特征选择策略是可行的。
2.2 基于BPNN鉴别分析
为了进一步验证特征选择策略的有效性和可行性,采用BPNN对6种食醋样品进行鉴别分析。其BPNN的各参数为:迭代次数1 000,训练目标0.000 01,学习效率0.01。当训练函数为trainscg函数,隐层神经元函数为logsig函数,输出层神经元函数为tansig函数,隐层神经元的个数为23时,训练结果较好。表4给出了BPNN的鉴别结果。从表 4中可以看出,食醋样品的训练集鉴别正确率均在98%以上,测试集鉴别正确率可达93%以上,这充分说明特征选择策略对食醋样品的鉴别是非常有效和可靠的。
图6 基于特征选择策略的FDA结果Figure 6 FDA results based on feature selection strategy
表4 BPNN的鉴别结果Table 4 Discrimination results of BPNN
2.3 巴氏距离分析
巴氏距离[32]作为类别可分性的量度指标,在 2类模式中,巴氏距离的数学表达见式(3)。
式中,Bij为类别i与类别 j之间的巴氏距离值,u、σ分别为均值和标准差。
在2类模式中,巴氏距离值越大,类别可分性越好。各食醋样品间的巴氏距离值如图7所示,其中,数字1~6分别表示JLDZ、JLTZ、LFPZ、LFTZ、ZLPZ和ZLTZ样品,如B12表示JLDZ和JLTZ之间的巴氏距离值。从图7可以看出,JLTZ和LFPZ,JLTZ和LFTZ,LFPZ和LFTZ,LFTZ和ZLTZ,ZLPZ和ZLTZ之间的巴氏距离值小于其他类别间,说明这些类别间的食醋样品较难区分;此外,以第一组样本测试集为例,FDA和BPNN样本测试集的类别错分情况如表5所示,可以看出,类别错分情况与巴氏距离分析结果相一致。上述判断解释了FDA和BPNN的鉴别正确率未达到100%的原因;同时也间接说明了特征选择策略的合理性。
图7 各食醋样品之间的巴氏距离值Figure 7 Value of B-distance between vinegar samples type combination
表5 样本测试集的类别错分情况Table 5 Misclassification results of test set for vinegar samples
3 结 论
针对6种食醋样品的电子鼻检测,在提取6种特征参量构成原始特征矩阵的基础上,运用载荷分析、主成分分析以及 Wilks Λ统计量提出了一种多特征变量的选择策略。运用这一策略,最终选取了48个特征参量组成的特征矩阵来表征食醋电子鼻信号。同时,借助于 FDA和BPNN鉴别方法,对5组平行的训练集和对应的测试集进行鉴别分析,2种方法测试集的鉴别正确率可分别达到 90%和 93%以上。另外,采用巴氏距离进一步阐述 6种食醋样品的可分离性,更好地解析了FDA和BPNN鉴别结果的可信性。研究结果充分证明了所提出的特征选择策略是有效的,并且我们认为该特征选择策略对其他复杂样品的电子鼻鉴别分析也具有参考价值。