APP下载

基于KPCA与MRVM的二元混合气体成分识别算法研究∗

2019-03-26陈寅生罗中明许永辉

传感技术学报 2019年2期
关键词:混合气体电子鼻特征向量

陈寅生,罗中明,孙 崐,许永辉,王 祁

(1.哈尔滨理工大学测控技术与仪器黑龙江省高校重点实验室,哈尔滨150001;2.哈尔滨工业大学电气工程与自动化学院,哈尔滨150001)

电子鼻E-Nose(Electronic Nose)是一种由一组具有广谱响应特性的气体传感器阵列和恰当的模式识别方法组成的气体检测设备[1]。目前,电子鼻在气味分析、食品工业质量控制、环境保护、公共安全以及航天应用等领域起到了越来越重要的作用[2-6]。电子鼻系统的基本原理框图如图1所示。可见,模式识别方法是电子鼻系统的核心部分,其性能直接影响系统的检测与分析结果的准确性与可靠性。

金属氧化物半导体MOS(Metal-Oxide Semiconductor)传感器通过敏感材料表面与气体的氧化-还原反应所引起的传感器内阻的变化,实现对目标气体的检测。MOS气体传感器阵列成为了电子鼻系统中使用最为普遍的气味信息获取装置[7]。由于MOS气敏材料存在交叉敏感特性,并不存在仅对单一目标气体敏感的MOS气体传感器。因此,电子鼻系统需要选择适当的模式识别方法实现对混合气体中组成成分的准确识别[8],为后续的浓度分析提供必要的信息。

图1 电子鼻系统的基本原理框图

电子鼻系统中的模式识别方法包括对气味信息的特征提取和气体成分识别两个主要步骤。目前,应用于电子鼻系统的特征提取方法主要是基于线性方法[9],如主成分分析法[10](PCA)和独立成分分析法[11](ICA)。但是,由于MOS气体传感器阵列对混合气体的响应信号呈非线性,基于PCA和ICA的线性特征提取方法在一定程度上不能有效提取信号中的非线性特征,导致气体识别准确率相对较低。在气体识别方面,一般采用人工神经网络(ANN)、支持向量机(SVM)等机器学习方法实现气味识别。但是,ANN的结构较为复杂,隐含层的选取对识别结果的影响较大;另外,在小样本应用条件下,其气味识别精度无法保证。尽管SVM能够解决小样本问题,但是其核函数的选取及参数的优化情况都将直接影响气味的识别结果。因此,电子鼻系统中的模式识别方法对系统的整体性能有十分重要的影响。

鉴于此,本文提出一种基于核主成分分析(KPCA)与多分类相关向量机(MRVM)的二元混合气体组成成分识别算法。该方法利用KPCA的非线性特征提取能力,对MOS传感器阵列的多维响应信号进行特征提取,组成训练样本集,再利用训练样本集对M-RVM分类器进行训练,实现对二元混合气体的组成成分的高准确率识别。

1 核主成分分析

KPCA是利用核技巧将主成分分析法(PCA)推广到非线性情况下的应用,其基本思想是首先定义非线性转换Φ(·),将样本从输入空间映射到高维空间F,然后在此高维空间内执行PCA。

假设 X=[x1,x2,…,xN]∈ℝM×N为原始观测样本,其中,N为变量个数,M为观测样本的个数。xi∈ℝM表示第i个M维观测样本。X映射到特征空间F中的协方差矩阵表示为

协方差矩阵C的特征值分解由下式给出,

式中:λ与v分别表示协方差矩阵C的特征值和特征向量,<·,·>表示点乘运算。 存在系数 αi(i=1,2,…,N)对特征向量v进行线性表示。

将式(3)代入式(2),并在等式两端分别乘以Φ(xk),可以获得以下等式:

N×N的核矩阵K定义为

结合式(3)~式(5),特征值求解问题将进一步转换为

式中:Nλ 为 K 的特征值,系数向量 α=(α1,α2,…,αN)T为特征向量。在特征空间F执行PCA等价于对式(6)进行特征值求解问题,获得特征向量α1,α2,…,αN对应特征值 λ1≥λ2≥…≥λN。

通过累计贡献率rCCR可以确定p个特征值对应的特征向量,

新观测量x的第k个特征可以通过将Φ(x)映射到vk上,

2 多分类相关向量机

多分类相关向量机[12]MRVM(Multiclass Relevance Vector Machines)由牛津大学的I.Psorakis等人在相关向量机(RVM)的基础上提出的,通过引入辅助变量Y,将RVM扩展到多分类情况下。MRVM的基本原理如下所述:

假设训练集为{xi,ti}Ni=1,其中 x∈RD,D 表示特征的维数,t∈{1,2,…,C}表示训练样本的标签。观测值还可以表示为观测矩阵X∈RN×D。根据观测矩阵,可以基于数据集依赖核函数推导出训练核K∈RN×N。核K的每一行kn表示在选择的核函数下观测值n与训练集中的其他观测值的关联性。

MRVM的回归目标Y∈RC×N为辅助变量,服从标准化噪音模型,

以上的回归目标转换为类标签通过引入多项概率连接。

类成员的概率输出可以通过多项概率似然函数,

式中:u~N(0,1),Φ表示高斯累加分布函数。

为了保证模型的稀疏性,W中的回归量wnc服从标准正态分布,均值为零,方差为a-nc1,其中 anc属于尺度矩阵A∈RN×C并服从超参数为τ,υ的Gamma分布。 对于足够小的τ,υ(<10-5),尺度矩阵A因为小方差,限制W在零均值附近。因此,回归量wnc的小部分子集为非零,随后产生了稀疏解。

图2 MRVM模型原理框图

MRVM的训练过程通过标准期望最大化不断更新模型参数。根据图2,回归系数W可以通过下式进行推导,

式中:Ac为由A的c列组成的对角矩阵,表示样本之间的尺度αic。鉴于此,回归量的最大后验估计为=argmaxP(W|Y,A,K)。 因此,给定一个类,参数W可以通过下式进行更新,

根据上式及文献[14],辅助变量的后验分布为C×N维圆锥形地截断高斯函数。因此,对于给定的任意类 i,估计步骤∀c≠i,

对于第i类,

最后,权值向量的先验参数的后验概率分布为,P(A|w)∝P(w|A)P(A|τ,υ)∝

3 二元混合气体成分识别算法

如图3所示,为二元混合气体成分识别算法框图,主要流程分为训练过程与测试过程。训练过程中,需要气体样本集对气体识别模型进行训练,气体样本集由两种单一气体和混合气体组成;利用核主成分分析(KPCA)对各样本进行特征提取,获取特征向量集;利用特征向量集对多分类相关向量机(MRVM)进行训练,获取权值参数。测试过程中,对测试气体样本进行特征提取,获取特征向量;利用训练完成的MRVM对气体成分进行识别,得到识别结果。

图3 二元混合气体成分识别算法框图

4 实验结果

4.1 实验系统

如图4所示为本文设计的实验系统框图,实验系统由PC机,PXI机箱,直流电源,MOS气体传感器阵列,电扇,注射器及待测气体样本组成。为了严格控制温湿度变化对传感器阵列的影响,实验过程中将气室放置于恒温恒湿箱中,对温度与湿度进行控制。

图4 实验系统框图

为了获取更多的被测气体信息,本文采用MOS气体传感器阵列作为信息获取装置。表1所示为本文采用的MOS气体传感器阵列中气体传感器的选型和数量。系统中采用HITP105数据采集卡对MOS气体传感器阵列的输出进行AD转换。待测气体样本通过注射器按照相应的浓度注入气室,再通过电扇将气室中的待测气体分布均匀,系统将保存此时的数据作为气体样本。

表1 MOS气体传感器阵列选型

本文实验采用一氧化碳(CO)气体和甲烷(CH4)气体的单一气体及二元混合气体作为待测气体样本,样本组成如表2和表3所示。

表2 单一气体样本浓度选择

表3 混合气体样本浓度选择

4.2 特征提取实验

经过KPCA提取的MOS气体传感器阵列多维信号的特征向量的维数将直接影响后续气体成分识别的准确率。KPCA提取特征向量的维数与高斯核参数δ2的选取有关。表4为KPCA高斯核参数δ2的选取与特征维数的关系。

表4 KPCA高斯核参数δ2与特征维数的关系

4.3 气体成分识别实验

为了说明提出的基于KPCA与MRVM的二元混合气体识别算法的有效性,本文利用4.1小节中的实验系统采集的气体样本集,分别利用gauss核与poly核进行气体成分识别实验,实验结果如表5和表6所示,P1,P2,P3分别表示单一CO气体,单一CH4气体,CO与CH4混合气体的估计概率。可见,本文提出的二元混合气体识别算法能够有效地对气体的成分进行有效识别。

为了说明本文提出的基于KPCA与MRVM的二元混合气体成分识别算法的识别效果,表7对不同模式识别方法的识别准确率进行比较。可见,本文提出的二元混合气体识别算法具有较高的混合气体识别准确率,达到99.83%。

表5 gauss核,ξ=0.3条件下二元混合气体成分识别结果

表6 poly核,d=2条件下二元混合气体成分识别结果

表7 不同识别方法识别率比较

5 结论

本文提出一种基于KPCA与MRVM相结合的二元混合气体成分识别算法。该方法利用KPCA提取MOS气体传感器阵列获取的气体信息特征,再利用MRVM分类器进行成分识别,具有较高的识别准确率。该算法的研究对电子鼻系统后续浓度估计问题的解决具有重要的支持作用。本文提出的算法在实验室条件下进行实验分析,还未充分考虑在实际应用过程中的外界干扰问题,这将是后续的研究方向。

猜你喜欢

混合气体电子鼻特征向量
二年制职教本科线性代数课程的几何化教学设计——以特征值和特征向量为例
克罗内克积的特征向量
基于电子鼻的肺癌无创检测研究
电子鼻咽喉镜在腔镜甲状腺手术前的应用
一类特殊矩阵特征向量的求法
NO、O2及NO2混合气体考点归纳
EXCEL表格计算判断矩阵近似特征向量在AHP法检验上的应用
中考化学习题解析
飞到火星去“闻味儿”——神奇的电子鼻
混合气体在聚合物注射成型保压阶段中扩散的分子动力学模拟