APP下载

基于卟啉传感器阵列系统的肺癌标志物识别算法*

2017-04-12罗小刚张承丹侯长军霍丹群雷靳灿

传感器与微系统 2017年4期
关键词:敏感点标志性差值

罗小刚, 张承丹, 侯长军, 霍丹群, 杨 眉, 雷靳灿

(重庆大学 生物工程学院,重庆 400030)

计算与测试

基于卟啉传感器阵列系统的肺癌标志物识别算法*

罗小刚, 张承丹, 侯长军, 霍丹群, 杨 眉, 雷靳灿

(重庆大学 生物工程学院,重庆 400030)

卟啉传感器阵列系统可以检测肺癌呼出气体中特定的标志性气体,不同标志性气体检测输出的差值图谱不一样。介绍了一种结合反向传播(BP)神经网络和主成分分析(PCA)的肺癌标志性气体种类识别算法,并将其应用在卟啉传感器阵列系统中。通过计算卟啉传感器阵列中各点的主成分得分选出敏感点,保留各气体敏感点的值,并组成识别模板作为BP神经网络的输入层,达到去除冗余数据的目的。通过实验对比聚类分析结果、未降维数据的BP神经网络识别结果及已经PCA降维后的数据作为输入的BP神经网络识别结果,证明提出的算法可以更加精确地识别不同的肺癌标志性气体。

卟啉传感器阵列; 肺癌呼出标志物; 气体识别; 神经网络; 主成分得分

0 引 言

随着空气环境的不断恶化,沙尘暴、雾霾天气出现增多,肺癌已经成为一种常见的癌症疾病[1]。肺癌在早期阶段被确诊并积极进行切除治疗可以提高患者的生存机率,而目前临床上缺乏无创、低成本、快速的肺癌检测设备[2]。由卟啉及其衍生物等气敏材料构建的阵列传感器可以实现气体可视化检测,这种检测技术在通过呼吸气体筛查早期肺癌的研究中得到了成功的应用[3]。

气体传感器阵列系统中的识别算法有:聚类分析、判别分析、主元分析(PCA)、人工神经网络等。其中,聚类分析[4,5]是卟啉传感阵列系统中常用气体种类识别算法。由于肺癌标志性气体与卟啉传感器阵列之间的交叉性响应,输出的差值图谱数据维数较高,简单的数据分类方法并不能很好地识别不同肺癌标志性气体。需要设计一种较为精确、智能的标志性气体种类识别算法,以保证卟啉传感阵列系统对肺癌标志性气体具有较高的识别率。

本文提出了一种结合PCA与BP神经网络的肺癌标志性气体种类识别算法。BP神经网络的分类精度高,对噪声数据不敏感,但是过量冗余数据易造成神经网络训练过度,需要对其输入数据进行去冗处理。本文通过分别计算3种肺癌标志性气体多次平行实验中所有卟啉点的PCA得分并排序,挑选出得分为正的点作为敏感点,只保留敏感点的特征值作为BP神经网络的输入,而非敏感点的值作为冗余数据舍去。这样不仅减轻了网络的训练负担,而且提高了识别的精度。

1 算法原理

PCA设法将原来众多具有一定相关性的指标重新组合成一组新的互相无关的综合指标,不仅在尽可能保留原有信息的基础上代替原来的指标,且具有最大的方差[6]。PCA的数学模型

(1)

简写为

Fi=a1iZX1+…+apiZXp,i=1,2,…,p

(2)

对于原始变量的单个元素来说,每个主成分得分由式(2)计算得到,反映了它的所有指标与这个主成分的相关程度,得分越高则越相关。分值为正表示高于平均水平,分值为负表示低于平均水平。在所有主成分中,由于第一主成分保留的综合信息最多,因此其得分最能体现单个元素在所有指标中的贡献。

差值图谱的差值向量是进行肺癌标志性气体种类识别的数据根据。从理论上说,只有敏感点的RGB差值是决定标志性气体种类的关键。只保留敏感点的RGB差值,差值向量的维度将会大幅度下降。在实验样本的平行样本中差值图谱敏感点出现差异,很难直接通过观察差值图谱确定所有敏感点的位置。本文利用PCA方法,将每种气体的特征向量数据混合起来,以每个卟啉点在所有样本中的RGB差值作为指标进行主成分提取,并计算第一主成分得分。以得分的高低来衡量每个卟啉点在每个样本中的贡献。由于敏感点的RGB值变化比其他点大,其主成分综合得分往往较大。

PCA的步骤如下:1)计算协方差矩阵;2)求解协方差矩阵的方程,得到p个特征根;3)计算方差贡献率,得到第一主成分;4)根据式(2)计算第一主成分得分;5)将得分按降序排列,选择得分高的卟啉点作为敏感点。

2 实 验

2.1 实验装置

卟啉传感阵列系统的核心是6×6的传感器阵列,该传感阵列由实验筛选出的36种金属卟啉或卟啉衍生物等气敏材料构成,金属卟啉与不同肺癌标志性气体接触时会产生不一样的颜色变化[7],而与同一种肺癌标志性气体的产生的颜色变化相同。卟啉传感阵列系统流程框图如图1所示。

图1 气体检测系统框图

系统上电后,肺癌标志性气体在气泵的作用下传送到反应气室内,气体在反应气室中与卟啉传感阵列接触反应,打开LED灯,图像传感器采集反应前后阵列图像,同时温湿度传感器检测反应条件。图像传感器将采集的图像上传到PC中的上位机软件中,经过图像处理后得到卟啉阵列单元与气体接触前后的颜色变化信息,生成差值图谱。

一幅差值图谱表示传感阵列中各个卟啉单元与气体反应后的颜色变化信息,即36个阵列点的RGB分量的差值。

ΔRGB=ΔR1,ΔG1,ΔB1,…,ΔRi,ΔGi,ΔBi,…,ΔR36,

ΔG36,ΔB36

(3)

式中 ΔRGB为差值图谱的数据向量,ΔRi,ΔGi,ΔBi分别为第i个卟啉点的红色、绿色、蓝色分量变化差值,i=1,2,…,36。

2.2 实验气体

本文通过卟啉传感阵列系统对3种呼出气体中肺癌标志性气体[8.9]进行检测,3种气体分别为苯乙烯、乙二胺和对二甲苯,每种气体进行4次实验。图2中 (a)~(d)为苯乙烯平行实验的差值图谱,(c)~(h)为乙二胺平行实验的差值图谱,(i)~(m)为对二甲苯平行实验的差值图谱。

图2 3种肺癌标志性气体差值图谱

3 识别结果与讨论

3.1 聚类分析

本次实验中,选择3组肺癌标志性气体共12个样本差值图谱数据作为聚类分析的数据源,差值图谱中的原始数据是每个卟啉单元的颜色变化值,由ΔR,ΔG,ΔB三个分量表示。本文利用式(4)计算得到每个阵列点的三个颜色分量的欧氏距离d,综合阵列单元的颜色变化信息

(4)

差值图谱原始数据经过式(4)数据预处理后,组成一个12×36的向量,作为欧氏距离聚类的输入。为了方便区分,对3种标志性气体的每个样本进行编号,分别以气体英文名称的简写和样本序号的格式命名,比如苯乙烯的第一个样本命名为Sty1,乙二胺的第一个样本命名为Eth1,对二甲苯的第一个样本命名为Par1。本文利用SPSSInc18.0软件的系统聚类功能对12个样本数据进行欧氏距离聚类。

图3 聚类分析结果

由聚类的结果可以看出:乙二胺的第一个样本(Eth1)与苯乙烯归为一类,对二甲苯的第二个样本(Par2)与乙二胺归为一类,只有苯乙烯的4个平行样本正确归为一类。聚类分析以样本差值图谱中各个颜色变量的距离进行分类,对肺癌标志性气体的区分效果不是很理想。

3.2 BP神经网络训练与识别

BP神经网络具有强大的自组织、自适应和分类计算功能,采用BP神经网络对肺癌标志性气体进行识别,首先需要设定网络结构、隐含层节点数的选择、激励函数的选取、权值的优化、网络误差等。本文设计BP神经网络的输入节点数为36(即差值图谱经过预处理后的向量值),输出节点数为1(即每种气体的分类号)。根据文献[10]中所提的隐含层数经验公式,选择隐含层数为8。训练网络结构如图4。

图4 BP训练网络结构

本文选择3种肺癌标志性气体的8个差值图谱样本,组成一个24×36的向量作为训练样本。输出为每种气体的分类号,苯乙烯为1,乙二胺为2,对二甲苯为3。以Matlab 2010为算法实现平台,对设计的网络进行训练识别。本次训练的学习率为0.01,训练误差为0.000 04。在经过6次迭代后BP神经网络达到训练误差如图5。

图5 BP训练网络训练性能曲线

采用设计训练好的神经网络对图2中所示的3种气体的12个样本进行识别,识别结果如图6所示。

图6 BP网络输出结果

BP的识别结果可以看出,BP神经网络能区分12个肺癌标志性气体样本的种类,但是苯乙烯的第二个样本的识别差异最大。对比聚类分析的结果,BP神经网络识别优于聚类分析对肺癌标志性气体的识别。

3.3 PCA计算主成分得分

本文根据前述的PCA步骤和式(2)计算得到每个卟啉点的第一主成分得分。首先对卟啉点进行编号,编号序列按照卟啉传感器阵列排列,自左向右,自下向上分别为1~36号。苯乙烯乙二胺和对二甲苯根据同样的步骤进行处理。3种气体的各卟啉点得分如图7所示。

图7 3种气体的各卟啉点得分

卟啉点的得分越高,表示其对综合信息(即在每个样本中的颜色变化)的贡献越大。

同样选择前述24个样本作为BP网络的训练向量,24个气体样本只保留表1所示相应气体的敏感点编号的RGB差值,以苯乙烯为例,BP网络的训练向量的维度从24×36降为24×8。12个识别样本的数据也按照气体PCA降维后敏感点的RGB差值作为识别向量。识别结果图8。

本文将PCA降维前后BP神经网络的识别结果与期望输出的差值称为识别误差,它可以体现识别效果的好坏。输出误差越小,表示识别的准确度越高,对肺癌标志性气体种类的误识别可能性就会相应减小。由表2可知,输入数据未降维时BP网络输出的识别误差平均值为0.073 99,最大误差为0.165 0;降维后的BP网络输出的识别误差是0.025 5,最大误差为0.061 9。可见,利用PCA得分结合BP神经网络的气体种类识别算法筛除了冗余数据,提高了识别精度。

表1 3种气体的敏感点模板

图8 PCA数据降维后BP网络输出结果

表2 数据降维前后的BP网络识别输出与预期输出对比

4 结 论

通过对本文的实验结果进行分析, BP神经网络对肺癌标志性气体的识别效果优于聚类分析,BP神经网络具有更高的准确性。通过计算PCA得分选出敏感点,只保留敏感点的RGB差值作为输入,筛除了冗余数据,降低了BP神经网络的计算量,从而降低了BP神经网络的识别误差,提高了识别精度。对于卟啉传感阵列系统对标志性气体的检测结果,本文提出的算法,可以很好地区分不同肺癌标志性气体的种类。

[1] Dales R,Liu L,Wheeler A J,et al.Quality of indoor resi-dential air and health[J].Canadian Medical Association Journal,2008,179(2):147-52.

[2] 韩 瑶,王茂筠,梁宗安.呼出气挥发性有机物检测在肺癌诊断与治疗中的研究与应用[J].中国呼吸与危重监护杂志,2015(2):222-224.

[3] Suslick B A,Feng L,Suslick K S.Discrimination of complex mixtures by a colorimetric sensor array:Coffee aromas[J].Analytical Chemistry,2010,82(5):2067-2073.

[4] Liang F,Christopher J M,Jonathan W K,et al.Colorimetric sensor array for determination and identification of toxic industrial chemicals[J].Anal Chem,2010,82(22):9433-9440.

[5] Sung H L,Liang F,Jonathan W K,et al.An optoelectronic nose for detection of toxic gases[J].Nat Chem,2009,13(1):562-567.

[6] Shirsat M D,Sarkar T,Kakoullis J,et al.Porphyrin functiona-lized single-walled carbon nanotube chemiresistive sensor arrays for VOCs[J].Journal of Physical Chemistry:C,2012,116(5):3845-3850.

[7] Herve Abdi,Lynne J Williams.Principal component analysis[J].Wiley Interdisciplinary Reviews:Computational Statistics,2010,4(2):433-459.

[8] Phillips M,Gleeson K,Hughes J M B,et al.Volatile organic compounds in breath as markers of lung cancer:A cross sectional study[J].Lancet,1999,353(9168):1930-1933.

[9] Michael P,Nasser A,Austin J H M,et al.Prediction of lung can-cer using volatile biomarkers in breath[J].Cancer Biomarkers,2007,3(2):95-109.

[10] 沈花玉,王兆霞,高成耀,等.BP神经网络隐含层单元数的确定[J].天津理工大学学报,2008,24(5):13-15.

Recognition algorithm for lung cancer markers based on porphyrin sensor array system*

LUO Xiao-gang, ZHANG Cheng-dan, HOU Chang-jun, HUO Dan-qun, YANG Mei, LEI Jin-can

(School of Bioengineering,Chongqing University,Chongqing 400030,China)

Porphyrin sensor array system can detect lung cancer specific markers in exhaled gases,output vary from marker to marker.A pattern recognition algorithm based on backpropagation(BP)neural network and principal component analysis(PCA)is proposed and is applied in porphrin chemical sensor array integrated system.The sensitive points is selected by calculating principal component scores in porphyrin sensor array,and reserve value of each gas sensitive points,and template of recognition is formed as the input layer of the BP neural network to achieve the goal of removing redundant data.Comparing with the result of clustering analysis and BP neural network identification without reducing dimension and data after reducing dimension as input,the result of the proposed algorithm can identify precisely for lung cancer specific markers.

porphyrin sensor array; exhaled lung cancer markers; gas recognition; neural network; principal component scores

10.13873/J.1000—9787(2017)04—0134—04

2016—04—21

国家科技支撑计划资助项目(2012BAI19B03);国家自然科学基金资助项目(81271930,81171414);中国博士后科学基金面上资助项目(2015M582522);重庆市博士后科研项目特别资助项目(Xm2015051);重庆大学大型仪器设备开放基金资助项目

TP 212

B

1000—9787(2017)04—0134—04

罗小刚(1974-),男,副教授,硕士生导师,主要从事生物医学传感器、生物医学仪器方面的研究工作。

猜你喜欢

敏感点标志性差值
差值法巧求刚体转动惯量
“熊出没,注意”的由来
NURBS插补中相邻敏感点区域速度轨迹规划研究
屠呦呦入围“20世纪最具标志性人物”
-等度连续点及-敏感点
枳壳及其炮制品色差值与化学成分的相关性
伊朗遭“标志性攻击”震动中东
奥运举办城市及其标志性建筑
一种基于加速不平衡功率快速估算的切机敏感点搜寻方法研究
地铁冷却塔消声处理项目在实施过程中的若干问题研究