基于模板匹配的肺癌呼出气体标志物识别研究*
2019-02-26罗小刚张承丹侯长军霍丹群
易 鑫,罗小刚,张承丹,侯长军,霍丹群
(1.重庆医科大学附属第一医院肿瘤科,重庆 400016;2.重庆大学生物工程学院,重庆 400044)
当前常见的恶性肿瘤中,肺癌的发病率以及致死率位居首位。据WHO报道,近十年来每年有约有130万人死于肺癌,且该数字还在持续增加[1-2]。由于早期症状不明显,大部分确诊的肺癌患者往往已经处于中晚期,五年的生存率仅有15%。Tota等人在研究中认为如果肺癌患者在疾病早期能够实现确诊,其5年的生存率可以提高至50%以上[3]。因此,对于受工作环境、生活习惯等所影响的肺癌高危人群来说,肺癌的早期筛查起着至关重要的作用。当前肺癌的检查方法主要包括:影像学检查(如CT、MRI以及PET等),还有纤维支气管、纵膈镜检及皮肺穿刺活检等等。这些检查方法或者价格昂贵,或者检查过程繁琐,可能还存在一定的侵入性损伤,不太适合用于大规模的肺癌早期筛查。1971年,Pauling L对不同分期肺癌患者的呼出气体研究中,发现肺癌患者与健康人群的呼出气体成分之间存在着显著性差异[4]。研究表明肺癌患者呼出气体中 VOCs(如乙醛、丙酮、芳香类化合物、碳氢类化合物等挥发性有机气体)与病情密切相关,这些挥发性有机气体与细胞组织的代谢状况密切相关,可以作于生物标志物用于肺癌的早期筛查。根据该特点,许多研究团队结合电子鼻技术[5-6]、气质联用技术[7]等投入到人体呼出气体VOCs检测研究中。Suslick等人在2000年时设计了一种由卟啉及卟啉衍生物组成的比色化学传感器阵列[8]。鉴于卟啉传感器阵列在VOCs气体检测中所展示来的响应速度快、高选择性、高特异性[9]等特点,同时依托该阵列的气体检测技术存在着造价低廉,无侵入性等特点,对于肺癌早期筛查具有巨大的应用价值。
图1 实验检测装置示意图
肺癌呼出气体标志物检测中,选择合适的模式识别方法尤为重要。当前呼出气体检测研究中,主流的模式识别方法包括聚类分析、主成分分析(PCA)、人工神经网络等等[10-11],如:Feng等人在使用聚类分析实现不同工业毒气的分类[12],Suslick等人在基于聚类分析完成了不同气味咖啡的分类[13],王海东等人采用聚类分析实现了乙肝病人和正常人群的正确区分[14],Hou[15]、Lei[16]以及Zhao[17]等人相继在研究中利用聚类分析完成不同肺癌标志物定性分类,同时还通过PCA以及神经网络实现了特定浓度肺癌标志物的定量分析等等。由此可见,聚类分析方法简单、结果便捷,在呼出气体检测研究中应用最为广泛,但是其在卟啉传感阵列特征图谱识别仅仅考虑传感器单元的颜色差值,对于低浓度或者化学结构相似的气体样本容易产生错误的识别[10-11,18]。神经网络结合PCA对高维数据进行降维处理,降低了神经网络的复杂程度,提高了算法的运算速度[6,16]。这种联用模式识别方法在呼出气体检测中也越来越受青睐,但是它在特征图谱识别中忽略了传感器单元的响应数目和位置信息,并且神经网络对于训练样本的数据量也有非常高的要求[17]。针对当前所存在的问题,提出了一种综合考虑传感器单元的颜色差值、响应数目以及位置等信息的加权模板匹配识别方法。通过对苯、苯乙烯、丙酮等6种肺癌标志物气体的特征图谱数据进行识别测试,结果表明该模板匹配方法具有较高的识别率和较低的检测限。研究还采集了20例肺癌患者和16例健康志愿者的呼出气体样本进行识别测试,结果显示肺癌患者和健康志愿者的特征图谱存在明显差异,且该模板匹配方法能够实现肺癌患者和健康志愿者的正确区分。
1 材料与方法
1.1 实验原理及装置
以卟啉传感器阵列为核心的实验装置如图1所示,卟啉传感器阵列由36个具有非特性化学传感器单元组成,尺寸约为25 mm×25 mm。基于卟啉及卟啉衍生物、氧化还原剂等化学试剂优秀的分子识别能力,传感器阵列与目标分析物发生分子间相互作用时,会引起吸收光谱发生改变,并呈现出具有特异性的颜色特征图谱[11]。气体检测时,配气室根据需要所配置的一定浓度的目标气体在气泵的引导下进入反应气室,并与卟啉传感器阵列发生循环反应,此时上位机控制软件则控制摄像头抓取不同时间点阵列反应前后的图像并获取颜色差值特征图谱完成数据分析。每次气体分析前后,都需要使用氮气清扫反应室和气体管路,并将所有的废气存储到废气罐中。
1.2 实验对象
根据Phillips 等人[19-20]的研究结果,筛选出6种肺癌呼出气体标志物(苯、苯乙烯、异戊二烯、正丁醇、庚醛、丙酮)。为了模拟实际肺癌患者呼出气体的浓度范围,通过专用的配气仪利用99%的氮气(重庆晋升公司生产)将所有气体样本分别稀释得到50×10-9、150×10-9、250×10-9、350×10-9等4 个浓度水平,并使用气相色谱仪对各浓度气体样本进行了定标。实验还采集了36例人体实际呼出气体样本,其中20例气体样本来自重庆市肿瘤医院的确诊为肺癌,但没有合并其他慢性疾病(如糖尿病、慢性肾功能不全和上呼吸道感染等)患者的呼出气体样本,另外16例气体样本来自无任何吸烟史的健康志愿者。
1.3 特征图谱提取
所有气体样本检测实验中,反应时间设置为6 min,同时在反应中分15个不同时刻抓取比色传感器阵列的反应图像(时间点分别为0.25 min、0.50 min、0.75 min、1.00 min、1.25 min、1.50 min、2.00 min、2.50 min、3.00 min、3.50 min、4.00 min、4.50 min、5.00 min、5.50 min、6.00 min等)。待目标气体反应结束后,根据式(1)即可分别获取将对应时间点阵列中某传感器单元反应前后的颜色差值信息。
(1)
式中:R0、G0、B0分别为传感器单元的初始颜色信息值,Rt、Gt、Bt为对应时间点的传感器单元信息值。
由于3通道的RGB信息无法通过数值直观展示传感器单元的颜色变化,因此可以通过式(2)综合表示传感器单元的颜色变化,同时传感器阵列的颜色变化也由1×108转换成了1×36的特征向量数据。
(2)
以苯为例,综合所有时间点的颜色差值信息即可获得如图2(a)所示的每个传感器单元随时间的颜色响应曲线。通过剔除颜色无响应或者波动异常的传感器单元,最终可获得图2(b)的特征图谱。
图2 传感器单元时间响应曲线和特征提取图谱
1.4 加权模板匹配识别方法
由于卟啉传感器阵列整体差别式交叉响应方式,针对不同的VOCs气体,其会形成不同的颜色特征图谱。不同气体所形成的特征图谱中,除了传感器单元的颜色响应差值各异之外,响应数目以及响应位置也呈现明显差异。通过如图2所示,通过数据预处理获得苯的模板特征图谱,而模板匹配识别方法即通过计算目标分析物的特征图谱与模板特征图谱之间的匹配程度来实现不同气体的分类。加权模板匹配则是根据模板特征图谱的响应情况赋予不同位置传感器单元不同的权值进行匹配程度计算,其计算公式如下:
(3)
式中:M(i,j)为待识别气体所获取特征图谱中坐标为(i,j)传感器单元的颜色响应值,N(i,j)则为模板特征图谱对应位置的颜色响应值。根据特征图谱中传感器单元的响应特性可以分为敏感单元和非敏感单元。Ws为敏感单元的权重值,Wn为非敏感单元的权重值。经过大量实验测试,当Ws=8/n,Wn=2/(36-n)(n值为模板特征图谱中的敏感单元个数),该加权模板匹配识别效果最佳。
通过式(3)计算得出待识别图谱与模板特征图谱各传感器单元的匹配程度后,通过式(4)可以得到两种图谱的整体匹配程度。
(4)
S值越接近0,则待分析图谱与模板特征图谱的匹配程度越好,S值越大,则图谱之间差异越大。综合分析当前所有的模板特征图谱,即可获得最佳匹配值Smin=min{S1,S2,…,Sn}。为了避免出现两种图谱差异明显情况,设定阈值T。若Smin小于T值,则根据Smin确定待识别气体样本种类。若Smin大于T值,则在当前数据库中气体模板特征图谱中无法实现待分析气体样本。最终该加权模板匹配识别流程图如图3所示。
图3 加权模板匹配方法流程图
2 实验结果
2.1 肺癌呼出气体标志物识别测试
实验检测装置分别采集了6种肺癌呼出气体标志物(苯、苯乙烯、异戊二烯、正丁醇、庚醛、丙酮)与卟啉传感器阵列响应的特征图谱数据,且每种气体每种浓度分别进行了20次平行样本实验。
首先,分析这20次平行样本实验的特征图谱数据,根据特征图谱提取方法则可以分别获得如图4所示的苯、苯乙烯等6种肺癌呼出气体标志物的模板特征图谱。然后,以这些模板特征图谱为基础,采用加权模板匹配方法对所有气体样本的特征图谱数据进行气体识别。实验中进行模板匹配时,a和b的取值通过模板特征图谱确定,T值采用经验值0.8。以苯和丙酮为例,其中5次平行试验中的匹配值如表1所示。6种肺癌标志物气体,20次平行样本实验,总共采集到120例待测气体图谱。所有待测图谱通过加权模板匹配方法识别,其中的113例气体样本均能正确识别,识别正确率高达94.17%。
图4 6种肺癌呼出气体标志物模板特征图谱
2.2 不同浓度肺癌呼出气体标志物的识别测试
实际上,肺癌患者呼出气体的浓度非常低,一般在ppb级水平。当前,限制呼出检测技术的最主要问题,是对低浓度气体的有效识别。因此,有必要测试加权模板匹配方法的最低检测限。针对6种肺癌呼出气体标志物,分别配置了50×10-9、150×10-9、250×10-9、350×10-9等4个浓度水平的气体样本,每个浓度的气体样本进行4次平行样本检测,对获取的特征图谱数据进行加权模板匹配识别,识别结果如图5所示。
如图5所示,在150×10-9、250×10-9、350×10-9浓度水平下,加权模板匹配都实现了6种肺癌呼出气体标志物的正确识别。在50×10-9浓度水平下,苯、异戊二烯和庚醛测试样本都能被正确识别,但是苯乙烯有两例样本错误的识别为苯和异戊二烯,正丁醇气体中有一例被错认为丙酮,丙酮气体样本中有一例被误认为异戊二烯。对比不同浓度气体样本的识别结果,可以推断加权模板匹配能够正确识别实验中150×10-9浓度水平以上的6种肺癌呼出气体标志物。
表1 苯和丙酮识别结果
注:表1中S1,S2,S3,S4,S5,S6分别代表待测气体图谱与苯、丙酮、庚醛、正丁醇、异戊二烯、苯乙烯6种气体模板特征图谱的匹配程度。
注:识别结果1代表苯,2为苯乙烯,3为异戊二烯,4为正丁醇,5为丙酮,6为庚醛图5 不同浓度气体样本识别结果
作为对比,实验同时采用IBM公司的SPSS 22.0分析软件对150×10-9浓度水平的气体样本所获取的特征图谱数据进行了层次聚类分析,最终的聚类结果如图6所示。
如图6所示的聚类树状图,可以发现,在150×10-9浓度水平下,层次聚类分析大体将气体样本分成了6个大类,但是除了丙酮、苯两种气体样本之外,聚类分析并没有完全实现同种气体样本的正确聚类。对于相同条件的加权模板匹配方法却实现了所有实验气体样本的正确识别。因此,可以推断加权模板匹配方法相比于常用的层次聚类分析方法具有更低的检测限。
2.3 肺癌患者呼出气体特征图谱识别测试
为了分析实际肺癌患者的特征图谱,实验还获取了20例肺癌患者呼出气体的特征图谱数据。如图7(a)所示,虽然20例肺癌患者所获的特征图谱上在传感器响应单元数目存在一定的差异,但是总体上呈现出一定的规律性。这些差异有可能是由于患者的病情发展程度不同,实际呼出气体的成分、浓度差异以及反应环境影响等造成的。综合分析这20例肺癌患者特征图谱的时间响应曲线,滤除“错点”,最终获得了如图7(b)所示20例肺癌患者的模板特征图谱。为了形成对比,实验还采集了16例健康志愿者呼出气体样本特征图谱数据,重复上述操作,可以获得如图7(c)所示这16例健康志愿者的模板特征图谱实验随机抽取了5例肺癌患者和5例健康志愿者的呼出气体样本特征图谱数据,采用加权模板匹配方法进行识别。如表2所示,10例测试样本中,加权模板匹配方法能够正确识别气体样本来源。
图6 150×10-9浓度水平气体样本层次聚类树状图
图7
表2 肺癌患者和健康志愿者识别结果
3 结果讨论
当前,呼出气体检测技术中常用的模式识别方法包括聚类分析、主成分分析法以及人工神经网络等。对于当前应用最为广泛的聚类分析,AsKim R[11]等人表示其还存在着三大主要缺陷:首先,聚类分析更倾向于数据统计分析;其次随着数据样本的增加,所有的结果必须重新分析;最后聚类分析还非常容易受到噪声信号的干扰。对于PCA和神经网络来说,前者更适合于数据评估或者数据降维[6,11],后者具有强大的学习能力。两者联用在呼气体检测技术中已经展示了非常不错的数据分析识别能力,但是其对训练样本量的要求和算法复杂度是实际工程应用中需要克服的问题[6,16-17]。它们在基于特征图谱的肺癌标志物识别中都忽略了传感器单元的响应数目和位置信息。针对当前模式识别方法所存在的缺陷,提出了加权模板匹配方法。实际肺癌标志物识别测试中,由于气体样本浓度水平非常低,卟啉传感器阵列也容易受到反应环境、光源等影响产生“错点”或者特征图谱发散[10]等情况,因此加权模板匹配和聚类分析在不同浓度水平均出现了对于颜色信息相近、反应点数目差距不大等情况下气体样本的错误识别,但是加权模板匹配方法展示了更优的检测限。这是因为加权模板匹配综合考虑了传感器单元的颜色差值、响应数目以及位置信息,它能够在一定程度上克服“错点”等状况,提高了对噪声信号的抗干扰能力,实现更低浓度的肺癌呼出气体识别。
对于人体实际呼出气体样本识别测试中,结合图7(a)所示,可以发现肺癌患者的呼出气体样本特征图谱存在一定的差异,这是由于患者的肺癌分期、呼出气体样本成分及浓度等原因造成。肺癌患者和健康志愿者气体样本识别测试中,虽然加权模板匹配都实现了气体的正确区分,但是样本2、4的匹配程度差异非常接近,且部分样本的匹配值非常接近阈值T。造成这些情况的原因,除了个体差异、气体成分各异以及浓度不均等原因,健康志愿者所产生的特征图谱有一定程度的发散性也是造成这种现象的原因之一。实际上,可以发现阵列中某些的位置传感器单元始终都产生了响应,而某些传感器单元在气体浓度达到一定水平后才会产生响应。因此,在后期研究中可以考虑根据传感器单元对不同浓度气体的敏感度赋予不同权值。
当然,研究中肺癌患者和健康志愿者呼出气体样本的数量较少,同时考虑到病人的个体差异以及呼出气体浓度不均等影响,实验中所获取的模板特征图谱并不代表最终肺癌患者的特征图谱,还需要进行更多样本数据的采集与分析。但是,通过研究结果可以发现肺癌患者与健康志愿者呼出气体样本的特征图谱存在着明显的差异,进一步证明了卟啉传感器阵列在肺癌早期筛查的潜在应用价值。
4 结束语
针对当前卟啉传感器阵列特征图谱的识别方法所存在的仅考虑传感器单元的颜色信息等问题,研究提出了一种加权模板匹配方法,该方法综合了传感器单元的颜色信息、响应数目和位置信息。通过不同肺癌标志物气体识别测试以及肺癌患者和健康志愿者的呼出气体样本识别测试,证明该方法具有优良的识别正确率(94.17%),较低的气体浓度检测限(150×10-9),能够有效地区分肺癌患者和健康志愿者,对基于卟啉传感器阵列的肺癌早期筛查技术具有重要的应用价值。