APP下载

电子鼻检测常见伤口感染细菌实验研究

2021-11-04陆彦邑曾琳严博文黎敏何庆华

中国医学物理学杂志 2021年10期
关键词:电子鼻培养液分类器

陆彦邑,曾琳,严博文,黎敏,何庆华

陆军军医大学大坪医院/国家创伤烧伤复合伤重点实验室,重庆400042

前言

电子鼻是一种利用气体传感器阵列来检测和识别物质气味的检测技术,其核心部件是各种类型的气体传感器。由多个传感器对检测物质的响应构成了传感器阵列对该气味的响应数据,不同类别的物质形成不同类别的数据,采用合适的模式识别方法可对信号进行分类和识别[1-2]。

基于传感器的多样化,电子鼻可用于医学诊断[3]、环境监测[4]、食品检测[5-6]等领域,具有广泛的应用价值。在医学诊断领域,伤口感染检测在临床工作中极其重要,但传统伤口感染检测方法速度较慢,无法迅速确定伤口感染类型,快速有效的检测手段能极大地提高治疗效率。临床中伤口感染细菌种类繁多,常见的有大肠杆菌、金黄色葡萄球菌、铜绿假单胞菌、鲍曼不动杆菌、肺炎克雷伯杆菌等。电子鼻用于伤口感染检测早已有研究,涉及到的细菌有大肠杆菌和铜绿假单胞菌[7-8]、金黄色葡萄球菌[7-10]、粪肠球菌[11]、梭菌属和脆弱拟杆菌[12]等。国内对电子鼻用于伤口细菌感染检测已有较多的研究[13-15],主要涉及到大肠杆菌、金黄色葡萄球菌、铜绿假单胞菌3种细菌。

本文在现有的研究基础上,使用自制电子鼻检测临床中的5 种常见伤口感染细菌(大肠杆菌、金黄色葡萄球菌、铜绿假单胞菌、鲍曼不动杆菌、肺炎克雷伯杆菌)的细菌培养液,并使用模式识别算法进行细菌的分类识别,以期为伤口感染的快速检测提供更多的可能性。

1 实验

1.1 实验装置

采用重庆大学自制电子鼻装置作为电子鼻检测仪器[16],如图1所示。该电子鼻系统分为样品单元、检测单元和控制单元3 个部分。传感器阵列包括1个温度传感器、1个湿度传感器、1个气压传感器、1个电压传感器和30个气体传感器(其中传感器GSBT-11已损坏)。采集过程分为基线采集、样本采集、系统清洁3 个阶段,采集频率1 Hz。实验时3 个阶段设置时长分别为180、180、240 s,共600 s。重复实验,以收集更多的样本。

图1 自制电子鼻实验装置Fig.1 Experiment device of self-made electronic nose

1.2 实验样品

本实验有6 种样品:使用巯基乙酸酯(Thioglycolate,TH)培养液培养的大肠杆菌、金黄色葡萄球菌、铜绿假单胞菌、鲍曼不动杆菌、肺炎克雷伯杆菌的细菌培养液及纯TH 培养液,其中大肠杆菌(ATCC25922)、金黄色葡萄球菌(ATCC25923)、铜绿假单胞菌(ATCC27853)为陆军军医大学大坪医院检验科提供的ATCC 标准菌株,肺炎克雷伯杆菌为陆军军医大学大坪医院检验科提供的从临床患者伤口分泌物中分离出来的菌株,鲍曼不动杆菌(ATCC19606)为陆军军医大学西南医院烧伤科提供的标准菌株。所有细菌均转种至规格为5 mL 的TH培养液中培养16~20 h得到用于检测的细菌培养液。

2 数据处理

基于仪器特性,本研究所用的电子鼻典型传感器响应曲线(传感器MQ135)如图2所示,每一个传感器有一组响应曲线,共600个数据点。

图2 典型的传感器响应曲线Fig.2 A typical response curve of a sensor

传感器GSBT-11 已损坏,温度传感器、湿度传感器、气压传感器及电压传感器响应较为恒定,因此剔除这5 个传感器的响应数据,使用剩余29 个传感器响应数据进行分析。每一个类别每个传感器均有一组响应数据,一组响应数据有600 个数据点,因此原始样本数据维度为m× 600 × 29,m为收集到的样本组数,600 为一组数据的长度,29 为传感器个数。本研究中,每类样本各收集到200组数据,m=1 200。由于原始样本数据量较大且存在干扰,因此对样本数据先进行预处理再进行分类识别,数据处理流程见图3。

图3 数据处理流程图Fig.3 Flowchart of data processing

2.1 预处理

2.1.1 滤波实验数据存在异常干扰,对于每个传感器的每一组响应数据,按传感器依次采用5点中值滤波来减小干扰。

2.1.2 特征点提取滤波后,对于每个传感器的响应数据v=(v1,v2,…,v600)T,特征点xfeature提取方法如下:

其中,vmax为响应曲线中样本采集阶段的最大值,vbaseline为响应曲线中基线采集阶段其中一段的平均值,定义如下:

对每个样本的一组数据,有多少个传感器就有多少个特征点,此时一组完整的传感器相应特征点可表示如下:

其中,n为特征点总数。

2.1.3 归一化特征点提取后的样本数据,依然按组进行归一化,方法如下:

2.2 分类与识别

经过以上处理的数据,去除了干扰,提取了特征点,可进行样本的分类和识别。使用逻辑回归(Logistic Regression, LR)、BP(Back propagation)神经网络、支持向量机(Support Vector Machine,SVM)3种算法对6种样品进行分类识别。

2.2.1 LRLR是一种根据预测函数hθ(x)来实现二分类的分类算法,通过样本训练得到预测函数,后使用预测函数对未知样本进行预测和归类。hθ(x)定义如下:

x为样本特征向量,θ为各个特征的参数。当hθ(x) ≥0.5 时,样本属于正类(第一类);hθ(x) < 0.5时,样本属于反类(第二类)。

模型的损失函数为:

其中,m为训练样本总数,n为特征总数。为避免过拟合,引入正则化项,λ为正则化系数。损失函数用于评估预测的准确性,损失函数值越小,代表预测越准确。可使用梯度下降算法对J(θ)求偏导数,寻找最优的θ使得J(θ)最小,此时的预测函数hθ(x)即为最优预测函数。

本研究属于多分类问题,可以使用一对多(onevsrest)的方式对每个类别训练一个二元分类器:对类别①,类别①为正类,其余为反类,搭建二分类器h1θ(x);对类别②,类别②为正类,其余为反类,搭建二分类器h2θ(x)。对需要预测的新样本,依次使用以上二分类器预测输出,输出值最大的那组预测结果即为新样本的所属类别。

2.2.2 BP神经网络BP网络即反向传播网络,是目前应用非常广泛的神经网络模型之一。神经网络典型结构如图4所示,分为输入层、隐含层、输出层。BP网络的训练过程可分为前向传播和反向传播两个过程。前向传播根据输入的样本特征向量(x1,x2,…,xn),通过各隐含层的权重值w和偏置项b计算输出值(y1,y2,…,yc),以及输出值与实际值之间的误差项δ,其中,c为总类别数。若误差值在给定范围内,则网络训练完毕。若误差项不在给定的范围内,则进行反向传播,通过误差项δ回传给各级隐含层,重新计算各级的权重值w和偏置项b,数次迭代直到误差项在给定范围内,此时网络训练完毕。

图4 BP神经网络结构图Fig.4 Structure of BP neural network

设隐含层共有l层,各隐含层节点数为(s1,s2,…,sl),zk、hk、f(zk)分别为第k层的节点值、输出值、激活函数,k=(1,2,…,l),则各隐含层的节点值和输出值计算如下:

其中,zi(k+1)为第(k+ 1)层第i个节点的值,wkij为第k层第i个节点上第j个输入的权重值,bki为第k层第i个节点的偏置项值。给定各级网络初始权重值和偏置项值,根据以上公式即可算出各级隐含层和输出层的节点值和输出值。

网络训练方法有多种,常见的训练方法有梯度下降法、共轭梯度法、拟牛顿算法、列文伯格-马夸尔特法(Levenberg-Marquardt, LM)法等。网络训练完毕,将待测试的样本输入网络,即可预测出其类别。

2.2.3 SVMSVM本身是一个二分类器,其目的是找到一个最优超平面,使两类数据点正确地分在超平面的两侧。如图5所示,样本线性可分时,可以用一条直线(在高维空间则是一个决策曲面)把两类样本分开。图5中虚线上的点称为支持向量,当两类样本的支持向量到该直线(决策曲面)的间隔d最大时,该直线(决策曲面)即为最优超平面。决策曲面定义如下:

图5 支持向量机原理图Fig.5 Schematic diagram of support vector machine

其中,x为样本特征向量;w为可调权值;b为偏置,代表决策面相对于原点的偏移。求解决策曲面的过程即是寻找最优超平面的过程。经过计算可得间隔d:

因此,最大化d等价于最小化权值向量w的欧几里得范数‖w‖。最终计算可得:

其中,αi是拉格朗日乘子;xi表示特征向量x中某一个特征值,i=(1,2,…,n),n表示特征向量维度;yi表示相应类的标识,yi为+1 时代表第一类(正类),yi为-1时代表第二类(反类)。式(12)作为SVM的支持向量和最优超平面分类器。多数情况下,样本是线性不可分的,此时可以通过核函数将样本映射到高维空间,变为线性可分样本再进行分类。常见的核函数有线性核、多项式核、径向基函数核(Radial Basis Function,RBF)以及sigmoid核。

当使用SVM 用于多分类时,本文采用一对一的方式进行分类。其实现方式是用SVM对任意两类设计一个二分类器,从而得到c(c- 1)/2 个二分类器,c为总类别数。对于一个需要分类的样本,用所有二分类器对其进行预测,得票最多的类别即为该样本所属类别。

3 结果与讨论

3.1 样品检测结果

在同一实验条件下,使用电子鼻检测6种样品,6种样品的典型电子鼻雷达图谱如图6所示,可看出6种样品各有其图谱特征。

图6 6种样品电子鼻雷达图谱Fig.6 Radar patterns of 6 types of samples detected by electric nose

3.2 数据处理结果

6 类样品每类共收集到200 组样本数据,经过滤波、特征值提取和归一化的预处理后得到了200×29的特征值矩阵。

对于每类的200 组样本数据,随机选取其中100组为训练集,剩余100 组为测试集,分别使用SVM、BP、LR 来进行分类识别。经过多次实验可分别得到3 种算法的最优参数:BP 选择一层隐含层,隐含层节点数为输入层的1.5 倍,隐含层和输出层的激活函数分别为tan-sigmod 和purelin,网络训练方法为LM 算法;SVM 算法的核函数类型为RBF 核;为避免拟合,LR 引入正则化参数,参数最优值为1。由于训练样本为随机选取,因此每一次运行识别率略有不同,运行10次取平均可得平均识别率,见表1。

表1 3种算法平均识别率(%)Tab.1 Average recognition rates of 3 algorithms(%)

3种算法中,总体识别率BP最高(93.18%),SVM次之(86.52%),LR 最低(72.78%)。对于单个类别的识别率,BP 依然最高。从单个类别识别率可看出,BP 和SVM 对大肠杆菌、肺炎克雷伯杆菌和金黄色葡萄球菌具有良好的识别效果,能达到98%以上。鲍曼不动杆菌和铜绿假单胞菌识别率不如以上3 种细菌,但使用BP 算法也能达到88%以上。以上结果表明,对于常见伤口感染细菌的培养液,使用BP算法识别率和可分性更高。

本研究为电子鼻用于快速筛查常见伤口感染细菌类型提供了一定的实验基础和可行性,但也有其局限性,需改进和继续研究的地方有以下两个方面。一是传感器数量较多,可能存在冗余,需要筛选和优化传感器组合以减小传感器部分体积和复杂度。二是本研究只对细菌培养液进行了检测,实际的临床伤口细菌感染是复杂且多样的,需进一步开展临床样本研究,探索更多的可能性。

4 结论

本研究使用自制电子鼻检测大肠杆菌、金黄色葡萄球菌、铜绿假单胞菌、鲍曼不动杆菌、肺炎克雷伯杆菌细菌培养液和纯TH培养液共6种样品,得到具有各自图谱特征的电子鼻雷达图谱。对6类样本数据进行预处理和提取特征后,使用SVM、BP、LR 3种算法进行了分类识别。结果表明,BP算法识别效果最好,SVM次之,LR最低,提示BP算法对大肠杆菌、肺炎克雷伯杆菌、金黄色葡萄球菌、鲍曼不动杆菌、铜绿假单胞菌的细菌培养液具有良好的可分性,为电子鼻用于伤口细菌感染类型的快速筛查进一步提供了可能性。

猜你喜欢

电子鼻培养液分类器
基于DFI-RSE电子鼻传感器阵列优化的葡萄酒SO2检测
学贯中西(6):阐述ML分类器的工作流程
基于电子鼻的肺癌无创检测研究
从一道试题再说血细胞计数板的使用
基于朴素Bayes组合的简易集成分类器①
黄壤假单胞菌溶磷特性及对pH缓冲的响应
几种培养液对水螅种群增长影响探究
基于特征选择的SVM选择性集成学习方法
基于差异性测度的遥感自适应分类器选择
飞到火星去“闻味儿”——神奇的电子鼻