APP下载

基于BP神经网络的细胞显微光谱自动分类

2014-04-23王成白丽红文苗张通

生命科学仪器 2014年6期
关键词:癌细胞光谱神经网络

王成,白丽红,文苗,张通

(上海理工大学医疗器械与食品学院生物医学光学与视光学实验室,上海200093)

引言

流式细胞分析仪有能力做细胞和其它粒子的多参数测量,也是细胞和生物分子功能研究的重要平台[1]。在过去10年里,流式细胞分析的参数测量的能力不断增强,这种增强已通过增加光源和探测器的数量获得了[2]。但是这样的系统操作相当复杂,而且若想再增加可探测参数受制于可用的商业化的光源和探测器。拉曼光谱具有谱线窄,特异性高等优点,正逐渐被应用到多参数、大通量流式细胞分析中[3,4]。这样针对光谱的自动识别与分类提出了挑战,目前除了商用流式细胞分析软件外,更多的是基于PCA算法的自动识别[5]。

拉曼散射源于样品中化学键与光的作用而产生的分子振动特征谱。这个光谱具有比荧光更窄的谱线宽,包含很多生物组织样品丰富的化学成分信息,被广泛应用于分析化学。已经研究把拉曼散射光谱应用于流式细胞仪[3]。更有研究报道,细胞的散射光谱也被应用到了流式细胞分析领域[6,7]。针对大量的光谱数据的分析,需要一种自动、快速的识别算法来自动区分样品的信息。

针对将来的流式细胞分析中存在的大数量级的光谱数据,本文利用现有癌变细胞和正常细胞显微光谱数据以及PCA分类的结果[8],在原有细胞显微散射光谱采集系统的基础上,提出了基于PCA变换和误差逆传播算法的人工神经网络(BP神经网络)相结合的方法提取光谱信息中的差异,对正常细胞和癌细胞的光谱数据进行分类建模,并对癌细胞进行计数,这将为开发无创、实时、动态地诊断和预后监测、量化CTCs的技术提供基础。

1 BP神经网络

BP 神经网络是一种按误差逆传播算法训练的多层前馈网络,是最常见的网络学习算法。它的学习规则是使用最速下降法,通过反向传播来不断调整网络权值和阈值,使网络误差平方和最小。BP神经网络含有输入层、隐含层和输出层组成。如图1所示。输入层对应输入向量空间,本文中对应观测到的细胞显微光谱的PCA降维后的有效光谱向量;根据文献[8]的研究,癌细胞和正常细胞光谱采用PCA前两个主成分已经可以区分,但为了更稳妥地预测细胞类型,选用累计贡献率达97%以上的前五个PCA主成分向量为神经网络的输入,即BP神经网络的输入节点为5个,隐含层由11个神经元组成,输出值为不同细胞类型的编码,设定编码0为正常细胞,编码1为癌细胞,此代码为训练集中为目标值,在预测集中为相应的编码,因此BP神经网络的输出节点为1。根据BP神经网络算法,信息正向传递,隐含层中第i个神经元的输出为

图1误差逆传播神经网络结构

进一步地计算输入层到隐含层和隐含层到输出层的校正误差,选取下一个输入,再计算(1)和(2)式反复训练直到网络设输出误差达到要求结束训练。具体算法可参阅相关文献[9,10]。本文中采用的训练次数为1000次,目标误差0.01。

2 实验结果

训练集样本为200个样本的光谱数据,前100个为正常细胞光谱数据,后100个为癌细胞光谱数据。光谱数据经平滑,归一化后做PCA主成分分析得到主成分分量,具体的PCA结果可以参考文献[8],然后取前五个主成分作为输入信息进行训练,训练结果如图3所示,经过6次训练后,网络的目标误差达到要求。

图2训练结果

再采集18个样本数据作为预测集样本,1~9例为正常细胞光谱数据,其真实值为0,10~18例为癌细胞光谱数据,其真实值为1。

表1利用BP网络对样本的预测结果

从表1的预测结果和图3的预测误差可见,设定预测结果偏差在±0.2内为预测正确,该模型对预测样本识别准确率达到100%,平均相对偏差为0.78%。

3 讨论与结论

面对收集到的大量细胞散射光谱数据,利用多元统计方法进行信息的提取,并结合模式识别算法,有望从繁琐的光谱数据中提取出主要信息,实现对不同类型细胞的光谱分类。最为常用的多元统计方法是主成分分析(PCA),但对于差异性不明显的光谱达不到分类的效果。而采用BP网络预测模型,能根据样品的数据特征将其训练到一个目标值上。对于被检验的样品,可以通过比较预测结果和目标值来统计预测正确率,得到一个量化的数值。

图3预测误差

应用FCBS技术收集单个正常胃上皮细胞和胃癌细胞的后向显微光谱,将PCA算法和BP神经网络预测模型结合,对细胞光谱的预测达到了100%,平均相对偏差只有0.78%,这将为流式细胞的自动分类提供合适的算法。

[1] Shapiro H M. Practical Flow Cytometry. New York : Wiley-Liss,1995.

[2] Perfetto S P, Chattopadhyay P K, Roederer M. Seventeen-colour flow cytometry: Unravelling the immune system. Nat Rev Immunol,2004,4: 648-655.

[3] Dakota A W, Leif O B, Brown D F,et al.A flow cytometer for the measurement of Raman spectra. Cytometry Part A, 2008, 73A: 119-128.

[4] Gregory G, Lief O B,et al.High-resolution spectral analysis of individual SERS-Active nanoparticles in flow. JACS, 2010, 132:6081-6090.

[5] Dakota A W, Leif O B, Robb H,et al.A flow cytometer for the measurement of Raman spectra. Cytometry Part A, 2008, 73A: 119-128.

[6] Greiner C, Hunter M, Huang P,et al.Confocal backscattering spectroscopy for leukemic and normal blood cell discrimination.Cytometry Part A, 2011, 79A: 866-873.

[7] Greiner C, Hunter M, Rius F,et al.Confocal backscattering-based detection of leukemic cells in flowing blood samples. Cytometry Part A 2011, 79A: 874-883.

[8] 王成, 文苗, 白丽红, 等. 基于主成分分析的单细胞后向散射显微光谱自动识别研究. 中国科技论文在线. 2014年3月27日.

[9] 孙志强, 葛哲学. 神经网络理论与MATLAB7 实现. 北京: 电子工业出版社, 2005.

[10] 周志华, 曹存根. 神经网络及其应用. 北京: 清华大学出版社,2004.

猜你喜欢

癌细胞光谱神经网络
基于三维Saab变换的高光谱图像压缩方法
神经网络抑制无线通信干扰探究
癌细胞最怕LOVE
假如吃下癌细胞
癌细胞最怕Love
基于神经网络的拉矫机控制模型建立
正常细胞为何会“叛变”? 一管血可测出早期癌细胞
复数神经网络在基于WiFi的室内LBS应用
星载近红外高光谱CO2遥感进展
基于支持向量机回归和RBF神经网络的PID整定