基于线性判别分析的拉曼光谱自动分类识别
2021-06-03昌吉职业技术学院郑成霞
昌吉职业技术学院 郑成霞
拉曼光谱被称为物质的指纹光谱,可以精确的反映出被测样本所含物质及物质的浓度信息,已经被广泛用于医学、食品、检测等领域的研究中。本文采用自适应迭代重加权惩罚最小二乘法对原始拉曼光谱数据做预处理,采用主成份分析法提取光谱特征,采用线性判别分析(LDA),对宫颈腺癌组织与宫颈鳞癌组织拉曼光谱的自动分类识别展开研究。研究结果表明,采用airPLS算法扣除背景噪声,能够提高分类正确率,主成份分析(PCA)结合线性判别分析法对两类光谱数据的分类正确率达到了87.5%。
当身体组织发生病变时,会导致病变组织细胞生化成分的改变,同样,若组织细胞的生化成份发生异常改变也会导致疾病的发生。这种生化改变通常会先于物理形态的改变。拉曼光谱可以实现分子水平的生化成份检测,能够敏感的检测出组织细胞生化成份的变化,在疾病的早期检测与诊断方面具有很大潜力。模式识别技术,是一种客观的,可以实现高效自动分类识别的技术,例如指纹识别、人脸识别、字迹识别等。传统的医疗检测技术,存在着一些弊端。如大多数需要采集活体组织样本进行检测,属于有创检测,会给病人来带创伤与痛苦,并且检测时间较长,费用较贵。传统的医疗检测的正确性,在一定程度上依赖于操作医师的知识技能水平与经验,检测结果有一定的主观性。因此,人们就有了开发出能够克服传统检测技术不足的新型检测技术的迫切需求,在这种需求的驱动下,科研人员开始研究将模式识别技术与拉曼光谱技术结合起来,用于疾病的筛查、诊断中。
近年来,宫颈癌已成为威胁女性生命健康的第二大癌症因素,统计数据表明,全球每年有52.9万女性发病,每年大约有20万患者死亡,死亡病历中,发展中国家所占比例超过90%,中国宫颈癌每年的发病概率为12.96/10万人,死亡比例为2.6/10万人。宫颈癌现有的筛查技术有巴氏细胞学检测、细胞基液检测结合计算机辅助细胞检测系统(cellular computer tomography,CCT),虽然这些筛查技术大大提升了宫颈癌的检出率,但是,它们有共同的不足之处,就是,需要专业医师对被测样本的细胞学形态做出专业的判断,这必然会在诊断结果中引入人为因数,从而降低诊断结果的可靠性。由于拉曼光谱的无创、敏感、精确性与模式识别技术的强大分类识别能力与智能客观性,本研究将拉曼光谱与模式识别技术结合起来,采用线性判别分析(Linear Discriminant Analysis,LDA)对宫颈腺癌与宫颈鳞癌组织拉曼光谱做分类研究。
1 线性判别分析
线性判别分析(Linear Discriminant Analysis,LDA)是一种简单的线性模式识别算法。LDA在进行数据分类时,先训练好分类模型,再使用训练好的模型对数据进行分类。用于训练模型的数据被称为训练集,被分类的数据称为测试集。在训练模型时,LDA算法将所有训练集数据都投影到同一条直线上,但尽可能的使同类型数据的投影点之间的距离小,而不同类型的数据投影点之间的距离大。对测试集进行分类时,将测试集投影到与训练集相同的直线上,测试集数据被判断为投影点跟其投影点距离较近的训练集同一类型。LDA算法在训练分类模型时,需要预先知道训练集数据的类型,因此它是有监督机器学习方法的一种。
2 LDA分类结果与讨论
airPLS是一种能够快速处理高维数据的背景扣除算法。本文中所使用的宫颈癌组织拉曼光谱为856维数据,因此,airPLS算法被用于扣除本文中宫颈癌组织拉曼光谱的背景噪声。主成分分析(Principal Component Analysis,PCA)是一种通过提取原始数据特征变量的方式,实现以较少的包含原始数据中绝大部分信息的特征变量来表示高维的原始数据的降维算法,不仅能够达到降低原始数据维度的目的,所提取的特征变量还可以更好的表达各类数据间的差异,有益于后续的数据分类。因此,本文采用PCA对宫颈癌组织拉曼光谱做降维处理。
为了验证airPLS算法扣除子宫颈癌组织拉曼光谱中的背景噪声后,是否有助于提升数据分类的正确性。本文对扣除背景前后的光谱数据都做主成份分析处理,然后采用贡献率相加超过85%的前3个主成份用于用线性判别分析做分类识别。
图1 扣除背景后两类宫颈癌组织拉曼光谱1,2主成份空间分布散点图
对于原始光谱数据,采用主成份1(PC1)与主成份2(PC2)做线性判别分析,分类的正确率为73.3%。采用主成份1(PC1)与主成份3(PC3)做线性判别分析,分类的正确率为72.5%。采用主成份1(PC1),主成份2(PC2),主成份3(PC3)做线性判别分析,分类的正确率为80.8%。
图2 扣除背景后两类宫颈癌组织拉曼光谱1,3主成份空间分布散点图
图3 扣除背景后两类宫颈癌组织1,2,3主成份空间分布散点图
图4 两类宫颈癌组织拉曼光谱的判别式分图
采用airPLS扣除光谱背景后,如图1所示,在PC1与PC2主成份空间可以采用直线将宫颈腺癌与宫颈鳞癌组织的拉曼光谱分开,分类正确率为84.2%。如图2所示,由PC1与PC3构成的主成份空间中,可由直线将两类宫颈癌组织的拉曼光谱分开,分类正确率也是84.2%。如图3所示,是宫颈腺癌组织与宫颈鳞癌组织拉曼光谱在PC1与PC2,PC3所构成的三维空间中的分类散点图,可以观察到两类光谱分布重叠部分较少,具有可分性,采用前三个主成份做线性判别分析,分类正确率达到了87.5%。
图4a是宫颈腺癌组织拉曼光谱在PC1,PC2,PC3三个主成份空间的判别式得分图,图4b是宫颈鳞癌组织拉曼光谱在PC1,PC2,PC3三个主成份空间的判别式得分图。从图4中可以直观的观察到,宫颈腺癌组织的判别式得分几乎都位于-2.5-0之间,宫颈鳞癌组织的判别式得分大多分布在0-5之间。由此可知,可以以判别式得分为依据,将0作为区分两类宫颈癌组织的分界值。从图4中可看出,宫颈腺癌组织与宫颈鳞癌组织的判别式得分的标准差分别为:0.24与1.394,这一结果与图3中腺癌组织拉曼光谱分布集中,鳞癌组织拉曼光谱分布分散相一致。
为了验证LDA分类方法的可靠性,绘制出样本工作特质曲线(ROC曲线),如图5所示。ROC曲线下面积所占比例越大,则表明方法的可靠性越高。宫颈腺癌与鳞癌组织拉曼光谱线性判别分析结果的ROC曲线下方所占面积比例为87.5%,说明所采用方法具有较高的可靠性。 结束语:本文采用airPLS算法作为背景扣除算法,采用主成分分析结合线性判别分析(PCA-LDA)对120条宫颈癌组织拉曼光谱,其中60条腺癌光谱,60条鳞癌光谱做了分类研究。采用PCA-LDA对两类原始光谱进行分类,分类正确率为80.8%,对扣除背景后的两类光谱的分类正确率达到了87.5%。研究结果表明,采用airPLS算法扣除背景能够提升PCA-LDA的分类正确率,同时也表明,PCA-LDA方法能够较好的将宫颈腺癌组织拉曼光谱与宫颈鳞癌组织拉曼光谱区分开来,且分类结果具有较高可靠性。
图5 两类宫颈癌组织拉曼光谱LDA结果的ROC曲线