APP下载

乳腺癌患者血清的傅里叶变换中红外光谱研究

2021-04-04沈婕朱丽英朱科静代龙光许永劼许雯刘歆蕾李兴潘卫

天津医药 2021年3期
关键词:预处理红外光谱

沈婕,朱丽英,朱科静,代龙光,许永劼,许雯,刘歆蕾,李兴,潘卫,△

乳腺癌是女性最常见的恶性肿瘤之一[1],其发病率在女性恶性肿瘤中高居首位[2],且呈逐年上升趋势。目前乳腺癌的诊断方法包括X线钼靶、乳腺彩超、磁共振成像等,为提高诊断的准确率可辅助血清学检查。近年红外光谱分析技术发展迅速,其具有分析速度快、操作简便、结果稳定、成本低、创伤小等优点,是分析人体组织和体液成分等较为灵敏的技术之一,在生物学、化学和环境科学、疾病的发现和诊断等方面发挥着重要作用。傅里叶变换中红外光谱技术作为分析分子振动规律的方法,可以在不破坏原有样品的前提下对微量样品进行分析[3]。中红外光谱分析所需时间短,波数范围在4 000~400 cm−1,较近红外光谱的敏感度和信息度高1 000级,是绝大多数有机物和无机离子的基频吸收带。目前采用傅里叶变换中红外光谱技术诊断乳腺癌的研究多针对组织进行鉴别分析,对患者创伤较大,且存在耗时较长、操作繁琐等问题[4−6]。本研究对乳腺癌患者与健康人群的血清进行鉴别分析,利用判别分析法建立模型,对原始光谱进行预处理,选择最优预处理方式,旨在建立一种快速、简单、灵敏、经济的乳腺癌血清学辅助诊断方法。

1 材料与方法

1.1 材料

1.1.1 实验仪器采用美国Thermo Scientific Nicolet iS5傅里叶变换红外光谱仪,仪器主要由光源、干涉仪、计算机、检测器等组成,适用于产品可靠性测试、质量控制、材料鉴定等分析工作,其工作原理见图1。干涉仪将光源处的信号以干涉图的形式输送到计算机进行傅里叶变换,得到光谱图。

1.1.2 标本采集收集2016年11月—2019年3月贵州医科大学附属医院收治的85例确诊为乳腺癌的女性患者的血清标本,患者年龄26~83岁,平均年龄(50.41±11.05)岁;其中乳腺浸润性导管癌80例,乳腺浸润性导管癌伴导管内癌1例,

Fig.1 Working principle of Thermo Scientific Nicolet iS5 Fourier transform mid−infrared spectrometer图1 Thermo Scientific Nicolet iS5傅里叶变换中红外光谱仪工作原理

乳腺浸润性导管癌伴导管原位癌1例,乳腺浸润性导管癌伴湿疹样癌1例,乳腺浸润性导管癌伴纤维腺瘤2例。Ⅰ期12例,Ⅱ期45例,Ⅲ期26例,Ⅳ期2例。合并高血压22例,糖尿病6例。纳入标准:(1)临床资料完整;(2)年龄≥18岁;(3)经病理诊断为Ⅰ~Ⅳ期乳腺癌。排除标准:(1)接受过乳腺手术或放化疗治疗者;(2)合并精神障碍性疾病及其他严重疾病者;(3)依从性较低者。另收集2020年6月贵州医科大学附属医院健康女性血清标本86例,年龄26~76岁,平均年龄(47.76±10.13)岁,2组年龄比较差异无统计学意义(t=1.639,P>0.05)。标本采集获患者知情同意并签订知情同意书。

1.2 方法

1.2.1 中红外光谱图的采集测试前清洗仪器样品池并用空气调零,之后用加样枪取5μL样品注入样品池中,利用傅里叶变换中红外光谱仪进行扫描,扫描波数范围4 000~400 cm−1,分辨率4 cm−1,扫描16次,数据间隔为0.482 c,数据格式为吸光度,温度25℃,相对湿度50%~60%,检测器为DTGS/KBr,分束器为KBr。采用Omnic 8.0软件采集血清样品的光谱数据,TQ Analyst 9.0绘制中红外光谱图。

1.2.2 主成分分析将光谱的一个或多个分析区域中的所有相关光谱信息浓缩为一组主成分,每个主成分代表数据中光谱变化的独立来源。主成分按其描述的差异量排序,第1个主成分描述了校准光谱中的大多数变化,每个其他主要组成部分都描述了其余大部分变化。首先绘制主成分得分的2D(PC1,PC2)和3D(PC1,PC2,PC3)散点图;进一步提取10个主成分分别计算其得分(PC1~PC10),其计算公式为:F=其中p为原始变量个数,y1,y2,┈ym为累计贡献率已达较高水平的前m个主成分,其方差为λi,αi为每一个主成分yi的贡献率。

1.2.3 判别分析原理及判别模型的建立判别分析法是化学计量学中的一种分析方法,可以根据已知样本的分类情况来判断待测样本的归属问题,具体过程是将一个未知样品在特定区域(一个或多个)的光谱信息应用于事先建立好的校正模型,判别分析结果显示与未知样品光谱最相似的类别名称(一个或多个),以及未知样品与每个类别的马氏距离,每个距离的值越接近于零,匹配程度越好。马氏距离(Mahalanobis Distance)是度量学习中一种常用的距离指标,被用作评定数据之间的相似度指标。根据马氏距离对未知样品进行归类,其计算公式为其中d为马氏距离,Gi为第i类总体,x为未知样品,μi为Gi的均值阵,Si为Gi的协方差阵。

按照校正集∶验证集约2∶1的比例在健康人群和乳腺癌患者血清样品中各随机抽取60例,进行光谱扫描,将扫描得到的中红外光谱数据作为校正集,利用判别分析法建立判别模型。

1.2.4 判别模型的验证判别模型建立后,再分别对剩余26例女性健康人群和25例女性乳腺癌患者血清样品进行中红外光谱仪扫描,将分析得到的光谱数据作为验证集对所建立的模型进行性能验证,即通过计算未知样品到每个类别的马氏距离,对马氏距离进行比较,判断未知样品被归到的类别与实际所属的类别是否一致,一致则属于模型判断正确,正判个数/总数即为模型正判率。

1.2.5 光谱预处理方式的选择为了消除光谱中基线漂移和噪声的干扰,需要对光谱进行预处理,分别对原始光谱进行平滑、一阶导数+Savitzky−Golay平滑、一阶导数+Norris平滑、二阶导数+Savitzky−Golay平滑、二阶导数+Norris平滑,在波数范围3 931~619 cm−1、10个主成分条件下,分析各种预处理方式下所建模型的性能指标评分(Performance Idex),计算相对残差和(%Difference),其计算公式为:,选择性能指标评分最高的光谱预处理方式作为最佳光谱预处理方式。

1.3 统计学方法采用SPSS 19.0软件进行统计学处理。符合正态分布的计量资料以均数±标准差(x±s)表示,2组间比较采用t检验或t’检验;非正态分布的计量资料以M(P25,P75)表示,2组间比较采用Mann−WhitneyU检验;正态与非正态分布计量资料间比较采用Mann−WhitneyU检验;P<0.05为差异有统计学意义。

2 结果

2.1 两类血清样品中红外光谱图及特征峰乳腺癌患者与健康人群血清样品的中红外光谱曲线图峰形趋向一致;将2组人群光谱图重叠之后发现,在3 363、2 360、1 641、1 552及663 cm−1波数处的特征峰峰强差异有统计学意义(P<0.05),见表1、图2。

2.2 主成分2D图和3D散点图运用主成分分析提取光谱数据的特征,对女性健康人群和女性乳腺癌患者血清样品进行分析,分别绘制主成分得分的2D(PC1,PC2)和3D(PC1,PC2,PC3)散点图,见图3。提取10个主成分信息对2组样本PC1~PC10进行比较,结果显示,2组人群PC1~PC4差异有统计学意义,PC5~PC10差异均无统计学意义,见表2。

2.3 不同类血清样品判别分析图在傅里叶变换中红外光谱仪的最大扫描范围内,以软件推荐的3 931~619 cm−1区间建立判别分析模型,健康人群和乳腺癌患者血清样品的光谱在3 931~619 cm−1区域内均出现较高的吸收,具备足够的特征信息,其中包含大多数生物分子基团振动的特征吸收。基于判别分析法两类血清样品的校正集样品被完全准确区分,验证集样品则分别分布在各自相应的类别区域,见图4;与正常组相比,乳腺癌组患者到N的马氏距离值高,到C的马氏距离值低,差异有统计学意义,见表3;所建判别分析模型,51例验证集样本全部正确识别,正判率100%,见表4。

2.4 不同光谱预处理方式下判别模型的评分当对光谱进行一阶导数+Savitzky−Golay平滑和一阶导数+Norris平滑两种预处理时,结果均出现了错判,而光谱不经过预处理和平滑处理的情况下,所建模型的性能指标评分均为94.1分,验证集正判率均为100%,见表5。

Tab.1 The peak intensities of serum spectrum at wave number 3 363 cm-1,2 360 cm-1,1 641 cm-1,1 552 cm-1 and 663cm-1from normal people and breast cancer patients表1 正常人群和乳腺癌患者血清光谱在波数3 363 cm-1、2 360 cm-1、1 641 cm-1、1 552 cm-1、663 cm-1处的峰强[L/(g·cm)]

3 讨论

中红外光谱的基频振动是红外活性振动中吸收最强的振动,因此本区最适宜进行红外光谱的定性和定量分析[7−8]。近年来,中红外光谱在木材树种识别[9]、甘氨酸铁螯合物掺假判别[10]、蜂蜜品种识别[11]等方面得到了广泛的应用。同样,其在疾病鉴别与诊断方面的应用也取得了一定进展。Depciuch等[12]利用中红外光谱技术成功鉴别出甲状腺正常组织和癌组织;Kaznowska等[13]研究发现正常结肠组织与化疗前后的结肠癌组织的光谱存在差异;Wang等[14]通过检测健康人群和肺癌患者血清发现,光谱中A1080与A1170的比值有助于肺癌的诊断;中红外光谱技术还可用于各种胃炎和胃部恶性肿瘤的辅助诊断[15]。目前对于乳腺癌患者中红外光谱的研究主要集中于组织层面,创伤较大,且样本量较小,而本研究利用傅里叶变换中红外光谱仪对健康人群和乳腺癌患者的血清样品的光谱数据进行采集,创伤较小且方便快速。

Fig.2 Mid−infrared spectrum of serum samples from normal people and breast cancer patients图2 正常人群和乳腺癌患者血清样品中红外光谱图

Fig.3 Principal component scatter plot of serum samples from normal people and breast cancer patients图3 正常人群和乳腺癌患者血清样品主成分散点图

Tab.2 Principal component scores of 1-10 in serum samples of the two groups表2 2组人群血清样品主成分1~10得分

Fig.4 Discriminant analysis figure of serum samples from normal population and breast cancer patients图4 正常人群和乳腺癌患者血清样品判别分析图

Tab.3 Mahalanobis distance of serum samples of the two groups表3 2组人群血清样品马氏距离

Tab.4 Classification recognition results of Mahalanobis distance表4马氏距离的分类识别结果

Tab.5 Model scores under different spectral preprocessing methods表5 不同光谱预处理方式下模型评分

本研究采集了86例正常人和85例乳腺癌患者的光谱数据,观察发现2组人群光谱图存在差异,其在波数3 363 cm−1、2 360 cm−1、1 641 cm−1、1 552 cm−1、663 cm−1处的峰强均存在差异。周苏等[4]研究认为波数1 640 cm−1,1 550 cm−1处可反映乳腺癌相关蛋白二级结构,与本研究提示结果基本吻合。此外,本研究结果显示2组人群血清样品的光谱在波数3 363 cm−1、2 360 cm−1、663 cm−1处的峰强亦存在显著差异,但其所代表的乳腺癌相应变化尚不清楚。通过对2组人群血清光谱特征峰峰强进行比较,初步证明2组人群光谱存在差异,但重叠部分无法被有效区分,因此本研究采用主成分分析进一步对2组人群光谱进行区分,首先通过绘制主成分得分的2D(PC1,PC2)和3D(PC1,PC2,PC3)散点图,发现2组人群光谱可被进一步区分;然后对光谱数据集提取主成分1~10后分析发现,主成分1、2、3、4对区分2组人群有主要贡献。以上研究结果提示癌症人群和健康人群的血清光谱理论上可以被有效区分。在此基础上本研究选择判别分析法建立判别模型对光谱信息进行识别,通过模型计算马氏距离,所有未知样品被准确归类,其正判率为100%;同时比较不同的光谱预处理方式,发现相比其他处理方式,未对模型进行任何处理和对模型进行平滑处理的模型评分最高,均为94.1分,平滑处理是否对结果有影响尚待明确,出于简便原则考虑选择原始光谱进行判别分析模型的建立,结果显示本研究所建模型相对稳定,其预测能力较强。以上结果表明,利用傅里叶变换中红外光谱仪可对健康人群和乳腺癌患者进行区分和鉴别,有望成为乳腺癌的辅助诊断方法之一。

但是本研究的样本量有限,所纳入的85例乳腺癌患者包括了Ⅰ~Ⅳ期,故其对早期乳腺癌的辅助诊断价值尚待进一步研究验证。今后尚需通过收集各个分期乳腺癌患者的血清进行傅里叶变换中红外光谱检测,以实现对不同分期乳腺癌患者的辅助诊断,进而基于中红外光谱技术建立一种不同组织学类型、不同分级乳腺癌诊断方法,并尝试利用中红外光谱技术建立定量模型,快速、准确地检测出待测物的含量,对疾病的诊断、治疗以及预后提供帮助。

综上所述,本研究基于傅里叶变换中红外光谱技术建立的方法可准确区分和鉴别健康人群和乳腺癌患者,且快速有效,有望成为一种辅助诊断乳腺癌的方法。

猜你喜欢

预处理红外光谱
基于三维Saab变换的高光谱图像压缩方法
网红外卖
闪亮的中国红外『芯』
TS系列红外传感器在嵌入式控制系统中的应用
基于预处理MUSIC算法的分布式阵列DOA估计
基于快速递推模糊2-划分熵图割的红外图像分割
浅谈PLC在预处理生产线自动化改造中的应用
星载近红外高光谱CO2遥感进展
络合萃取法预处理H酸废水
基于自适应预处理的改进CPF-GMRES算法