基于OPLS-DA和人工神经网络算法研究血细胞参数在乳腺癌诊断中的价值
2022-11-10朱小飞钱世宁曹慧玲吴玲
朱小飞 钱世宁 曹慧玲 吴玲
南京中医药大学附属医院医学检验科(南京 210029)
乳腺癌是女性常见的恶性肿瘤。2015年我国女性乳腺癌新发病例约30.4 万例,占女性全部恶性肿瘤发病的17.1%;死亡病例约7.0 万例,占女性全部恶性肿瘤死亡的8.2%[1-2]。近年来,随着我国人口老龄化的加速,工业化、城市化以及生活方式的改变,女性乳腺癌疾病负担日益加重[3-4]。2020年中国女性乳腺癌发病率为59.0/10 万,居全国女性恶性肿瘤发病谱首位[5]。2020年中国女性乳腺癌死亡率为16.6/10 万,居全国女性恶性肿瘤死亡谱第4 位[5]。
提高早期乳腺癌的检出率并进行及时有效的治疗是降低乳腺癌死亡率的有效措施。目前乳腺癌的诊断指征主要依靠影像学证据包括X 射线、核磁共振和B 超等。而实验室指标尚未纳入乳腺癌诊断指南[6]。究其原因,单一实验室指标在乳腺癌诊断中的特异性较差、灵敏度不高,难以达到临床对乳腺癌的筛查要求。外周血细胞分析是临床常用的一种廉价和有效的实验室检查,外周血细胞参数对多种疾病的诊断和预后都有价值[7-9]。最近研究发现外周血细胞参数对包括乳腺癌在内的多种肿瘤的诊断和预后也有一定价值[8,10-12]。由于肿瘤对外周血的影响是多方面因素的综合结果,因此单一血细胞参数对乳腺癌诊断意义有限。故而,有必要通过一种综合全面的方法研究血细胞参数对乳腺癌的诊断价值。
以人工神经网络(artificial neural network,ANN)算法为基础的机器学习,由于其具有的可以同时解决线性和非线性问题的优势,已经在包括放射医学[13]、超声医学[14]等领域得到了长足应用,显著提高了临床医生的诊疗效率。然而,在检验医学领域机器学习与实验室指标结合进行临床辅助诊断的研究依然甚少。因此,本文首次将人工神经网络算法结合外周血细胞参数特征,通过深度学习建立乳腺癌诊断模型,为外周血细胞参数用于乳腺癌辅助诊断和预后判断提供依据。
1 材料与方法
1.1 数据来源收集2016-2021年于我院初诊的乳腺癌患者血细胞分析数据共422 例[平均年龄(56.90 ± 11.32)岁]以及其间体检的健康女性血细胞分析数据共172例[平均年龄(56.17±12.38)岁]。纳入标准:经影像学和病理学确诊的乳腺癌患者术前检查的血细胞参数纳入乳腺癌组;总体年龄匹配的健康体检女性的血细胞参数纳入正常对照组。血细胞分析数据包括白细胞计数(WBC)、红细胞计数(RBC)、血红蛋白(HGB)、血小板计数(PLT)、红细胞压积(HCT)、红细胞分布宽度(RDW)、平均红细胞体积(MCV)、平均血红蛋白含量(MCH)、平均血红蛋白浓度(MCHC)、中性粒细胞绝对值(NE#)、中性粒细胞百分比(NE%)、淋巴细胞绝对值(LY#)、淋巴细胞百分比(LY%)、单核细胞绝对值(MO#)、单核细胞百分比(MO%)、嗜酸性粒细胞绝对值(EO#)、嗜酸性粒细胞百分比(BA%)、嗜碱性粒细胞绝对值(EO#)、嗜碱性粒细胞百分比(BA%)和平均血小板体积(MPV)共20项参数。本研究涉及的病患数据通过南京中医药大学附属医院伦理委员会批准。
1.2 统计学方法通过正交偏最小二乘法判别分析(orthogonal partial least-squares discrimination analysis,OPLS-DA)进行乳腺癌组和健康女性组主要差异参数的筛选。提取OPLS-DA 筛选的主要差异参数经R(Version 1.4.1717)软件以误差逆向传播(back propagation,BP)算法(含1 个隐藏层和2 个神经节)进行人工神经网络建模。正态分布的两组数据之间的比较使用t检验。SPSS 22.0 软件用于ROC 曲线绘制和相关数据分析。
2 结果
2.1 乳腺癌患者主要差异性血细胞参数的发掘收集2016-2021年于我院初诊的乳腺癌患者血细胞分析数据共422 例以及其间于我院体检的健康女性血细胞分析数据共172 例。血细胞分析数据包括白细胞计数(WBC)、红细胞计数(RBC)、血红蛋白(HGB)、血小板计数(PLT)、红细胞压积(HCT)、红细胞分布宽度(RDW)、平均红细胞体积(MCV)、平均血红蛋白含量(MCH)、平均血红蛋白浓度(MCHC)、中性粒细胞绝对值(NE#)、中性粒细胞百分比(NE%)、淋巴细胞绝对值(LY#)、淋巴细胞百分比(LY%)、单核细胞绝对值(MO#)、单核细胞百分比(MO%)、嗜酸性粒细胞绝对值(EO#)、嗜酸性粒细胞百分比(BA%)、嗜碱性粒细胞绝对值(EO#)、嗜碱性粒细胞百分比(BA%)和平均血小板体积(MPV)共20 项参数。通过正交偏最小二乘法判别分析(OPLS-DA),本文发现乳腺癌患者和健康女性在血细胞参数上存在显著差异(图1A)。进一步运用“VIP(Variable Importance in the Projection)prediction”算法发掘MPV、BA#、PLT、MCV、RBC 和LY#是两组间的主要差异性参数(图1B 和1C)。其中(图1D),MPV、BA#、MCV 和LY#在乳腺癌患者组的表达水平显著高于健康人群组(P<0.001);而PLT 和RBC 在乳腺癌患者组的表达水平则显著低于健康人群组(P<0.001)。上述结果说明乳腺癌患者和健康女性在血细胞参数上差异有统计学意义。
图1 OPLS-DA 算法筛选主要差异参数Fig.1 Screening of primary differential parameters by OPLS-DA algorithm
2.2 主要差异血细胞参数对乳腺癌的诊断效率运用ROC 法研究MPV、BA#、PLT、MCV、RBC 和LY#共6 种主要差异参数对乳腺癌的诊断效率。如图2 所示,上述参数对乳腺癌诊断的特异性分别为0.564、0.983、0.622、0.674、0.878 和0.762,灵敏度分别为0.819、0.614、0.618、0.561、0.393 和0.514,曲线下面积(AUC)分别为0.773、0.793、0.657、0.649、0.643 和0.635,诊断折点(cutoff)分别为8.950、0.005、207.500、91.450、4.105、1.605。以上结果提示差异血细胞参数对乳腺癌诊断具有一定价值。
图2 主要差异血细胞参数的ROC 曲线Fig.2 ROC curve of primary differential blood cell parameters
2.3 基于差异血细胞参数的人工神经网络模型的建立和对乳腺癌的诊断预测将数据分为训练集(乳腺癌=327 例,健康女性=132 例)和测试集(乳腺癌=95 例,健康女性=40 例),运用人工神经网络算法(含1 个隐藏层,2 个神经节)对训练集数据进行16862 次迭代,建立了基于差异血细胞参数的人工神经网络模型(图3A)。各参数的广义权重(generalized weight,GW)如图3B 所示。运用人工神经网络模型对测试集的数据进行分析预测(图3C)。结果见表1,预测结果的准确度为0.891 5(95%CI:0.824 6 ~0.939 4),灵敏度为0.941 2,特异性为0.795 5,阳性预测值为0.898 9,阴性预测值为0.875 0。与单一差异血细胞参数比较,人工神经网络模型的诊断效率均有显著提高。
图3 人工神经网络模型的建立Fig.3 Establishment of artificial neural network model
表1 测试集经人工神经网络模型预测Tab.1 Test set predicted by artificial neural network model例(%)
3 讨论
乳腺癌是女性最常见肿瘤,具有发病率高和病死率高的特点。早期筛查对于乳腺癌的早期发现和预后具有重要价值。血细胞分析是临床上成熟和廉价的一种检验方法,目前发现该项检查同样在肿瘤疾病的发生和转归中具有重要意义。譬如,既往研究显示MPV 是非小细胞肺癌患者(NSCLC)预后不良的危险因素[15],同时也是区分肝内胆管癌和肝细胞癌的重要指标[16]。ALHASAN等[17]发现无论肿瘤的解剖位置如何,MPV 和嗜碱性粒细胞绝对数都可以作为治疗前大肠癌患者预后的生物标志物。不仅如此,PLT 也在包括肺癌、结肠癌在内的多种肿瘤患者中都有不同程度的升高[18-19]。究其原因,肿瘤微环境具有高凝、高炎症反应等特征,由于肿瘤血供和体内血液循环直接联通的病理特征,外周血中的各类细胞可能直接或间接参与了肿瘤发生、免疫微环境塑造等过程,而肿瘤的免疫状态也可能间接地反映在外周血细胞的组成上[20-21]。例如,单核细胞可以分化为肿瘤相关巨噬细胞促进肿瘤进展,同时分泌多种促进炎症的细胞因子,如IL-1、IL-6 等促进肿瘤相关血管的生成和转移[22]。因此通过观察血细胞各项参数的变化进而反映肿瘤发生发展成为可能。本研究同样发现MPV 等参数在乳腺癌和健康女性之间存在显著差异,说明乳腺癌肿瘤微环境同样可能通过上述机制影响血细胞各项参数变化。因此,根据患者外周血细胞的各项参数有可能推断患者免疫状态、肿瘤发生乃至进展情况。本研究首先通过OPLS-DA 算法筛选获得乳腺癌患者和健康女性的主要差异参数包括MPV、BA#、PLT、MCV、RBC 和LY#。但是上述参数对乳腺癌的诊断效率并不高,可能原因是单一血细胞参数不足以反映肿瘤组织的复杂特征。因此,有必要建立一种复杂算法模型综合评估血细胞参数对乳腺癌的诊断价值。
机器学习(machine learning,ML)是一门涉及概率论、统计学和复杂算法理论等多种学科的新兴交叉学科[23]。通过对大数据的复杂处理,机器学习训练模型从而达到利用模型进行预测的目的。人工神经网络(ANN)是一种模仿人类神经网络行为特征,进行分布式并行信息处理的算法模型。误差逆向传播(BP)算法是医学领域最常用的一种ANN 算法,其特点是在训练过程中将输出值与实际值的差异不断地逆向传播给神经网络,调节神经元之间的权重大小,使得实际值与理论值的误差最小[24]。为此,本文以上述6 种参数为基础,以BP 算法建立人工神经网络模型。与单一血细胞参数相比,该模型对乳腺癌预测的灵敏度(0.941 2)显著提高,符合临床筛查指标应具有较高灵敏度的要求;同时该模型的预测诊断特异性为0.795 5,表明该模型具有辅助乳腺癌筛查的潜在能力。
血细胞分析是临床常用的一种价格低廉、检查方便快捷的实验室指标。该指标除了与血液系统和感染性疾病的直接相关之外,也可能间接反应其他疾病的发生发展情况。然而血细胞参数的单一指标往往不足以反应肿瘤等疾病的全貌,因此血细胞参数对于肿瘤等疾病的诊断价值一直存在很大争议[25-26]。通过机器学习算法纳入血细胞参数的多项指标,更能全面地逼近个体的血细胞特征全貌,从而基于算法模型对血细胞全貌的综合评估使肿瘤患者和健康人群得以区分。鉴于本文中基于血细胞参数的乳腺癌患者诊断预测人工神经网络模型的成功建立,通过机器学习建立基于实验室常用指标(包括血细胞分析、临床生化和免疫学指标等参数)的算法模型,将可能使“老指标”焕发出“新生机”,从而在疾病诊断相关分组(diagnosis related groups,DRG)医保支付改革的大背景下,为控制医保支出,减轻患者负担,同时提高临床疾病的诊疗效率做出贡献。
本研究尚存在不足之处,如使用的数据是单一医院的检测数据,可能存在人群、疾病谱、诊疗策略等差异,由此建立的诊断预测模型在应用于更广泛人群的诊断评估时仍需要优化以提高性能。
综上,本文发掘了乳腺癌患者和健康女性的关键差异血细胞参数,运用误差逆向传播算法建立人工神经网络模型,对乳腺癌疾病的诊断筛查具有潜在价值。