数据挖掘技术在肺癌危险度预测模型中的应用

2021-06-08高孜博李迪段书音周晓蕾刘红王静王威吴拥军

肿瘤防治研究 2021年5期

高孜博，李迪，段书音，周晓蕾，刘红，王静，王威，吴拥军

0 引言

晚期肺癌患者5年生存率仅5%，但若能在早期诊断并治疗，5年存活率可达57%[1-2]。因此，结合肺癌危险因素及其临床特征建立肺癌危险度预测模型对早期诊断及治疗肺癌，提高患者5年生存率具有重要意义。近年来，数据挖掘技术已经在生物医学预测模型中得到广泛应用。人工神经网络（artificial neural network,ANN）具有良好的鲁棒性、高容错性和较强的归纳能力，而C5.0算法作为决策树模型的常用算法之一，适用于分类变量和大数据集[3]。因此，该研究拟将肺癌常见危险因素与临床症状相结合，采用C5.0决策树与ANN构建肺癌危险度预测模型，并评价两模型的性能优劣，为肺癌早期筛查及临床辅助诊断提供依据和工具。

1 资料与方法

1.1 研究对象

收集2014年10月至2016年10月郑州大学第一附属医院的住院患者样本420例，其中包括肺癌患者180例，肺良性疾病患者240例。入组患者均知情同意并自愿参加。

入选标准：肺癌组：以《中华医学会肺癌临床诊疗指南（2019版）》为标准[4]，经病理学或细胞学被证实为原发性肺癌患者；肺良性疾病组：由郑州大学第一附属医院诊断为肺部良性病变患者。排除标准：（1）入组前曾接受放化疗、药物治疗或手术治疗者；（2）主要脏器功能衰竭患者；（3）合并肺或其他恶性肿瘤患者；（4）妊娠或哺乳期患者；（5）不同意入组者。

1.2 观察指标

调查人员经过统一培训后，通过问卷访谈形式对患者进行调查询问获得数据资料，包括流行病学资料（疾病诊断、年龄、吸烟史、饮酒史、粉尘接触史、输血史、肺癌家族史、炎性反应史）和临床症状（咳嗽、咳痰、痰中带血、咯血、胸闷、胸痛、心慌、乏力、畏寒、发热出汗）。其中年龄根据《中华医学会肺癌临床诊疗指南（2019版）》以45岁为界限进行分组。总数据集包括18个定性变量（17个预测变量和1个因变量），因变量为诊断结果，各变量赋值见表1。

表1 肺癌危险度评价研究的变量赋值说明Table1 Instructions of variables assignment in risk assessment studies of lung cancer

1.3 统计学方法

应用SPSS21.0对420例样本数据进行统计分析，对所有变量进行描述性统计分析，采用χ2检验进行差异分析，检验水准α=0.05。

使用SPSS Clementine 12.0软件建立两种数据挖掘预测模型，使用MedCalc15.10软件绘制受试者工作特征（receiver operating characteristic curve,ROC）曲线。将两组样本均按照7:3随机分为两部分，其中训练数据集包含302例样本，测试数据集包含118例样本。C5.0决策树模型和ANN模型的比较采用敏感度、特异性、准确度、阳性预测值（positive predictive values,PPV）、阴性预测值（positive and negative predictive values,NPV）、约登指数和ROC曲线下面积（area under ROC curve,AUC）进行评估。

2 结果

2.1 基本情况

420例患者中，肺癌患者180例（42.9%），肺良性疾病患者240例（57.1%）。肺良性疾病患者中小于45岁者（63.8%）明显多于肺癌组（36.2%），差异有统计学意义（P=0.004）。肺癌患者中吸烟、饮酒者（57.1%、55.7%）均多于肺良性疾病患者（42.9%、44.3%）。肺癌组有粉尘接触史或肺癌家族史者分别仅2例。肺良性疾病组中有6例有输血史，而肺癌组中没有。10个临床症状变量中，肺癌组中痰中带血（64.0%）及胸痛（55.3%）的比例高于肺良性疾病患者（36.0%、44.7%）。两组样本的基线特征分析结果见表2。

2.2 输入变量的选择

两组间年龄（P=0.004）、吸烟史（P＜0.001）、饮酒史（P=0.028）、输血史（P=0.033）、炎症史（P＜0.001）、痰中带血（P=0.001）、胸痛（P=0.006）、乏力（P=0.049）和发热出汗（P＜0.001）9个因素差异有统计学意义，见表2。此外由于既往研究提示粉尘接触史、癌症家族史、咳痰、咳嗽和咯血为肺癌的影响因素[4-5]，该研究入选这14个因素作为输入变量建立风险预测模型。

表2 肺癌组和肺良性疾病组的样本基线特征及卡方检验 (n(%))Table 2 Baseline characteristics and chi-square test of lung cancer and lung benign disease groups (n(%))

2.3 危险度预测模型的构建与比较

2.3.1 两种风险预测模型的建立经过训练，C5.0决策树风险预测模型的参数设置如下：Use partitioned data:no,Output type:Decision Tree,Group symbolic:no,Use boosting:yes,Cross-validate:no,Mode:expert,Pruning severity:75,Minimum records per child brunch:2,Use global pruning:yes,Window attributes:no,Use misclassification costs:no。ANN风险预测模型的参数设置如下：Use partitioned data:yes,Method:prune,Prevent overtraining sample:50%,Set random seed:321,Stop on:time (mins) 1 min,Optimize:memory,Continue training existing model:no;Use binary set encoding:yes,Show feedback graph:yes,Model selection:Use best network,Mode:expert。

2.3.2 两种危险度预测模型的性能比较两种模型训练集和测试集样本的分类结果见表3。在训练集与测试集样本中C5.0模型的准确率分别为68.54%和61.0%，ANN模型的准确率分别为69.5%和65.3%。可以看出ANN模型在训练集和预测集中准确度均高于C5.0模型。根据两个数据挖掘模型的ROC曲线中各危险因素对应的AUC评估各自变量对模型的影响大小，重要性前10位影响因素排序见表4。由表可知，对模型影响最大的三个影响因素在ANN模型中分别是吸烟史、痰中带血与胸痛；而在C5.0模型中分别是吸烟史、胸痛与年龄。在ANN模型和C5.0模型中吸烟均为最主要的影响因素。

表3 C5.0决策树和ANN模型的训练集和测试集样本分类结果Table 3 Classification results of training set and testing set samples by Decision tree C5.0 and ANN models

表4 C5.0决策树模型和ANN模型中纳入变量的重要性排序Table 4 Importance ranking of variables in Decision tree C5.0 model and ANN model

两种数据挖掘模型对肺癌综合预测性能的相关指标包括准确度、约登指数、敏感度、特异性、预测值和AUC。其中C5.0决策树模型的特异性和NPV高于ANN模型，ANN模型预测模型的准确度、约登指数、敏感度、PPV和AUC均高于C5.0决策树模型，见表5。测试集中两种数据挖掘模型的ROC曲线可发现ANN模型预测性能优于C5.0决策树模型，见图1。

表5 两种数据挖掘模型的测试集结果比较Table 5 Comparison of testing set results between two data mining models

图1 测试集中两种数据挖掘模型的ROC曲线Figure 1 ROC curves of two data mining models in testing set

3 讨论

当前，肺癌的高发病率和高病死率已经造成巨大的公共卫生负担，利用肺癌的危险因素来预测肺癌危险度，对于肺癌的预防和早期筛查具有重要意义。本研究分别建立了C5.0决策树与ANN肺癌风险预测模型，比较发现，ANN模型预测性能优于C5.0决策树模型。

本研究按照0.05的显著性水平，单因素检验发现有9个变量与肺癌患病率呈相关关系：5个流行病学变量中年龄、吸烟史、饮酒史、炎性反应史与肺癌患病率呈正相关，输血史与肺癌患病率呈负相关；4个临床症状中痰中带血、胸痛与肺癌患病率正相关，乏力和发热出汗与肺癌患病率存在负相关关系。同时，本研究的两种数据挖掘模型中吸烟均为关键影响变量。既往研究表明肺癌常见于70岁以上人群且发病率和死亡率随年龄增加而升高，同时吸烟、饮酒以及慢性炎性反应均为肺癌的危险因素之一[5]，而围手术期输血对肺癌预后和复发的影响当前研究仍不一致[6]，这与本研究结果基本相符。有研究显示，遗传因素与职业性粉尘接触也是肺癌的危险因素之一[7]，这与本研究结果不符。

决策树模型是一种由层次分类逐步构建的贪心算法，作为一种新兴的数据挖掘技术，它可以经过多次迭代演算后得到最优化的算法模型，具有较高的数据分析能力。相关研究已经将C5.0决策树模型用于利用基因表达数据和职业危险因素预测肺癌风险的模型建立[8-10]。C5.0算法作为决策树模型的常用算法之一，适用于分类变量和大数据集，已经在生物医学预测模型的建立中得到广泛应用。另外一些研究将C5.0决策树模型与其他多种研究进行比较，建立疾病风险预测模型，均得到C5.0决策树模型的预测性能最优的结果[11-12]。

ANN模型的数学结构模拟人类大脑的生物神经元学习动态，对输入变量经过训练产生一个加权组合的输出结果。ANN相比于一般统计学方法优势显著，具有良好的鲁棒性、高容错性和较强的归纳能力，可以快速识别线性模型、受阈值影响的非线性模型、分类模型、逐步线性模型，甚至偶然影响，故其可以确定潜在的预后影响因素[13]。已有研究将ANN应用于肺癌风险评估相关模型的构建[3,14]。该研究结果同样显示ANN模型在准确度、敏感度、约登指数、阳性预测值、ROC曲线下面积均优于决策树模型[15-16]，这与相关研究结果一致。因此，本研究建议利用ANN模型结合人群的流行病学资料和临床症状判别肺癌高危人群，为肺癌的早期诊断早期治疗提供参考依据[17]。

本研究仍然存在一定的局限性：一方面，纳入的样本量较少，如果能收集更大样本量和多中心样本资料，样本数据将具有更好的代表性，模型将具有更优异的性能；另一方面，纳入的变量种类有限，而与肺癌相关的危险因素众多且对肺癌存在交互作用，如果能纳入环境因素、职业因素、遗传因素、行为生活方式等多种研究变量，模型将更为准确可靠。因此，我们建议未来的研究应涵盖更大的样本量，纳入更为丰富的研究变量进行综合分析，同时将ANN模型应用于肺癌高危人群中筛查验证。