基于深度学习的慢性阻塞性肺病与哮喘-慢性阻塞性肺疾病重叠分类

2019-08-01许飞飞俊2宋亚男2菲3谢惠敏4陈广飞

中华医学图书情报杂志 2019年2期

许飞飞，应俊2，宋亚男2，齐菲3，谢惠敏4，陈广飞

慢性阻塞性肺病(Chronic Obstructive Pulmonary Disease，COPD)和哮喘类阻塞性气道疾病(Obliterative Airway Disease，OAD)是造成严重疾病负担和影响生活质量的常见慢性肺病。尽管COPD和哮喘在炎症模式、免疫机制和气流阻塞的可逆性程度不同，但仍有大量COPD和哮喘患者表现出相似的临床症状。哮喘通常表现为间歇性和可逆性的气道阻塞，而COPD则是进行性和不可逆转的。COPD和哮喘合并症称为哮喘-慢性阻塞性肺疾病重叠(asthma-COPD overlap，ACO)，其发病率随着年龄增长而升高[1]。因此，ACO的诊断和治疗变得尤其重要[2]。与单纯患有慢性阻塞性肺炎或哮喘的患者相比，哮喘-慢性阻塞性肺疾病重叠患者急性发作更频繁，生活质量更差，肺功能下降更快，死亡率更高，医疗成本更高[3]。慢阻肺、哮喘及ACO均为异质性疾病，在病因、病理改变及临床表现存在较多相似之处。Soriano认为[4]，COPD和哮喘之所以难以区分，是因为某些症状只是疾病发展过程中的一部分，存在较多相似特征，而且没有判定相应治疗措施与预后是否一致的标准，因此如何辨别ACO与单纯患有COPD是呼吸科研究的热点。虽然研究表明，COPD与哮喘-慢性阻塞性肺疾病重叠在肺功能、临床特征、肺活量测定、胸部CT扫描、6MWD、SGRQ等特征上存在统计学差异，但是以上特征不能单独作为哮喘-慢性阻塞性肺疾病重叠与COPD患者分类的依据。

本文假设在原有的临床特征中存在与疾病诊断相关的潜在关联，这种潜在关联可以建立一个稳健的模型来提供计算机化的临床决策支持。深度学习方法可以发现高维数据潜在的相关性，深度信念网络(Deep Belief Networks,DBNs)是深度学习方法中最成功的一种结构，其良好的特征提取能力在影像和语音识别中均得到很好的体现[5-6]。DBNs是一种高度复杂的非线性特征提取器，其隐藏单元的每一层都能从原始输入数据中学习并捕获更高级的特征[7]。因此，本文利用大量的临床数据样本，使用DBNs算法和支持向量机算法构建COPD和ACO的鉴别诊断模型，为临床诊断提供参考。

1 数据与方法

1.1 数据来源

本文研究数据来自美国国家心脏、肺与血液研究机构(NHLBI)建设的COPDGene数据库。根据给定的数据将研究对象分为单纯COPD组(2 919例)和哮喘-慢性阻塞性肺疾病重叠组(1 116例)。参与研究受试者的数据项总计为361项，包括人口信息学、病史、临床评估量表、检验、体格检查等[8]。

1.2 研究方法

本研究使用的COPDGene数据集包含361项特征，除去数据缺失较大的特征后剩余320项特征。使用10折交叉验证(10FCV)的方法将数据集随机分成10份，其中90%作为训练样本，10%作为预测样本。为提高模型对疾病分类的准确性，使用Fisher评分法对特征进行选择，即计算特征的Fisher评分值来表示特征对分类结果敏感程度[9]。根据评分值由高到低选择4个特征子集，分别是评分值前320、240、120、80个的特征子集，根据模型的准确率来选择合适的特征子集。研究方法主要有以下2个数学模型。

一个是支持向量机模型(SVM)。支持向量机是基于不同核的一种机器学习算法。本研究使用了线性核(SVM-linear)、多项式核(SVM-polynomial)、径向基函数核(SVM-radial basis function)和sigmoid核(SVM-sigmoid)4种核，根据模型分类准确率和ROC曲线2个评价指标选择适合的核构建支持向量机模型。

另一个是深度信念网络模型(DBNs)。深度信念网络是深度学习中最常见的一种架构。对于一个实际问题，为找到合适结构的DBNs，需要确定隐藏层层数和每一隐藏层节点的数量，可见层节点数量等同于输入特征数量。本文构建了3个结构不同的3层DBNs，隐藏层节点数分别为50-50、100-50及100-100，根据模型分类准确率选择合适的结构构建DBNs模型。

2 结果与分析

2.1 特征选择和模型参数选择

特征选择后，DBNs模型分类准确率结果如表1所示。使用Fisher评分值的前160个特征作为DBNs模型的输入所得的准确率最高，因此选用这160个特征作为SVM模型和DBNs模型的输入特征。图1是3种隐藏单元结构的DBNs模型在不同迭代次数下2种疾病的分类准确率，显示不同结构的DBNs模型的分类准确率，50-50隐藏单元结构的DBNs模型准确率高于100-50和100-100，因此选择50-50隐藏单元结构构建最终的DBNs模型。

表1 特征选择后DBNs模型的准确率

图1 不同结构隐藏单元的DBNs模型在不同迭代次数下COPD和ACO分类准确率

2.2 模型构建结果

使用训练样本构建支持向量机模型和深度信念网络模型，通过预测样本计算模型的准确率、灵敏度(表示预测样本中COPD被划分对的比例)和特异度(表示预测样本中ACO被划分对的比例)，见表2，得到ROC曲线(图2)。从表2看出，DNBs准确率最高(为93.56%)，4种不同核的支持向量机算法准确率均未达到90%。在预测样本中，COPD识别率(Sensitive)最高为DBNs模型(95.21%)，而SVM模型最高为89.73%，ACO识别率(Specificity)最高仍为DBNs模型(89.29%)，对应SVM模型最高为74.11%。图2显示了5个模型受试者工作特征曲线(ROC)，DBNs模型的ROC曲线最靠近左上角并且完全处于4种不同核的支持向量机模型ROC曲线之上，说明DBNs模型分类性能要高于支持向量机模型。

表2 DBNs和4种不同核的SVM的分类准确率、灵敏度和特异度

图2 DBNs和4种核的SVM的ROC曲线

2.3 特征重要性排序

COPDGene数据库包含了研究受试者在临床、生理学、影像学、生物学等多方面的数据。从DBNs模型中计算出敏感度前10的特征，它们来自COPDGene数据库5个不同的量表，分别是吸烟状态量表、CT影响结果量表、临床诊断量表、健康状态量表和肺功能量表。10个特征包括5类指标，其中1个属于吸烟状态(Duration_Smoking)，3个属于CT影像结果(TLC_CT,Slicer_IntensityMean_Ex,Vida_15perc_Exp)，2个属于临床诊断(BronchDxByDr,SleepApStillHav)，2个属于健康状态(distwalked,SF36_PF_t_score)，还有2个属于肺功能(pre_FEV1,pre_FVC)。应用统计分析的方法，分类变量用Pearson x2检验，数值型变量用t检验，10个特征在COPD和ACO中有明显的统计学差异，p值小于0.05。通过假设检验，发现这10个敏感特征存在不同的分布。

表3 COPD与ACO分类前10个相对重要特征的分布

3 讨论

本文首次使用DBNs提出了一种ACO与COPD鉴别诊断的新方法，并且与支持向量机模型在准确率、灵敏度、特异度和ROC曲线上进行了比较。结果显示，DBNs模型的分类性要好于支持向量机模型，证明DBNs模型能从数据集中学习到本质特征。与传统的危险因素分析临床意义不同，DBNs模型预测变量的重要性大小反映的是对应指标在区分这2种疾病时对模型的贡献程度，即排序越靠前的预测变量就越有助于使用模型来区分这2种疾病。

在机器学习和数据挖掘的众多应用中会遇到高维数据的问题，常见的方法是用降维来选择最敏感的特征[10-11]。高维增加了数据处理的时间和空间要求，基于存在不相关或冗余的特征，学习方法往往会过度拟合，模型变得难以解释。选择本文中的320个特征中Fisher评分较高的特征作为DBNs模型的输入向量，结果表明，使用Fisher评分筛选特征后建立的DBNs模型能获得更高的准确率。

高水平的多元特征可能与疾病的某些特点有关，并且可以使用这些特征建立一个复杂的数据驱动模型对疾病进行分类。本文构建的参数最优化的DBNs模型找到的敏感因素与临床先验知识保持了一定的一致性。在评价本文的优缺点时，将DBNs与SVM进行了比较。对于这个二分类问题，DBNs的准确率高达93.56%，灵敏度高达95.21%，特异度为89.29%；而4种典型支持向量机模型的最高准确率为85.40%，灵敏度最高为89.73%，特异度为74.11%，说明相比于支持向量机这个传统机器学习模型，DBNs具有更好的分类能力。

本文利用DBNs模型确定与COPD疾病有关的敏感特征。DBNs模型输出的预测重要性前10的变量包括受试者的CT影像结果、临床诊断、健康状态、吸烟情况以及肺功能，这些特征与COPD和ACO的病因密切相关[12-15]，说明DBNs模型发现的敏感特征与目前ACO临床诊断的主要因素是一致的。此外，描述性分析结果表明，COPD与ACO在前10个敏感特征上存在统计学差异。通过DBNs模型提取的特征可以有效区分这2种症状相似的疾病。本文确定的前10个敏感特征指出内科医生在对COPD或ACO患者进行诊断时，不仅要考虑生化检查、实验室检查和影像数据，还要考虑流行病学因素、健康状况甚至个人习惯。

4 结语

研究结果表明，使用肺功能、疾病状况、人口统计学数据和健康状况数据多种类型的特征建立的深度信念网络模型可以有效区分COPD和ACO。与COPD和ACO分类相关的敏感特征与临床诊断策略具有较好的一致性，有助于更好地了解成人慢性阻塞性肺病和哮喘-慢性阻塞性肺疾病重叠的病因和症状。由于COPD和ACO在治疗方法和发病率及死亡率方面都不同，所以这2种疾病的鉴别诊断十分重要。借助深度学习方法，COPD和ACO的预防及个体化治疗可以提高患者的生活质量和潜在生存率。本文建立的DBNs模型能够实现较高的判断准确率，表明深度学习模型有望成为诊断决策的辅助工具。