基于决策树和人工神经网络的小儿肺炎痰热闭肺证诊断模型研究＊

2020-04-19宫文浩兰天莹莫清莲戴启刚陈莎莎唐子西刘悠江

世界科学技术-中医药现代化 2020年7期

宫文浩，兰天莹，莫清莲，杨燕，戴启刚，陈莎莎，唐子西，刘悠江，艾军＊＊

（1. 广西中医药大学基础医学院南宁 530200；2. 广西中医药大学壮医药学院南宁 530200；3. 首都医科大学附属北京儿童医院北京 100045；4. 南京中医药大学附属医院南京 210023；5. 南宁市邕宁区人民医院南宁530200）

小儿肺炎(pneumonia)是儿科常见的肺系疾病之一, 以气喘、咳嗽、咯痰痰鸣、发热为主要特征[1]。其发病率逐年上升，是发展中国家5 岁以下儿童死亡的主要原因。本病属中医“肺炎喘嗽”、“风温”范畴，运用中医药治疗疗效确切，其中痰热闭肺证是最常见证型。笔者运用数据挖掘技术开展小儿肺炎郁热辨证及卫气营血辨证的证候基础研究，本证也为最重要证型。因此，探索运用决策树和人工神经网络方法建立本病证诊断模型，有益于相关研究的深入。

中医辨证的思维过程与数据挖掘极其相似。决策树和人工神经网络模型作为数据挖掘中机器学习模型，可以充分模拟中医思维，在证候分类与决策中应用最为广泛且准确率较高[2-4]。本研究将收集大样本、多中心小儿肺炎临床病例，运用CRT、CHAID、QUEST、C5.0决策树方法和多层感知器（MLP）、径向基函数（RBF）算法的人工神经网络等数据挖掘方法，对小儿肺炎痰热闭肺证四诊信息进行分析，旨在建立小儿肺炎的痰热闭肺证诊断模型，规范小儿肺炎辨证论治，为中医客观化、标准化提供客观依据。

1 资料与方法

1.1 一般资料

2017 年 1 月-2018 年 12 月间在首都医科大学附属北京儿童医院、南京中医药大学附属医院、广西中医药大学第一附属医院共3家医院收集确诊为小儿肺炎的病例，共计 918 例（北京 329 例、南京360 例、广西229例）。所有患儿均签署知情同意书。其中男性513例（55.3%），女性405例（44.1%）。男女比例为1.26：1。

1.2 诊断标准

西医诊断标准：参照《诸福棠实用儿科学》[5]第8版制订。中医辨病辨证标准：符合中华中医药学会儿科分会《小儿肺炎喘嗽中医诊疗指南》[1]内肺炎喘嗽的痰热闭肺证辨证标准。

1.3 纳入和排除标准

纳入标准：(1)符合西医诊断标准及中医辨病辨证标准;(2)年龄在1-15 周岁;(3)住院患者;患儿法定监护人知情同意受试。

排除标准：(1)心力衰竭、呼吸衰竭、中毒性脑病、渗出性胸膜炎等合并症者;(2)合并有心、肝、肾和造血系统等严重原发性疾病，精神病患者；(3)观察资料不全而影响评估者。

1.4 证型分布

依据《小儿肺炎喘嗽中医诊疗指南》中痰热闭肺证的辨证标准，由2 名具有正高级职称的中医儿科专家进行辨证分型判断。纳入的小儿肺炎病例共计918例。其中痰热闭肺证436 例，非痰热闭肺证482 例（包括风热闭肺证214 例，毒热闭肺证132 例，阴虚肺热证91例，肺脾气虚证45例）。

1.5 数据预处理

应用Microsoft Office Excel 2019 软件将临床收集的患儿病例的基本信息、四诊信息和辨证分型信息进行整理，建立数据库。采取双人双机独立录入，减少信息误差。中医症状术语规范均参照《中医症状鉴别诊断学》[6]。清洗和剔除无效数据以及病历记录不全者。对于症状描述出现者赋值为1，不出现者赋值为0。对所有的四诊信息作频数频率统计，按照从高到低排序结果，剔除频率小于10%的四诊信息。最终筛选出17个四诊信息作为证候因子纳入模型中。

1.6 数据挖掘模型建立及验证

经预处理后，将赋值后筛选的918 例小儿肺炎的数据库导入到SPSS Moderler 18.0，设定17个四诊信息为自变量，“是否为痰热闭肺证”为因变量，采用CRT、C5.0、CHAID 和QUEST 算法的决策树以及多层感知器（MLP）和径向基函数（RBF）算法的人工神经网络的方法建立数据挖掘模型，分析痰热闭肺证的诊断规律。并对最终的模型进行测试集验证。

2 结果

2.1 证候要素频率分析结果

通过应用R 语言对小儿肺炎痰热闭肺证的所有四诊信息进行频率分析，发现其中出现频率最高的依次是咳嗽（98.6%）、舌红（66.3%）、发热（61.9%）、痰色黄（57.6%）、苔黄腻（47.9%）、痰多粘稠（47.5%）等（见图1）。最终筛选频率大于10%的四诊信息共17项并纳入到决策树和人工神经网络模型中。

2.2 小儿肺炎痰热闭肺证CRT决策树模型

通过运用CRT算法的决策树对918例小儿肺炎进行建模分析，结果显示树模型深度为1，形成2个节点，终结点1 个。筛选出痰多粘稠属性为符合决策树规则。得出的判别规则为若“痰多粘稠=是”，则判断为“痰热闭肺证”。其中训练样本的准确率为83.06%。测试样本的准确率为78.13%。见图2。

2.3 小儿肺炎痰热闭肺证CHAID决策树模型

运用CHAID 算法的决策树模型对纳入的918 例小儿肺炎进行建模，卡方方法为Pearson相关系数。结果显示树模型深度为5，共产生10 个节点，终结点6个。共筛选出痰多粘稠、苔黄、痰色黄、舌红、咳嗽等属性符合决策树规则。判别规则为：若“痰多粘稠=是”、“苔黄=否”且“痰色黄=是”偏向于诊断痰热闭肺证。10 倍交叉验证中训练样本为准确率为90.98%。测试集的准确率为85.87%。见图3。

2.4 小儿肺炎痰热闭肺证QUEST决策树模型

运用QUEST算法的决策树模型对纳入的918例小儿肺炎进行分析，结果显示树模型深度为2，共产生4个节点，终结点3个。共筛选出痰多粘稠、苔黄等属性符合决策树规则。判别规则为：若“痰多粘稠=是”且“苔黄=否”偏向于诊断痰热闭肺证。其中训练样本为准确率为89.5%。测试集的准确率为85.07%。见图4。

2.5 小儿肺炎痰热闭肺证C5.0决策树模型

图2 CRT算法决策树模型示意图

运用C5.0算法的决策树模型对纳入的918例小儿肺炎进行分析，结果显示树模型深度为11，共产生19个节点，终结为12个。共筛选出痰多粘稠、苔黄、痰色黄、咳嗽、脉滑等属性符合决策树规则。判别规则为：①若“痰多粘稠=是”、“苔黄=否”、“痰色黄=是”，则判断为痰热闭肺证。②若“痰多粘稠=是”、“苔黄=否”、“痰色黄=否”、“咳嗽=是”且“脉滑=是”偏向于诊断痰热闭肺证。③若“痰多粘稠=是”、“苔黄=否”、“痰色黄=否”、“咳嗽=是”、“脉滑=否”、“呕吐=否”、“鼻塞=否”且“指纹紫滞=是”，判断为痰热闭肺证。其中训练样本为准确率为93.19%。测试集的准确率为90.93%。见图5。

2.6 基于MLP 算法人工神经网络的小儿肺炎痰热闭肺证诊断模型

运用MLP算法的人工神经网络对导入的筛选的17项自变量小儿肺炎数据库进行建模分析。结果显示训练样本的正确率为92.08%，测试数据集的正确率为91.2%。生成的神经网络模型中，隐藏层共含有7个神经元。见图6。其中小儿肺炎痰热闭肺证证候因子中占权重相对较高的有：痰多粘稠（24.8%）、痰色黄（18.5%）、苔黄（14.6%）、脉滑（7.5%）、咳嗽（6.1%）、呕吐（5.8%）、鼻塞（4.0%）、指纹紫滞（3.6%）。见表1。

表1 基于MLP算法人工神经网络的小儿肺炎痰热闭肺证输入变量重要性

图3 CHAID算法决策树模型示意图

图4 QUEST算法决策树模型示意图

2.7 基于RBF 算法人工神经网络的小儿肺炎痰热闭肺证诊断模型

运用基于RBF 算法的人工神经网络对导入的小儿肺炎的筛选的17 个自变量数据库进行建模分析。结果显示训练样本的正确率为90.75%，测试数据集的正确率为85.33%。生成的神经网络模型中，隐藏层共含有8 个神经元。见图7。其中小儿肺炎痰热闭肺证证候因子中占权重相对较高的有：痰多粘稠（22.4%）、痰色黄（13.0%）、苔黄（10.4%）、脉滑（6.4%）。见表2。

表2 基于RBF算法人工神经网络的小儿肺炎痰热闭肺证输入变量重要性

3 讨论

决策树是机器学习中的预测模型。它主要建立决策树节点，并且根据字段的不同值来建立分支[7]。最终生成的规则可视化，便于理解其内部的规则。CHAID 算法（卡方自动交互检测法）原理是根据结果变量的对样本的结果变量进行最优分割，采用卡方检验的结果进行分组判断[8]。QUEST（Quick, Unbiased,Efficient,Statistical Tree）,是一种用于构建决策树的二元分类法[9]。算法可以使分支变量和分割点的选择分开进行，兼顾适用于同时使用连续型的变量和离散型的变量的特点。C5.0决策树是从ID3和C4.5算法衍生出来的。作为C4.5 的商业版本，C5.0 改善了生成规则和算法精度，实现更准确的生成规则，更快的速度和更低的错误率，它更适合于对大型数据集进行分类[10]。多层感知器（Multiple-Layer Perceptron，MLP）利用通用函数逼近器来对局部特征进行提取。它也是一个深度学习模型，与卷积神经网络相同，均可采用反向传播训练[11]。径向基函数(Radial Basis Function,RBF)能够逼近任意的非线性函数，学习收敛速度快，各方面均优于BP神经网络[12]。

本研究中，采用四种算法建立的小儿肺炎痰热闭肺证诊断决策树模型均有较高的预测准确性。并且通过决策树模型可视化可以直观的展现决策的过程。CRT、CHAID、QUEST、C5.0 的预测准确性分别为83.1%、91.0%、89.5%、93.2%。其中C5.0 算法的决策树判断准确率高于其他三种算法，为小儿肺炎痰热闭肺证最佳诊断模型。通过决策树共筛选出6～12 个判断规则的证候因子，其中痰多粘稠、痰色黄、脉滑、咳嗽、指纹淡紫在决策树中起决定性作用。并生成了2条最可信的判断规则为：①若“痰多粘稠=是”、“苔薄黄=否”且“痰色黄=是”，则诊断为痰热闭肺证；②若“痰多粘稠=是”、“苔黄=否”、“痰色黄=否”、“咳嗽=是”、“脉滑=否”、“呕吐=否”、“鼻塞=否”且“指纹紫滞=是”，判断为痰热闭肺证。本研究还运用了MLP 和RBF 的神经网络对小儿肺炎进行训练建模，并对输入的证候因子的权重进行分析。显示痰多粘稠、痰色黄、苔薄黄、脉滑、咳嗽等证候因子重要性最高。通过对训练和测试样本准确率来看，MLP 算法的神经网络要优于RBF 算法的神经网络，可被优先用于小儿肺炎痰热闭肺证的辅助诊断。其中“痰多粘稠”、“痰色黄”为两个模型共同筛选出可信度比较高的两个证候因子。

图5 C5.0算法决策树模型示意图

图6 MLP算法神经网络示意图

郑惠伯教授[13]用“痰、热、闭”概括了小儿肺炎的基本病机。汪教授[14]进一步将小儿肺炎概括为“热、郁、痰、瘀”。提出了治疗应从清热、解郁、涤痰、化瘀等几个方面进行。艾军教授[15]运用了关联规则的数据挖掘方法，对收集的480例小儿肺炎进行运算，分析得到小儿肺炎痰热闭肺证中痰相关病机比风热犯肺证关联度高。本研究运用决策树和神经网络方法对小儿肺炎痰热闭肺证数据集建模，发现痰热闭肺证中痰多粘稠、痰色黄、脉滑、咳嗽、指纹紫滞相关证候因子在证候中起决定因素。说明痰热闭肺证包含“热”、“痰”、“瘀”的基本病机。“痰”病机在其中占到了首位，与中医辨证理论相符合。其次，痰色黄、脉滑说明痰热闭肺证中包含的“热”病机仅次于“痰”病机。但由于收集小儿肺炎的病例中痰热闭肺证的病情较为轻浅，导致“瘀”相关的病机在模型中所占比重降低。

图7 RBF算法神经网络示意图

综上所述，通过运用决策树和神经网络的数据挖掘方法对小儿肺炎痰热闭肺证分析，建立小儿肺炎痰热闭肺证的诊断模型，更加直观、清晰地找到小儿肺炎痰热闭肺证的诊断辨证规则。C5.0 算法的决策树模型和MLP 神经网络模型为小儿肺炎痰热闭肺证诊断的最优模型。从中提取的痰多粘稠、痰色黄、脉滑、指纹紫滞等属性在痰热闭肺证的诊断规则中起决定性作用。“痰”、“热”病机为小儿肺炎痰热闭肺证的主要病机，与中医辨证理论相符。通过建模分析，本研究证明了运用机器学习的数据挖掘方法来建立中医诊断模型的可行性，为中医临床辨证提供客观依据。但是仍需纳入大样本、多层次的数据进行研究，将结论在临床中加以检验和验证。并结合西医的诊断指标以及生物标志物，丰富诊断模型的适用范围。