APP下载

基于病人报告结局和决策树方法构建证候诊断工具的探索

2016-03-09郭晓慧华桂香向玉温泽淮

广州中医药大学学报 2016年4期
关键词:决策树证候医师

郭晓慧, 华桂香, 向玉, 温泽淮,2

(1.广州中医药大学第二附属医院,广东广州 510120;2.广州中医药大学DME中心,广东广州 510405)

基于病人报告结局和决策树方法构建证候诊断工具的探索

郭晓慧1,华桂香1,向玉1,温泽淮1,2

(1.广州中医药大学第二附属医院,广东广州510120;2.广州中医药大学DME中心,广东广州510405)

中成药的使用比例在综合医院和西医医院日益增多,其合理用药已成为备受关注的问题。西医师在使用中成药时可能难以进行准确的证候诊断,这将影响中成药的合理使用。因此,如果能提供一种易于操作又准确可靠的证候判断工具,在促进中成药合理用药方面将会有较大的实际应用价值。本研究以建立适用于西医师的证候诊断工具为目的,简述了证候研究的现状,分析病人报告结局(PROs)和决策树算法的特点,介绍基于PROs和决策树方法构建证候诊断工具的主要步骤。认为采用多种决策树算法将PROs采集的临床信息用于构建证候判断的决策树能为西医师提供一种方便操作的、具有实际应用价值的证候诊断辅助工具,这将为证候判断研究提供一种新思路、新方法,对构建其他证候判断辅助工具有示范意义。

证候诊断工具;病人报告结局(PROs);决策树

近20年来,在综合医院或西医医院,中成药占使用药品中的比例日益增高,其合理用药已成为备受关注的问题。中成药是在中医理论指导下,以中药材为原料,按照规定的处方、生产工艺和质量标准生产的制剂[1]。中成药的处方是根据中医理论针对某种病证制定的,因而使用时应依据中医理论辨证选药或辨病辨证结合进行选药[1]。尽管国家颁发了《中成药临床应用指导原则》,但由于受专业培训等方面的限制,西医师在使用中成药时可能难以准确地进行证候判断,影响了中成药的合理使用,甚至带来不良后果。因此,如何改善西医师证候判断的准确性将是提倡合理使用中成药的关键之一。除了增加西医师的中医知识、证候判断等培训外,如果能提供一种简便、易于操作又准确可靠的证候判断工具,在促进中成药合理用药方面将有较大的实际应用价值。以下拟对证候判断工具的研制提出设计思路和方法。

1 中医证候研究现状

中医证候研究源自20世纪80年代,其研究内容涉及各种疾病的证候分布规律、证候诊断标准的建立、证候的规范化、客观化和计量化等方面,并已经取得一定的共识和成果。至20世纪90年代中期,国家中医药管理局发布了《中医病证诊断疗效标准》、《中医临床诊疗术语国家标准(证候部分)》和《中华人民共和国国家标准——中医病证分类与代码(GB/T15657-1995)》等,这些标准对中医证候研究起了较大的促进和规范作用。但这些标准的操作性欠佳,或者在一定程度上存在与临床脱节的问题,使其应用和推广受到限制,也罕有研究者在临床上对其进行科学验证,并且从20世纪90年代建立至今未有修订。随着现代科技的不断进步和信息交流的日益增加,中医证候研究吸引了众多不同学科人员参与,包括生物学、化学、数学、统计学等诸多方面的人才,促进了证候学研究的发展。基于证候研究的复杂性和存在问题,许多学者采用各种方法,包括病例回顾调查[2-3]、文献计量学方法[4-5]、专家共识方法[6]、临床观察与分析[7-9]、量表评测[10-1]、数学模型[12-14]和数据挖掘[15-17]等,探索证候标准和辨证分类,这为证候研究建立了多种可行的方法。积极应用交叉学科方法,为证候研究尤其是证候诊断研究方法的建立提供了可行性。

2 构建证候判断工具的总体思路

上述诸多证候判断方法是基于中医理论为临床医师研制的,也即是这些方法适合于中医临床医师使用,但缺乏中医学背景的西医师较难使用以上方法。故对于西医师而言,有必要使用适合于他们知识背景和经验的中医证候判断工具。基于这一目的和使用者的知识背景,需要建立一种简便、准确可靠的证候判断工具,而且操作上不依赖于中医理论和技能。可考虑的方法就是应用病人报告结局(patient-reported outcomes,PROs)测量技术在中医理论指导下采集患者信息,再利用决策树方法构建、形成此类证候判断工具。参照相关技术规范和以往研究,提出以下初步研究设计思路和方法。

3 基于PROs和决策树方法构建证候诊断工具

研究设计可分为2个步骤,即建立PROs采集工具和利用该工具采集的数据进行决策树构建,其后选择最具诊断价值的成熟决策树作为证候判断工具。

3.1建立PROs信息采集工具PROs是直接来自患者的关于自身健康状况和治疗结局的自我报告,是一种没有医师或其他人影响而进行的患者自身对疾病或健康状况临床结局的测量[18]。多数学者认为,PROs不仅包括生活质量和健康状况,也包括患者对治疗措施的满意度、治疗依从性以及其他通过各种方式询问患者获得的结局评价信息[19-20],是一组通过询问病人的症状、可知觉的体征、感觉或体验而获得的相关独立的测量指标,至少包括3个方面信息:患者自我观察结果、主观症状和生存质量[21-22]。自20世纪80年代至今,全世界已研制超过690套PROs测量工具[23],并被广泛应用于临床。

由于医师专业水平和经验的不同,在证候判断中可能存在信息收集的差异,从而影响其判断的准确性。如果直接采用患者自我报告的临床信息和某些客观资料,医师将不会因中医专业知识的不足或差异而影响症状、体征等信息的采集进而影响证候判断的准确性。建立PROs信息采集工具可保证患者报告的临床信息的规范、准确和可靠。

鉴于PROs易于测量和由患者自我报告的特点,这有可能跨越中西医界限而成为中医师、西医师可以共同使用的临床信息获取工具。对于西医师而言,将其应用于证候判断将更为易用和方便,能使西医师获得可靠、准确的临床信息,从而有利于证候的准确判断。已有学者做出尝试,利用PROs制定不明原因慢性咳嗽患者报告临床结局中医证候量表,用于该病患者的证候判断[10]。

本课题组初定选择慢性肾病患者为对象,参照美国食品药物管理局关于用于医药产品研发中PROs测量的研究指南,以国际通用的PROs研究程序构建该病PROs信息采集工具,采集患者信息。其步骤包括:(1)结合相关证候研究文献和专家咨询讨论,建立包括患者报告的症状、可感知体征的测量条目池;(2)通过专业分析和统计学方法适当筛选条目,形成测量工具初步版本;(3)该初步版本在一定数量患者人群中进行预测,经过心理测量学方法考评,在重测信度、效度等方面符合要求。根据考评结果,做出适当修改,最终可形成PROs信息采集工具。

3.2构建中医证候诊断决策树医生对某一疾病(有时也患有多种疾病)患者多个证候做出诊断,实际上是对多个证候做出分类判别的过程。因而,证候诊断过程可以用分类判别的数学模型加以拟合。随着数据挖掘、人工智能技术的发展,计量诊断算法已由简单的Bayes概率法发展到多元统计分析、关联规则、粗糙集理论、人工神经网络、决策树、Bayesian网络、信息熵、支持向量机等多种方法。目前尚无证据说明哪种方法更准确,但从临床实际应用出发选择符合数据特征和证候分类特性的方法是一种可行的策略。基于PROs信息的有序分类数据特征、多种疾病证候分类的复杂性以及中医理论的特殊性,采用决策树(decision tree)方法构建证候诊断工具具有明显的优势。

决策树方法是解决实际应用中分类问题的数据挖掘方法之一,属于机器学习方法的范畴,学习速度快,分类耗时短,效率高[24]。决策树是现今发展最为成熟的一种概念学习方法,其算法(algorithm)是在Hunt E B等提出的概念学习系统(concept learning system,CLS)基础上发展而来的[25]。1979年在信息统计理论基础上提出了用于处理离散属性的迭代二歧分支树三代算法(iterative dichotomiser 3,ID3),这是最早提出的一种较为完善的决策树算法[26]。1975年和1984年又分别有学者提出CHAID(Chi-squared automatic interaction detection)[25]和 CART(classification and regression tree)算法。其后经历了 1986年 Schlimmer等的ID4算法[27]、1988年Utgoff的ID5R算法[28]、1993 年Quinlan的C4.5/C5.0算法[29]的多次发展和改进。随着数据挖掘技术的发展,还陆续出现了SLIQ、SPRINT等一些较新的算法[26,30]。目前,ID3、C4.5/ C5.0仍是决策树算法中最著名也是应用得最广泛的两类算法。综合而言,决策树方法应用于证候分类判断不需要任何统计上的假设,而是直接从决策问题所涉及的因素和决策的结果出发,可以得到更符合实际情况的证候分类判断结果。这一方法对复杂因素的处理能力很强,更容易形成简化的决策过程。

以下研究设计思路和方法以本课题组选择的慢性肾病患者为例。

3.2.1构建训练样本集、验证样本集和测试样本集各个样本集的病例来自医院肾病科病房和门诊的前瞻性连续性观察的慢性肾病患者。预先制定诊断标准、纳入标准和排除标准,病例纳入研究应符合入选条件。前瞻性观察病例的50%用于构建训练样本集,其他各25%用于构建验证和测试样本集。应用上述构建的PROs信息采集工具收集每例患者的PROs信息和其他相关临床资料,同时由各组临床专家对验证样本集的每例观察病例做出辨证以便作为参考标准。验证、测试2个样本集互为测试和验证,采用交叉验证法对构建的决策树进行验证和测试。

3.2.2成立中医临床专家组由医院肾病科3~5名主治医师以上高年资医生组成,进行必要的统一培训,掌握辨证程序和方法,测试组内专家辨证的一致性评测指标Kappa值需达到0.8以上,专家组辨证结果将作为证候诊断的分类标准。专家组将对全部病例的25%进行辨证,该部分病例构成验证样本集,用于验证决策树的准确性。

3.2.3样本量估算决策树算法的样本量估计没有可靠方法,一般结合变量、分类数目、研究精度和准确性而定。根据张爽等的研究报告[31],样点数目逐渐上升到350之前,分类精度呈缓慢上升;随着样点数量继续上升,获得的规则数和分类精度均表现出大幅度的上升,C5.0算法决策树学习得到的规则数量在分类样点数为350时达到最大值,总分类精度达到最高。

3.2.4构建初步的决策树选择应用ID3、C4.5、C5.0、CART、CHAID、QUEST、SPRINT等决策树算法对训练样本集PROs信息和各个变量进行运算,使用增益比率Grain_ratio(x)来构建初步的决策树。使用SAS、SPSS软件对数据进行缺失值、转换等预处理,此后可借鉴中医专业知识、各属性间的逻辑关系来帮助确定决策树的初步结构,根据证候分类数目对内部节点的分类属性、单变量、多变量以及分类属性的位置等做出选择和限制。

3.2.5验证与剪枝初步决策树构建完成之后,采用已有的验证样本集(临床专家辨证结果)和测试集对决策树进行验证和测试。期间,如果发现过度拟合的状况,则应根据情况选择多种可行的剪枝(pruning)方法对决策树实施后剪枝(post-pruning)。验证和测试样本集交叉进行验证测试,选择设定一个不纯度下降差阈值的分支停止规则,结合剪枝方法进行决策树修剪,直至验证通过。

3.2.6结构的确定及优化策略优化目的在于提高准确性和运算速度。对决策树的初步结构进行适当的优化,使用Chi2算法处理连续性数据的离散化,基于属性相关性的属性约简算法处理数值型属性,结合上述的剪枝过程,从而得到更加简明准确的成熟决策树。对初步和成熟的决策树进行诊断性试验评价,计算其敏感度、特异度、阳性预测值、阳性似然比及曲线下面积(ROC)等,以评价其诊断价值,选择最具诊断价值的成熟决策树作为最后确定的决策树。

4 讨论

辨证论治是中医学的基本特点之一,而证候是其重要依据。尽管随着中医学和科学技术的发展,数学、流行病学等多学科方法被应用于中医证候研究中,但仍处于探索阶段,本研究所拟思路也是如此。

决策树方法对于问题的分类是基于逻辑,而不像传统统计分类模型一样基于样本统计属性,故其分类结果简单、明确、结构直观,适用于较大规模的数据集研究[25]。与神经网络、贝叶斯分类、关联规则等方法相比,决策树更容易理解,对数据高维属性、分类标识和缺失值有较好的稳健性,同时可处理数值型、两分类、多分类和有序分类数据,获得的分类易于表达和应用,并可生成一些易于理解的规则,为决策提供依据[25,32]。正如易静等[33]的研究发现,对比于Logistic回归模型,CHAID决策树模型在乳腺癌高位淋巴结转移判别诊断中的准确性和可靠性有明显优势;钟颖等[32]在慢性胃炎中虚气滞证诊断的研究中发现,决策树方法也明显优于关联规则。

决策树具有精度高、分类模式简单、分类规则易于提取与表达等优点,在表述辨证规则、提供辨证依据方面有着明显优势,适合作为中医证候诊断研究的主要技术方法。对于其不足,如过度拟合、执行效率不高等,可结合多种算法互补不足,或在不断的应用中改进算法。决策树方法已被应用于证候研究方面,其效果甚为理想。例如,史琦等[34]利用决策树模型进行冠心病不稳定型患者血瘀证的识别,归纳诊断规律;陈潇雨等[35]将决策树方法应用于慢性乙型肝炎的中医证候分类,可行性较好;李治等[36]采用C4.5算法建立了急性加重期慢性阻塞性肺疾病辨证分型决策树模型,为该病的中医证候学研究提供有价值的参考依据。因此,将决策树方法应用于证候判断工具的建立应该是有效和可行的。

PROs测量技术采集的患者临床信息易于被西医师理解和使用,采用多种决策树算法将PROs采集的临床信息用于构建慢性肾病患者证候判断的决策树,将为西医师提供一种方便操作的、具有实际应用价值的证候诊断辅助工具,也将为其他疾病证候判断研究提供一种新思路、新方法,对构建其他证候判断辅助工具有参考意义。

[1]卫生部,国家中医药管理局.中成药临床应用指导原则[S]. 2010.

[2]张清梅,陈泽奇,刘英哲,等.1490例2型糖尿病临床辨证分型调查分析[J].湖南中医学院学报,2004,24(5):33.

[3]麻晓慧,王泓午,何裕民.胆病症状学聚类研究[J].中国中医基础医学杂志,2000,6(12):59.

[4]魏华凤,季光,邢练军.脂肪肝辨证分型规律的初步研究[J].辽宁中医杂志,2002,29(I1):655.

[5]陈家旭,陈青红,徐洪雁,等.肝郁证候宏观辨证标准的文献计量学研究[J].北京中医药大学学报,2004,27(7):1.

[6]赖世隆,杨小波,温泽淮,等.证候宏观诊断标准基本框架的探讨[J].中国中西医结合杂志,2005,25(6):552.

[7]陈泽奇,胡随瑜,张海男,等.抑郁症常见中医证候标准的研究[J].中医杂志,2005,24(1):47.

[8]梁伟雄,温泽淮,欧爱华,等.中风病急性期中医证候多元分析[J].广州中医药大学学报,1998,15(4):293.

[9]吴大嵘,梁伟雄,温泽淮,等.建立中风病血瘀证宏观辨证量化标准的方法探讨[J].广州中医药大学学报,1999,16(4):249.

[10]张天嵩,唐斌擎,张素,等.基于不明原因慢性咳嗽患者报告临床结局中医证候量表的编制与考评[J].辽宁中医药大学学报,2010,12(8):113.

[11]刘凤斌,郝元涛,刘小玲,等.用于电脑专家诊断系统的脾胃病辨证量表的评价[J].中山医科大学学报,2002,23(5):401.

[12]刘莺,朱文锋,卢芳国.152例胃癌患者术前病证聚类与主成分分析[J].江苏中医药,2004,25(6):20.

[13]张琴,张文形,魏建军,等.公因子和聚类分析联合在肝炎后肝硬化证候分类研究中的应用[J].中西医结合学报,2005,3(1):14.

[14]张琴,刘平,章浩伟.900例肝炎后肝硬化中医证候判别模式的研究[J].中国中西医结合杂志,2006,26(8):694.

[15]杨小波,粱兆晖,张钢,等.基于粗糙集理论的溃疡性结肠炎中医主症分析[J].辽宁中医杂志,2008,35(5):687.

[16]胡雪琴,周昌乐,张志枫,等.基于数据预处理的贝叶斯网络在中医证候诊断中的应用[J].辽宁中医杂志,2007,34 (12):1700.

[17]高怀林,吴以岭,贾振华,等.熵聚堆方法在中医证候研究中的应用[J].南京中医药大学学报,2008,24(1):18.

[18]刘保延.患者报告结局的测量:原理、方法与应用[M].北京:人民卫生出版社,2011:4.

[19]Acquadro C,Berzon R,Dubois D,et a1.Incorporating the patient’s perspective into drug development and communication:An Ad Hoc Task Force Report of the Patient-Reported Outcomes (PRO)Harmonization Group Meeting at the Food and Drug Administration,February l6,2001[J].Value Health,2003,6 (5):522.

[20]Doward L C,McKenna S P.Defining patient-reported outcomes [J].Value Health,2004,7(Suppl 1):S4.

[21]Hufford M R,Shiffman S.Assessment methods for patient reported outcomes[J].Disease Management&Health Outcomes,2003,11(2):77.

[22]Hufford M R,Shiffman S,Paty J,et al.Ecological momentary assessment:real world,real-time measurement of patient experience[M].Seattle(WA):Hogrefe&Huber Publishers,2001:69-92.

[23]Emery M P,Perrier L L,Acquadro C.Patient-reported outcome and quality of life instruments database(PROQOLID):frequently asked questions[J].Health Qual Life Outcomes,2005,3:12.

[24]Huang S C,Dong Y S.Fast decision tree construction on streaming data[J].Chinese Journal of Electronics,2006,15(4):643.

[25]徐蕾,贺佳,孟虹,等.决策树技术及其在医学中的应用[J].数理医药学杂志,2004,17(2):161.

[26]张华成.基于SLIQ决策树算法的研究[J].现代计算机,2009 (10):54.

[27]Schlimmer J C,Fisher D.A case study of incremental concept induction.In:Proceedings of the Fifth National Conference on Artificial Intelligence[C].Philadelphia,PA:Morgan Kaufmann,1986:496.

[28]Utgoff P E.Incremental induction of decision trees[J].Mach Learn,1989,4(2):161.

[29]Quinlan J R.Improved use of continuous attributes in C4.5[J].J Artif Intell Res,1996,4(1):77.

[30]魏红宁.基于SPRINT方法的并行决策树分类研究[J].计算机应用,2005,25(1):39.

[31]张爽,刘雪华,靳强.决策树学习方法应用于生境景观分类[J].清华大学学报(自然科学版),2006,46(9):1564.

[32]钟颖,胡雪蕾,陆建峰.基于关联规则和决策树的中医胃炎诊断分析[J].中国中医药信息杂志,2008,15(8):97.

[33]易静,苏新良,王润华.决策树在乳腺癌高位淋巴结转移判别诊断中的应用[J].重庆医科大学学报,2009,34(5):606.

[34]史琦,陈建新,赵慧辉,等.冠心病病人血瘀证的决策树模型研究[J].中西医结合心脑血管病杂志,2013,11(8):897.

[35]陈潇雨,马利庄,胡义扬.基于决策树方法的慢性乙型肝炎中医证候分类[J].上海中医药大学学报,2013,27(1):40.

[36]李治,李国琳.AECOPD中医辨证分型决策树模型[J].长春工业大学学报(自然科学版),2013,34(3):296.

【责任编辑:贺小英】

R241

A

1007-3213(2016)04-0588-04

10.13359/j.cnki.gzxbtcm.2016.04.033

2016-01-14

郭晓慧(1988-),女,在读硕士研究生;E-mail:423200034@qq.com

温泽淮(1965-),男,博士研究生导师;E-mail:wenzh@gzucm.edu.cn

广东省中医院科研专项课题(编号:YK2013BIN05)

猜你喜欢

决策树证候医师
肥胖中医证候动物模型研究进展
中国医师节
韩医师的中医缘
一种针对不均衡数据集的SVM决策树算法
决策树和随机森林方法在管理决策中的应用
基于决策树的出租车乘客出行目的识别
医师为什么不满意?
昆明地区儿童OSAHS中医证候聚类分析
基于肺癌CT的决策树模型在肺癌诊断中的应用
80位医师获第九届中国医师奖