多元统计学方法在中医证候分类识别中的应用及展望
2015-05-30徐玮斐等
徐玮斐等
摘要:中医证候标准化、客观化、规范化研究,是现今继承发展中医的重点、难点和热点问题。随着计算机技术发展和多学科融合交叉的广泛应用,探索中医证候分类识别研究的方法层出不穷。本文就多元统计学方法在中医证候分类识别中的应用现状予以分析,总结了聚类分析、主成分分析和因子分析、判别分析和Logistic回归分析及结构方程模型在证候分类识别中的应用现状及存在的问题,为进一步研究中医证候分类识别方法提供一定参考。
关键词:多元统计方法;中医;证候;综述
DOI:10.3969/j.issn.1005-5304.2015.08.039
中图分类号:R2-05;R228 文献标识码:A 文章编号:1005-5304(2015)08-0124-05
Application and Prospect of Multivariate Statistical Analysis in TCM Syndrome Classification XU Wei-fei, LIU Guo-ping, WANG Yi-qin (Shanghai University of Traditional Chinese Medicine, Shanghai 201203, China)
Abstract:Standardization, objectification, and normalization of TCM syndromes are emphasis, difficulty, and hot issue of inheritance and development of TCM. With the technological development of computer and extensive application of multi-disciplinary integration, research methods for the identification of TCM syndrome classification emerge in endlessly. This article analyzed the application status of multivariate statistical analysis in the identification of TCM symdrome classification, summarized application status and existing problems of cluster analysis, PCA and factor analysis, discriminant analysis and Logistic regression analysis, and structure equation model in the identification of TCM symdrome classification, which provided references for further studies on identification methods of TCM symdrome classification.
Key words:multivariate statistical analysis;TCM;syndrome;review
中医的精髓是辨证论治。辨证,是将四诊收集到的资料、症状和体征,通过分析、综合,辨清疾病的原因、性质、部位及邪正关系,将之概括、判断为某种性质的证的过程;论治,是依据辨证结果确定施治的手段和方法。辨证的准确与否决定临床治疗是否有效。为使中医辨证论治这一指导疾病治疗的原则获得更广泛的接纳与认可,目前对中医四诊的客观化和规范化研究方兴未艾。其中,依据辨证经验,确立中医证候诊断标准的研究更成为中医继承创新发展的热点。近年来,随着计算机技术的发展和多学科融合交叉广泛应用于中医证候诊断的研究,多种现代方法的应用
基金项目:国家自然科学基金(81270050、81173199、30901897)
通讯作者:刘国萍,E-mail:13564133728@163.com
探索层出不穷。其中,多元统计学方法凭借其长期经验、相对成熟的算法和容易解释的统计结果,被广泛用于中医证候分类的研究中。兹就多元统计学方法在中医证候分类识别中的应用现状综述如下。
1 聚类分析
聚类分析又称集群分析,是研究“物以类聚”的一种数理统计方法[1]250。在数据中发现不同的对象及其相互关系的信息,并将对象按不同类别进行分组,目的是使组内对象相互之间是相似的(相关的),而不同组之间的对象是不同的(不相关的);组内的相似性越大,组间差别越大,聚类效果越好。聚类可看作一种分类,它用类(簇)标号创建对象的标记,不需要“先验”知识,属于非监督分类。因此,这种分析方法具有较好的科学性和客观性,在中医证候规范化、客观化研究中应用甚广。在中医证候分类研究中,可依据个体症状差异分析每一个类别个体的共同特征,最后结合专业知识将其归属为某一类别;亦有用指标聚类的方法对症状等指标进行归类[2]。聚类分析可分为3种:系统聚类法、快速聚类法和对变量的聚类,其中以系统聚类和对变量的聚类的方法应用为多。
1.1 系统聚类法
系统聚类法主要用于对大量样品的合理分类。因为没有参考依据,所以采用距离统计量作为分类的依据。基本思路是:①定义样品间距离及类与类之间的距离;②将距离最近的两类合并;③计算新类与其他的距离,将最近的两类合并;④重复“③”至所有的样品都能合并为一类,停止[1]266。类与类之间的距离有不同的定义方法,因而产生不同的算法,最后也就有不同的聚类结果。故在实际应用时,可以实践多种方法,再依据专业指导,选择较为合理的分类结果。
马氏等[3]应用系统聚类对261例抗结核药物导致药物性肝损害患者的临床四诊资料进行分析,结果发现5类常见证型:湿邪困脾、肝气郁滞、脾胃虚弱、瘀毒内结和气阴两虚。这为临床研究抗结核药物导致的肝损害患者的辨证分型提供了较好的参照。司氏等[4]对80例食管鳞癌患者的病例资料进行系统聚类分析,以探讨食管鳞癌的中医证候规律。采用系统聚类方法绘制树状图,结果发现聚为痰气交阻证、气虚阳微证、津亏热结证、瘀血内结证4类时,较为符合临床实际,且以痰气交阻证为多见,为中医辨证食管鳞癌提供了依据。刘氏等[5]基于系统聚类方法对70例退行性膝骨关节病的中医证型分布进行研究,发现退行性膝骨关节病大致可分为肝肾亏虚、风寒湿痹、气滞血瘀3类证型,其中肝肾亏虚兼风寒湿痹是基本证型。这使退行性膝骨关节病的证候分型有了新的参照。
1.2 对变量的聚类
当需要对变量(指标)进行归类时,可用对变量的聚类方法,把相关性大的指标聚在一起。其过程主要有4步:①将变量初步分为K类;②计算各类的“代表”;③计算各变量与K个“代表”所在类的相似程度,形成新的K类;④重复“②”和“③”,直到符合要求则停止[1]287-292。
何氏等[6]对143例冠心病经皮冠状动脉介入(PCI)术后患者的症状、体征、舌象、脉象等77个变量进行聚类分析,发现聚为6类时变量信息的分散性较好,基本符合临床实践;并据专家意见将这6类分别命名为气虚痰浊证、肾虚血瘀证、肝气郁结证、脾气亏虚证、心气亏虚证和气阴两虚证。这为临床中诊断PCI术后中医证候分类提供了参考。张氏等[7]使用对变量的聚类方法结合专家意见将350例肺癌分为痰浊阻肺、气虚、肝郁化火和瘀血阻络4种证型,为肺癌的中医临床诊断提供了一定参考。张氏等[8]对风湿性关节炎(RA)活动期中医证候进行对变量的聚类分类研究,并结合专家意见,将RA活动期患者分别命名为邪郁壅络证、痰瘀互结证、湿热痹阻证和气虚血瘀证4型,可为RA活动期中医证候分型诊断提供参考。张氏等[9]对163例强直性脊柱炎活动期患者的临床资料进行对变量的聚类分析,发现聚为4类时四诊信息证型分布清晰;并结合专家意见将证候命名为湿热痹阻证、邪郁化热证、肝肾亏虚证和痰浊瘀阻证4类,提高了强直性脊柱炎中医辨证诊断的客观性、规范性与准确性,可为临床提供更好的指导。
聚类方法可以很容易根据不同类别之间的“相似度”或“相异度”加以区分,但并不能从多方位、多层次、多角度全面分析中医症状与证候之间复杂、非线性、多维的结构关系。因此,聚类方法在中医证候研究中属于辅助手段,只能观察特征,而缺乏对结果的度量[10]。
2 主成分分析
主成分分析可将多指标或变量资料通过降维转换为单指标或变量资料,主要目的在于实现资料的精简和线性转换,使主成分数量少于原变量,并保留大部分信息。
主成分分析单独应用于中医证候分类研究中较少,目前多与其他分析方法综合运用。具体步骤有:①数据标准化处理。使每个变量均值为0,方差为1;②使总体的协方差矩阵和其相关系数相等;③计算样本相关矩阵R,求R的特征值与特征向量;④选择主成分,计算贡献率。李氏等[11]对收集的慢性疲劳综合征气虚证患者25例和血虚证患者23例进行主成分分析,并采用相关分析与传统中医辨证相比较,发现气虚证和血虚证的症状主从成分与传统中医辨证结果基本一致。丁氏等[12]综合利用主成分分析和因子分析探讨了104例酒精性肝纤维化的中医证候分类特点,发现临床常见证型有6个:类肝郁脾虚证、类湿热蕴结证、类瘀血阻络证、类气虚血瘀证、类肝肾阴虚证、类阳虚血瘀证,为酒精性肝纤维化的中医辨证规范提供参考。樊氏等[13]对143例阳痿患者四诊信息结合主成分分析和因子分析研究证候分类情况,发现可分为肾阴虚、肝气郁结、肾阳虚、湿热下注、心脾两虚、瘀血阻滞6个证型,与临床实际较一致。
尽管主成分分析可通过降维解决中医证候多指标问题,还可建立症状和证候成分之间的权重关系,但并不能很好解释指标间(变量间)的关系,也无法考虑到被舍弃的变量反映的情况。若通过将主成分分析和因子分析结合,则可以实现反映全部变量中大部分变量的信息[14]。
3 因子分析
因子分析是在主成分分析的基础上构建若干意义较明确的公因子,用以分解原变量,观察原变量之间的内在联系与区别。
因子分析可分为探索性因子分析和证实性因子分析。探索性因子分析有助于建立新的假设或理论,而证实性因子分析是在已有假设或理论的基础上,利用因子进行检验。在中医研究领域,有证候的探索性因子分析和证候的证实性因子分析。这两种方法对中医证候分类研究都具有一定的作用。其基本步骤有:①数据预处理,消除变量的不一致;②求得标准化数据的相关矩阵;③求相关矩阵的特征值和特征向量;④利用旋转方法使因子变量更具可解释性;⑤计算因子变量得分。
陈氏等[15]对521名亚健康状态大学生的问卷调查结果进行探索性因子分析,总结出其证候可分为6类:气滞血瘀证、肝气郁结证、湿热证、阳虚证、气血亏虚证及阴虚证,认为探索性因子分析方法可在以问诊为基础的症状上对证型进行客观化分类,可揭示大学生亚健康状态的中医证型特征。李氏等[16]对收集到的112例超早期脑梗死患者的四诊资料进行探索性因子分析,得到其中医证候可分为4类:气虚血瘀证、热结腑实证、肝肾阴虚证和风痰阻络证。认为通过探索性因子分析一定程度上能更好了解超早期脑梗死的中医证型特点。李氏等[17]对随机调查得到的739例高血压病患者详细四诊资料进行证实性因子分析,发现根据五因子分析结果排序的结果最好,分别为肝肾阴虚、阴虚阳亢、肝阳上亢、痰郁气虚和痰浊壅盛5个证型。这为临床指导高血压病的辨证分型提供了较有价值的参考。史氏等[18]对随机调查的430例支气管哮喘患者四诊信息进行证实性因子分析,发现六因子分析结果与临床实际较为一致,可分为寒饮伏肺证、痰热蕴肺证、风痰阻肺证、肺肾气虚证、脾气不足证6个证型。
因子分析亦可以通过降维来消除证候的多元共性问题,但其建立依赖于假设数据属于正态分布,故存在一定主观性。且需要进行重复性试验以证实因子分析结果的意义。
4 判别分析
判别分析是用以明确个体所属类别的一种分类技术,根据观测到的指标对研究对象进行分类。通过判别分析还可估计各项指标对判断的作用大小。一般通过建立判别函数对训练样本不断学习规则,得以实现判别分析。
判别分析依据判别的函数形式,可分为线性和非线性判别;依据判别式处理变量的不同方法,可分为逐步判别和序贯判别等;依据判别的标准不同,可分为距离判别、Fisher判别等。其中,用于中医证候分类识别研究较多的方法为逐步判别分析法。该法通过对疾病现有的中医证型进行分析,建立研究疾病相关的判别函数,再将获得的判别函数回代入样本中进行验证。判别分析的目的就是对样本资料进行学习,得到判断类别的规则,再进行多方面的考核。
吴氏等[19]以518例肠易激综合征患者的症状为变量,运用逐步判别分析法建立已确定的7个证型的Bayes判别函数,确立肝郁脾虚证、脾肾阳虚证、脾胃虚弱证、肝郁气滞证、脾胃湿热证、肠燥津伤证和寒湿困脾证7个证型,回顾性误判45例(8.7%),交叉验证误判89例(17.2%)。指出该法能筛选出有用性指标,使判别函数的结果稳定可靠,还可以对肠易激综合征的证候作出客观化诊断。黄氏等[20]对76例已辨证分型的难治性癫痫病患者的变量进行逐步判别分析,建立Bayes判别函数,确立出肝郁痰凝证、肾虚精亏证、心脾两虚证和气滞血瘀证4个证型,并将数据进行逐一回代和切刀法回代判别分析,发现前者误判率为0.00%,后者误判率为14.73%,理论判别与实际资料较为吻合,具有显著的判别效果。聂氏等[21]对312例已进行标准辨证分型(5型)的慢性肾功能衰竭患者的指标进行判别分析,建立Fisher判别函数,获得脾肾气虚型、气阴两虚型和脾肾阳虚型4个证型。因原有样本较少,所以未能建立肝肾阴虚型的判别函数。对20例患者的资料进行判别分析,发现符合率为60%,效果一般。因此建议以该研究为切入点和桥梁,获取更多慢性肾功能衰竭的样本,使该病辨证得以标准化、客观化。
判别分析对样本的质量要求极高,而且样本的数目也必须足够多;另外,该分析方式本身就是建立在以往辨证分型的基础上,具有很多主观性、验证性的成分,所以,这种建立函数的方法所得到的结果并不能直接作为客观化标准。
5 Logistic回归分析
在线性模型中因变量属于连续随机且要求属于正态分布,而医学研究中常有因变量的取值只有2个(如是否发病),这种二分类的变量需要用Logistic回归进行分析。
Logistic回归分析属于非线性分析方法,多用于证候分类识别中医症状主次的研究,为证候分型提供依据,故常与其他数理统计学方法合用,以确定中医证候分型。
李氏等[22]对1036例消化性溃疡(PU)患者的四诊资料进行研究,先用聚类分析归纳PU的基本证候群,再用主成分分析法分析出PU的特异性症状指标,接着应用多元Logistic回归分析模型筛选出PU的主次症状,最后拟定出脾胃虚寒证、肝胃气滞证、瘀阻胃络证、胃热炽盛证、胃阴亏虚证共5种基本证型的辨证分型标准,并认为该研究思路有助于提高证候分类识别标准研究的客观性、科学性。陈氏等[23]将808例胃脘疼痛患者的病例资料通过样本聚类分为4类,结合Logistic回归分析对该4类患者的证候特征按OR值大小进行量化,结合专业知识将胃脘痛分为脾胃虚寒证、胃热阴伤证、脾胃湿热证、肝胃郁热证4型。这种将聚类和Logistic回归分析结合的方法对中医证候量化诊断研究有一定帮助。孔氏等[24]收集886例我国北方地区心脑合病患者的四诊资料,用频数分析和卡方检验进行血压与中医证型之间关系的研究,用Logistic回归分析、判别分析及ROC曲线法等研究血压与症状间关系,发现高血压在心脑合病中医证型分布最多的有痰瘀阻络证、风痰阻络证、痰浊中阻证和肝阳上亢证4型。
Logistic回归分析方法充分考虑了每一个变量对证的贡献度,但不适用于线性资料的研究,且需要大量样本的支持。
6 结构方程模型
结构方程模型是处理多个原因、多个结果的关系和不可直接观测的变量(潜变量)的一种多元统计方法。中医的证候多属于潜变量,通过症状等外显指标可以对潜变量进行间接测量。目前用于中医证候分类识别研究的主要方法多为潜在类别模型,它是利用结构方程和因子分析等分析方式相结合,建立在概率分布原理和对数线性模型基础上的一种潜变量分析方式[25]。
袁氏等[26]运用方证对应模式,通过因子分析和建立结构方程模型实现对1105例高血压病患者的中医基础证、特异证和选方用药的研究,发现高血压患者基础证为阴虚阳亢,特异证有肝肾阴虚证、肝火亢盛证、痰浊壅盛证、心肾两虚证和肝郁伤神证5型。周氏等[25]利用潜在类别模型对737例肝炎患者病例资料的中医证候进行辨证分型,发现可分为肝肾阴虚证、湿阻脾胃证、湿热中阻证、肝郁脾虚证和肝郁气滞证5型。李氏等[27]建立结构方程模型,对202例慢性萎缩性胃炎的患者进行中医辨证分型,通过对潜变量与症状指标之间的关系比较,归纳出肝胃不和证、脾胃虚弱证、脾胃湿热证和胃阴不足证4个常见证型。但因样本数量有限,未能分析出胃络瘀血证这一常见证型。
这种潜在类别模型综合了结构方程和对数线性模型的思维,既可用于探索性研究,也可用作验证性研究。但因临床收集资料具有局限性,样本容量不够大等,并不能完全显示出中医临床辨证规律。
7 问题与展望
多元统计学方法的广泛应用,推进了中医证候诊断研究标准化、客观化的步伐,其结果在一定程度上指导了中医疾病的辨证分型。但是,多元统计学方法在应用上仍存在几个关键问题:①采用方法种类多,结果不一致,尚未形成统一的标准;②样本数量少、质量低,建立相关模型的可重复性差;③仍存在很多主观因素,对研究结果有一定的影响;④尚有许多具体的研究结果与临床实践结果存在较大差异。
为更好克服以上问题,通过对近年文献的研究,笔者认为,多种统计学方法的综合应用,对中医证候分类识别的客观化研究更为有效。如有学者先利用聚类分析归纳出疾病的中医证候群,接着用主成分分析方法找出疾病常见症状的指标,再用多元Logistic回归模型筛选出疾病的主次症状,最后总结出疾病的证型与辨证标准。采用这种多元统计方法综合运用的模式,对中医乙肝后肝硬化[28]和消化性溃疡[22]进行辨证分型,均得到了较为客观、科学的研究结果。这种多方法综合应用的思维,通过取长补短,可相得益彰,提高研究的准确性,为中医证候客观化研究提供有效的思路与方法。
关于样本数量与质量的问题,则需要进一步规范诊断用语,病例资料采集时要求尽量完整,或可通过建立系统的电子病历,解决许多数据的预处理问题。最后,仍需收集大量的样本资料进行重复性试验研究,博采众长,以建立更好的分析模型,并将之运用于临床实践,检验其效益,才能更好地推动中医证候分类识别的客观化研究。
参考文献:
[1] 方积乾.医学统计学与电脑实验[M].上海:上海科学技术出版社, 2012.
[2] 李国春,王均琴,刘德麟,等.中医证候规范和测量的多元统计学方法研究进展[J].辽宁中医杂志,2013,40(1):2394-2396.
[3] 马国玲,崔岩飞,韩颖.抗结核药物导致药物性肝损害的中医证候学聚类分析[J].中华中医药学刊,2014,32(2):320-322.
[4] 司富春,岳静宇.食管鳞癌的中医证候聚类分析[J].中医杂志,2012, 53(22):1944-1947.
[5] 刘渊,牛维.退行性膝骨关节病中医辨证分型的聚类分析[J].中国组织工程研究与临床康复,2010,14(33):6184-6187.
[6] 何庆勇,王阶.基于聚类分析的冠心病介入术后中医证候分类及诊断[J].中医杂志,2008,49(10):918-921.
[7] 张月,张培彤,赵冰.基于聚类分析的肺癌中医证候分类及诊断的研究[J].北京中医药大学学报,2009,32(2):132-135.
[8] 张良登,何庆勇,赵艳,等.基于聚类分析的类风湿性关节炎活动期中医证候分类及其诊断研究[J].中国中医药信息杂志,2009,16(7):16-18.
[9] 张吉,张良登,张月,等.强直性脊柱炎活动期中医证候分类及其诊断研究[J].中华中医药学刊,2010,28(10):2027-2029.
[10] 龚燕冰,倪青,王永炎.中医证候研究的现代方法学评述(一)——中医证候数据挖掘技术[J].北京中医药大学学报,2006,29(12):797-801.
[11] 李宗信,黄小波,陈文强,等.慢性疲劳综合征中医证候主成分的相关分析[J].中国中医药信息杂志,2007,14(1):26-27.
[12] 丁霞,刘关颖,李晓林.酒精性肝纤维化中医证候学研究[J].中华中医药杂志,2009,24(10):1358-1360.
[13] 樊千,薛建国.阳痿中医分型证候标准量化研究[J].江苏中医药, 2010,42(10):28-29.
[14] 查青林,林色奇,吕爱平,等.多元统计分析在中医证候研究中的应用探析[J].江西中医学院学报,2004,16(6):79-80.
[15] 陈文锋,陈群,莫传伟.采用因子分析法对广州地区大学生亚健康状态进行中医证候分类的初步研究[J].广州中医药大学学报,2007,24(4):329-331.
[16] 李得民,李淑芳,刘金民.采用因子分析法对超早期脑梗死进行中医证候分类的初步研究[J].吉林中医药,2010,30(11):956-958.
[17] 李莲静,陈晓虎.高血压病中医四诊信息CFA分型研究[J].江苏中医药,2008,40(2):26-27.
[18] 史锁芳,刘秀芳,严志林.支气管哮喘患者中医四诊信息调查及验证性因子分析[J].中西医结合学报,2005,3(5):363-365.
[19] 吴皓萌,徐志伟,敖海清,等.肠易激综合征的中医证候判别分析[J].广东医学,2014,35(5):765-767.
[20] 黄小波,张国君,王晓飞.难治性癫痫中医证候的判别分析[J].中华中医药杂志,2012,27(12):3072-3076.
[21] 聂峰,许靖,马辕华.慢性肾功能衰竭中医辨证的量化研究[J].中国中医药信息杂志,2007,14(2):23-25.
[22] 李毅,张小平,刘艳.基于多元统计分析对消化性溃疡中医辨证标准的研究[J].时珍国医国药,2011,22(4):1031-1033.
[23] 陈建设,陈文垲.聚类分析结合Logistic回归分析在中医证候诊断量化研究中的应用探讨[J].中国卫生统计,2009,26(4):379-382.
[24] 孔德昭,张哲,王建华,等.心脑合病血压与中医证型及中医四诊症状间的关系[J].中华中医药学刊,2013,31(11):2409-2413.
[25] 周涛,赵枫朝,陶丽新,等.肝炎中医辨证分型研究中潜在类别模型的应用[J].中国预防医学杂志,2013,14(9):646-649.
[26] 袁野,申春悌.1105例高血压病方证对应的临床数据挖掘研究[J].江苏中医药,2013,45(5):12-13.
[27] 李国春,李春婷,黄蓝洋,等.结构方程模型在慢性萎缩性胃炎中医证候分型中的应用[J].中国卫生统计,2007,24(4):357-360.
[28] 李毅,刘艳,寇小娜.基于多元统计方法对乙肝后硬化辨证标准的研究[J].中医药导报,2012,18(7):7-10.
(收稿日期:2014-09-02)
(修回日期:2014-09-14;编辑:梅智胜)