中医证素研究中多元统计分析方法的应用解析*
2012-01-25茹淑瑛叶永安
茹淑瑛,江 锋,叶永安
中医证候是一个非线性的、多维多阶的复杂巨系统。近年来证候规范化研究表明[1],提取证素,寻找应证组合规律,建立以证候要素为核心的辨证新体系是证候规范化的有效途径。
随着医学研究不断深入,数据资料变得越来越复杂,虽有粗糙集、模糊集理论、神经网络和决策树等先进技术方法的运用,但仍处在探索阶段。由于自身的缺点和局限性,使研究均没有获得突破性进展。而传统的多元统计分析方法,可用于探讨高维数据的内在规律,是定量分析事物间复杂关系的一种综合的数理统计分析方法,可用于分析多个因素对结果的单独及联合作用,与中医证素研究较为切合。由于电子计算机的日益普及化,大型统计软件如SAS、SPSS的广泛流行,多元统计分析方法变得易于被研究者掌握,由于其算法比较成熟、统计结果易解释而被广泛应用于中医证素研究中[2]。以下是常见的多元统计分析方法及其在中医证素研究中的应用情况。
1 常见方法及其应用
1.1 聚类分析
事先不知道应将样品或指标分为几类,根据样品或变量的相似程度归组并类,属探索性分析。分为Q型聚类(样品聚类),是指将n个样品归类,找出样品间共性的分类方法;R型聚类(指标聚类)是指将m个指标归类,通过将指标降维从而选择有代表性的指标的方法。因其能将随机现象归类,已被广泛运用到中医证素研究中来。如李力等[3]对802例围绝经期综合征患者四诊信息采用聚类分析,成功提取了该病常见中医证候要素。陈婉珉等[4]亦在100例帕金森患者的基本证素及其分布规律研究中引入了聚类分析。
1.2 主成分分析和因子分析
主成分分析与因子分析均是寻求少数几个变量(或因子)来综合反映全部变量(或因子)的大部分信息,变量虽然比原始变量减少,但包含的信息量可占原始信息的85%以上,而且这些新变量彼此互不相关,消除了多重共线性[5],在证素研究中应用广泛。如胡起超等[6]根据主成分分析法提取183例老年性痴呆患者的12个公因子,得出老年性痴呆最常见的证候要素为阴虚、血虚、气虚、痰、火、血瘀;主要涉及脏腑为肾肝心脾。金香兰等[7]通过因子分析得出了高血压病的主要证候要素,说明采用因子分析法对高血压病进行证素研究是可行的。
1.3 判别分析与Logistic回归
判别分析利用原有的分类信息,得到体现这种分类的函数关系式,然后利用该函数去判断未知样品属于哪一类。经典的判别分析方法有费歇尔判别法和贝叶斯法等。Logistic回归是研究二分类观察结果与一些影响因素之间关系的一种多变量分析方法。上述两种分析方法均是根据判别对象若干个指标的观测结果判定其应属于哪一类的统计方法,在证素研究中也很常见。宋毅等[8]探索针刺干预缺血性中风病证候动态变化规律,并分析依据缺血性中风病辨证“决策树”的4个证型的贝叶斯判别函数式的辨证效果,提出精简后的判别函数式判别效能基本与精简前相同,具有临床应用价值。而Logistic回归多用于疾病危险因素的筛选和病因学分析。如杨朝阳等[9]用 Logistic回归分析得出阳虚、血热和顽痰是“毒瘾”复发的重要诱因。熊红萍等[10]对340例代谢综合征患者五脏证素和病性证素进行Logistic回归分析,得出当存在痰和阴虚的病理变化时,易患代谢综合征。
1.4 典型相关分析
典型相关分析是利用综合变量对之间的相关关系来反映2组指标之间的整体相关性的多元统计分析方法。其较以往的简单回归优势在于不必依赖于经验判断,将证素变量与客观指标看作2组变量,消除了证素判断主观性对结果的影响。目前在中医证素研究中应用此种方法者还不多见。刘华等[11]从脑积水17个证候要素与11个证候要素靶位,通过典型相关分析得出5对综合变量能反映原2组变量的信息,瘀在脑积水证候中占有较大的相关性,水与靶位多呈负相关,为该病的证候规范化研究提供了依据。
2 存在问题及解决方法
随着医学科学研究的不断深入,越来越多的多元统计分析方法被应用到中医证素研究中来。由于中医证素研究的复杂性和其他统计方法一样,任何一种多元统计分析方法单独运用,均会暴露出一定的问题,现解析如下。
聚类分析首先需凭借经验来确定合理的类别数即确定分成几类比较合适,其结果解释也需要密切结合专业知识,这就对研究结果的客观性造成某种程度的破坏;其次聚类前应对变量作预处理,剔除无效变量和缺失值过多的变量,从而造成其进一步分析的结果不能反映已舍弃变量的情况;再次聚类分析不能使同一指标在不同类中体现,而中医的一个症状可以在不同的证型中出现。这些都是聚类分析在中医证素研究中的不足。
主成分的个数确定依赖于累计贡献率大小,到底多大比例合适需具体问题具体分析,同样具有一定的主观性。而因子分析是建立在数据正态假设基础上,如果偏离正态假设,其结果可能并不可靠,同时用何种方法进行因子旋转,亦需根据专业意义来确定。
判别分析多建立于“历史经验”基础之上,样本的原始分类必须准确无误,否则得不到可靠的判别函数,判别分析中所用的样本资料视为总体的估计,所以要求样本要足够大,并有较好的代表性。Logistic回归分析对线性可分的样本不宜使用,所有统计都建立在大样本基础上,因此也要求有足够的样本含量。
基于上述问题,有研究者提出两种或几种统计方法的联合运用,这样既有助于消除不同统计方法的缺陷,又可以提高分析结果的可靠性。如运用主成分分析和因子分析对变量进行降维处理,消除证候指标间的共线性,然后采用判别分析和回归分析作进一步分析。我们课题组也试图对多中心大样本收集的临床数据在聚类研究基础上,初步确定证候要素类别,再采用因子分析对证候要素进行进一步探讨,得出载荷因子较大的症状来判定证候要素,以确定各个症状在证候中的贡献度以及证候要素之间的组合规律。
3 展望
多种统计分析方法的联合应用,虽然有助于对大量中医辨证信息的简化处理和其中潜在规律的挖掘,提高证素研究的可靠性、客观性,但由于证素具有“内实外虚”、“动态时空”、“多维界面”的特征[12],使研究结果仍然与临床实际难以完全吻合。中医学又是一门经验性很强的医学,完全脱离专家经验一味追求客观又容易与临床脱节,故有必要用专业知识判断、指导或修正数理统计结果。数理统计只是中医证素研究的一个中间环节,单纯从统计方法入手,证素研究似乎很难找到突破口。越来越多的研究表明,只有从大样本的临床数据入手,选择几种统计方法联合运用,结合专家经验,才能使证素研究获得实质性进展。于是我们课题组试图对前期“十五”攻关、“十一五”重大专项课题前瞻性、多中心调查收集的1003例慢性乙型肝炎四诊信息资料,通过聚类、因子分析对资料进行数据挖掘,初步取得慢乙肝证素特征,再通过德尔菲法三轮专家咨询修正、补充,以期最后明确该病证素诊断标准及应证组合规律,做到有史知识、专家决策、信息运算的整合,既保证研究结果的相对客观,又避免单纯数据挖掘导致部分结果与临床实际背离的现象。希望通过上述尝试能够加快中医证候规范化之路。
[1] 朱文锋,晏峻峰.证素辨证新体系的内容及科学意义[J].医学与哲学,2005,26(1):69-70.
[2] 华琳,闫岩,张建.多元统计学方法在医学资料分析中的应用[J].中国医学理论与实践,2006,16(1):21.
[3] 李力,王天芳.基于聚类分析的围绝经期综合征中医证候与证候要素的研究[J].中国中医基础医学杂志,2011,17(8):855-856.
[4] 陈婉珉,郑春叶,等.100例帕金森病患者中医证候要及证型分布规律[J].中医杂志,2011,52(3):214-217.
[5] 王芳.主成分分析与因子分析的异同比较及应用[J].统计教育,2003,(5):14.
[6] 胡起超,于涛,等.老年性痴呆中医证候及病因病机探析[J].陕西中医,2010,31(5):576-577.
[7] 金香兰,张允岭,等.运用因子分析探讨原发性高血压病证候要素[J].北京中医药大学学报,2011,34(2):131-134.
[8] 宋毅,裴建,等.针刺干预缺血性中风病证候动态化及相关研究[J].中西医结合学报,2009,7(4):334-341.
[9] 杨朝阳,李灿东,等.吸毒人群“毒瘾”复发的中医病理因素研究[J].中国药物依赖性杂志,2011,20(3):208-209.
[10] 熊红萍,李灿东,等.代谢综合征的中医易患因素[J].中华中医药杂志,2010,25(11):1858-1859.
[11] 刘华,雷春燕,等.脑积水证候要素与靶位的分析[J].中华中医药杂志,2011,26(4):792-795.
[12] 张志斌,王永炎,吕爱平.论证候要素及证候靶点应证组合辨证[J].中医杂志,2006,47(6):483-485.