中医证候规范化研究中无监督方法探讨
2016-03-24张世君齐冬梅李运伦聂文婷朱丽娟
张世君,齐冬梅*,李运伦,2,聂文婷,朱丽娟
(1.山东中医药大学,济南 250355;2.山东中医药大学附属医院 高血压国家中医临床研究基地,济南 250014)
论著
中医证候规范化研究中无监督方法探讨
张世君1,齐冬梅1*,李运伦1,2,聂文婷1,朱丽娟1
(1.山东中医药大学,济南 250355;2.山东中医药大学附属医院 高血压国家中医临床研究基地,济南 250014)
摘要:中医证候规范化研究应用的方法主要包括有监督数据分析方法和无监督数据分析方法,中医证候规范化研究中常见的无监督数据分析方法主要包括多维尺度分析、主成分分析、因子分析、聚类分析、关联规则、隐结构模型、结构方程模型和信息熵,不同的无监督数据分析方法根据不同的分析思想和原理,解释的症状关系的方向不同,反映不同的问题。在进行中医证候的规范化研究中需要注意严格控制数据质量,选择合适的分析方法,并由专业研究人员对数据结果进行提炼和诠释。
关键词:中医证候;规范化研究;无监督数据分析方法;分类
中医证候体系是一个繁琐的非线性系统[1],因具有大量非量化的数据变量,从而区别于其他观测数据[2]。此种特点提示了在进行中医证候研究时,在单纯应用线性的、单一化的统计分析方法的基础之上,需特别重视非量化数据的分析处理。近年来,许多学者对证候研究进行了深入探讨,但始终没有取得重大突破,随着现代科学技术的发展,多学科的交叉渗透,信息技术的不断改革、更新,为中医证候的规范化进一步的深入研究提供了技术支撑。尽管中医证候规范化研究的分析方法日趋增多,仍未找到完全适合中医证候复杂化特点的特异性研究方法[3]。
目前常用中医证候规范化研究的数据分析方法分为两类,即无监督方法(unsupervised method)和有监督方法(supervised method)[4]:无监督方法[5]是通过将含有相似特征的原始数据信息分门别类,再经可视化技术进行直观展现,以进一步探索未知数据特征的研究方法;有监督方法[5]则是依据已有知识体系创建信息组,并通过信息组对未知数据的特征进行辨识、归类和预测。中医临床四诊信息存在多维度、相互关联广泛、个体化强、主观性高等特点,数据分析的结果是对症状的组合,而证候规范化研究的目标是建立证候的辨证标准,二者间尚存在一个提炼、转化、诠释的过程[6]。相较之下,无监督方法的分析原理及方法角度更符合当前证候研究需要[4],故此进行专题探讨以满足证候研究的需要。
1中医证候规范化研究中常见的无监督数据分析方法
常见的中医证候规范化研究的无监督数据分析方法主要有以下几种[6-9]:多维尺度分析、主成分分析和因子分析、聚类分析、关联规则、隐结构模型、结构方程模型、信息熵等。
1.1多维尺度分析多维尺度分析(multidimensional scaling)[10]是通过对研究对象在一个低维空间形象表示出的多相似性或距离进行聚类或唯独内含分析,并用图示表达的一种方法。各症状在二维平面图中分布特点可以通过多维尺度分析进行形象的描述,根据症状二维分布的欧氏型距离阵,为辨证分析提供一定的数据分析依据。
1.2主成分分析与因子分析主成分分析(principal components analysis)是运用降维思想分析多个数值变量之间的相互关系,将多个变量/指标化为几个不相关的综合变量/指标的统计方法[11],以便对数据进行精简及诠释。因子分析(factor analysis)则是探索多个原始变量/指标的相关关系之间的潜在变量,以阐释原始变量/指标间的相关性或协方差关系的多元统计分析方法[11]。
上述两种分析方法之间虽有密切联系[12-13],均可以对证候进行降维分析,从而消除证候的多元共线性,但两者各有所偏重:主成分分析是综合原始变量的信息,重在讨论原始变量的信息;因子分析是解释原始变量(公因子与特殊因子的线性组合)之间的关系,重在研究原始变量之间的关系,此外,主成分分析能够准确得出各主成分的得分,而因子分析只能估计各公因子得分。
1.3聚类分析聚类分析(clustering analysis)又称集群分析,是对尚未明确分类方法的数据信息,尝试依靠数理统计寻找适用于现有集资料中研究对象的一种归类方法[14]。该方法利用研究个体/变量之间的亲疏关系,通过尽可能降低类间相似性,并提高类内相似性,以达到聚集数据成类的目的[15],在对已按相似程度分为几大类别的基础之上,再将各大类中关系相近的对象聚合成一个较小的分类单位,直至将所有的对象都聚合完毕,从而形成一个由小到大的聚类系统,并用谱系图的形式直观展现所有对象的亲疏关系。
1.4关联规则关联是指两个或两个以上变量之间存在的一定的潜在的规律,关联分析则是由数据库中找出表或属性间隐藏的关联网,在此基础上,依靠关联规则(association rule)寻找数据库中一组事物之间的某种相互关联的关系,进而揭示一个事物与其他事物之间的存在的关联性和相互依存性,由于中医证候数据库数据繁琐,可采用关联规则寻找相关联的数据,对未知问题进行推理分析[16],从而根据某类症状同步出现频率,反映某种证型规律[17]。
1.5隐结构模型隐结构模型(latent structure models)根据某病的流行病学调查资料,将收集到的患者的症状或体征信息进行量化处理,利用隐结构模型分析数据,以挖掘症状或体征的同步出现规律,并依据同组数据同步出现频率的高低划分数据,每组划分分别反映患者在该病情某侧面的客观分布情况。
1.6结构方程模型结构方程模型(structural equation model)是利用引入潜在变量,通过估计、检验因果关系模型,以此探讨多个抽象变量间因果结构关系的研究方法[18]。结构方程模型能够分析隐变量与显变量、隐变量与隐变量之间可能存在的因果关系[19],是分析隐变量的有力工具。
1.7信息熵信息熵(information entropy)作为信息论中对“不确定性”的一种度量指标[20],是根据信息熵的关联度进行基于熵的复杂系统分化方法。因本法无需对数据作刚性先行分割,而是遵循数据的内在联系进行自主聚类,是信息论中有关熵方法及熵语言在非线性相关模式识别领域的应用形式。
2无监督分析方法在中医证候研究中的应用
2.1多维尺度分析研究者利用多维尺度分析所得的症状二维空间距离分类图,描述性地将变量或样本进行分类,可对隐藏在原始数据背后的维度做出相应的判断,多维尺度分析仅作为对数据形象描述的工具,其分类、结果尚需与其他数据分析的结果进行比较讨论[6]。周萍等[21]采用频数分析法对古代情志心身疾病医案数据库开展研究,利用多维尺度分析对使用频次大于50次以上的54种药物进行分析,总结了心身疾病的用药特点。陈涛等[22]荟萃4 400例当代名医医案,分析其中有关舌象、脉象的分布频数,挖掘出如霉酱苔最多见于情志病等数据信息以指导临床诊疗。
2.2主成分分析和因子分析在中医证候研究的实践中,主成分分析多作为一种中间手段用于数据预处理,随后再配合其他统计方法深入分析。王佳笑等[23]运用因子分析法探索2型糖尿病合并高血压病的证候要素主要有阴虚、阳虚、气虚、热盛、阳亢、血瘀、痰湿等7个基本证候要素,为中医的客观化研究提供了有效途径。刘玥等[24]运用因子分析法对脑梗死后认知障碍患者症状进行分析,得出脑梗死后认知障碍的中医证候要素为阴虚、阳虚、气虚、火、痰、血瘀。
2.3聚类分析因聚类分析可在缺少先验知识的前提下对数据资料分类,故此种方法对研究中医证候的症状组合规律及证候规律等具有一定的推动作用。卢焯明等[25]为分析广州地区106例儿童中间型β地中海贫血患者情况,通过观察表收集信息,运用聚类分析等研究方法,发现此类患儿的中医证候分布特点以气血两虚证为最多,其余为肝肾阴虚证、脾肾阳虚证、阴阳两虚证。李毅等[26]运用系统聚类法,分析乙肝后肝硬化的症状、体征,得出湿热内蕴证、脾虚湿盛证、血瘀证、脾肾阳虚证、气(阳)虚证、肝肾阴虚证、肝郁脾虚证等7类基本证候。
2.4关联规则关联规则主要应用于探讨多因素对特定疾病症状的影响规律以及研究中医的“证“与疾病诊断的关系。黄文金等[27]采用数据挖掘中的关联规则的Apriori算法对证素之间、证素及证候之间进行关联规则,发现证素之间有9条规则,证候和证素之间有25条诊断关联规则,为中医儿科临床诊疗提供参考。车立娟等[28]利用关联规则算法进行分析,找到证素对证候的贡献权重,形成了“证素—证型”诊断量表,为慢性乙型肝炎的中医证型诊断提供了参考。
2.5隐结构模型在证候研究领域,隐结构模型用于研究症状之间及症状与证候间的复杂关系,挖掘证候的主症与次症,定量评估各症状的诊断价值[29]。王天芳等[30]运用隐结构模型分析法,对抑郁症证候进行了探索,根据统计分析显性证候发生的概率,对隐变量的状态进行分类,依据中医传统理论对隐变量进行解释与性质分类。张连文等[31]为研究中医肾虚证辨证标准,使用隐结构模型筛取67个变量,并深入分析其中35个重要症状以指导辨证。
2.6结构方程模型结构方程模型作为检验四诊信息与证候间的因果关系以及证候间的内在结构关系的统计学方法,是进行证候诊断标准建立及证候量化诊断等研究的重要方法学参考。施学忠等[32]为研究艾滋病中医证候与四诊信息、中医证候与临床分型归属性问题,构建结构方程模型,为该病的辨证论治提供了理论及数据支持。王利敏等[33]借助结构方程模型,根据通径系数反映不同证候间的影响差异,并依据载荷系数展现亚健康状态下各证候中不同症状的权重程度,为分析亚健康状态各维度及不同中医证候间的关系提供了一定的理论指导。
2.7信息熵信息熵是研究代表证候要素的症状,并分析这些症状间的非线性关系的主要方法,在中医证候规范化应用中有极高价值。王阶等[34]经由复杂系统熵聚堆法,从冠心病心绞痛患者的症状中提取出9种常见组合形式,以此推测冠心病、心绞痛的核心病机是气虚、血瘀、痰浊。王天芳等[35]对601例慢性肾衰竭患者进行临床症状采集,采用信息熵关联度系数法分析所得的108个症状,通过诠释症状的组合规律,挖掘出心气虚、脾气虚、脾胃气虚、肾阳虚、气阴两虚、肝气郁结等常见中医证候类型,确定可通过信息熵关联度系数分析方法为该病的常见证候及证候要素研究提供证据。
3无监督数据方法在中医证候规范化研究中应用的注意事项
3.1选择合适的无监督数据分析方法目前中医证候规范化研究中使用不同的无监督数据分析方法,是根据不同的分析原理与指导思想对数据进行分析,各有利弊,因此正确选择分析方法是数据分析成功的前提与基础。在进行证候研究数据分析前必须明确研究方向以及研究目的,结合数据特点,选取合适的分析方法进行处理、分析,必要时可联合应用统计分析方法以充分发挥各方法的优点,使数据分析结果更加准确、恰当。
3.2严格控制数据的质量数据处理和分析过程中会涉及到重要数据的设置问题,不同的数据经过同样的处理、分析会得出不同的结果。因此,在进行处理和分析时,要对数据质量进行严格控制。必要时可将临床研究的盲法原则引入到数据分析中,如委托专业信息学研究人员进行分析,中医学专业研究人员负责诠释数据结果,分析过程中由两方人员共同协商,以保证数据分析结果的客观性与真实性,提高研究的质量与可信度。
3.3对分析结果的提炼与诠释进行证候规范化研究的目的就是将辨证进行信息学语言的提炼、重现。从四诊收集到数据处理,运用现代数据挖掘方法,寻找潜在的联系和规律,建立并探讨各个症状间的相互组合关系,并与中医基础理论相结合,形成证候要素及证候的诊断模型标准(数学模型)。由于中医临床四诊信息存在独立性强、主观性高、关联广泛、多维度等特点,临床症状间的关系具有高度复杂化、组合随机化的特征,不同的无监督数据分析方法的分析原理不同,故解释的症状信息间的相互关系的方向不同,建立症状组合的意义不同,反映出问题的不同方面[6]。因此,合理使用无监督数据分析方法,对症状关联模型的评价以及对各种结果的异同点系统诠释,是证候规范化研究中的重要环节。
参考文献:
[1]王永炎.完善中医辨证方法体系的建议[J].中医杂志,2004,45(10):729-731.
[2]史希来.属性数据分析引论[M].北京:北京大学出版社,2006:237.
[3]戴霞,郭伟星.中医证候诊断标准规范化研究概况[J].中医杂志,2011,52(2):168-171.
[4]赵燕,薛晓林,吴秀艳,等.无监督数据分析方法在证候研究中的应用[C]//中华中医药学会中医诊断学分会2007年会论文集,2007.
[5]邱德红,陈传波.融合无监督和监督学习策略生成的多分类决策树[J].小型微型计算机系统,2004,25(4):555-559.
[6]赵燕.基于多种无监督数据分析方法的抑郁症证候要素研究[D].北京:北京中医药大学,2007.
[7]于春光.基于多种数据分析方法的慢性乙型肝炎证候要素的研究[D].北京:北京中医药大学,2007.
[8]李志更.基于多种数据分析方法的慢性肾功能衰竭证候要素研究[D].北京:北京中医药大学,2007.
[9]TREVOR H,ROBERT T,J E J.统计学习基础-数据挖掘,推测与预测[M].北京:电子工业出版社,2004.
[10]张凡帆.下肢动脉硬化闭塞症证候要素诊断量表的研制[D].北京:北京中医药大学,2012.
[11]孙振球,徐勇勇.医学统计学[M].北京:人民卫生出版社,2002.
[12]黄粤,高颖,马斌.中医证候研究常用数据挖掘方法述评[J].中医药学报,2010,38(3):6-10.
[13]张琳婷,张明雪.多元分析法在中医证候研究中的应用[J].实用中医内科杂志,2012(12):91-93.
[14]查青林,林色奇,吕爱平.多元统计分析在中医证候研究中的应用探析[J].江西中医学院学报,2004,16(6):79-80.
[15]郑舞,刘国萍.常见数据挖掘方法在中医诊断领域的应用概况[J].中国中医药信息杂志,2013,20(4):103-107.
[16]黄山,郭立玮.数据挖掘技术在中医药研究中的应用[J].中华中医药学刊,2008,26(2):357-359.
[17]龚燕冰,倪青,王永炎.中医证候研究的现代方法学述评(一)[J].北京中医药大学学报,2006,29(12):797-801.
[18]宇文亚,谢雁鸣,耿直,等.基于因果模型的中医证候研究探讨[J].世界科学技术:中医药现代化,2007,9(5):30-33,44.
[19]黄粤,高颖.数据挖掘技术在中医证候研究中的应用概述[J].上海中医药大学学报,2010,30(1):85-87.
[20]王瑞祥,崔利锐.基于贝叶斯网络的中医专家系统构建方法[J].中国医药导报,2007,4(7):58,73.
[21]周萍,肖小燕,王斌.计算机辅助心身疾病相关医案的用药规律研究[J].中医药临床杂志,2008,20(3):254-256.
[22]陈涛,李克乾,陈茂华,等.4 400例当代名医医案的舌象分布频数分析[J].辽宁中医杂志,2007,34(9):1217-1220.
[23]王佳笑,赵时鹏,倪青,等.运用因子分析法探索2型糖尿病合并高血压病中医证候要素分布特点[J].陕西中医,2015,36(2):155-157.
[24]刘玥,金香兰,薛斐然,等.基于因子分析脑梗死后认知障碍中医证候要素研究[J].北京中医药,2015,42(2):83-87.
[25]卢焯明,钱新华.以聚类分析法研究儿童中间型β地中海贫血的中医证候分布规律[J].中华中医药杂志,2012,27(3):607-611.
[26]李毅,刘艳,寇小妮,等.乙肝后肝硬化症状学聚类研究[J].中医药导报,2012,18(2):14-16.
[27]黄文金,姚明龙,叶云金,等.关联规则在中医儿科学证素诊断中的应用[J].中医药临床杂志,2015,13(3):329-331.
[28]车立娟,马利庄,胡义扬.基于关联规则算法的慢性乙型肝炎证型诊断量表多中心研究[J].上海中医药杂志,2014,35(5):11-14.
[29]李海霞,王阶,胡元会,等.基于信息熵的关联度的血瘀证量化研究[J].世界科学技术:中医药现代化,2007,9(4):18-21.
[30]王天芳,张连文,赵燕,等.隐结构模型及其在中医证候研究中的应用[J].北京中医药大学学报,2009,32(8):519-526.
[31]张连文,袁世宏,陈弢,等.隐结构模型与中医辨证研究(Ⅱ)——肾虚数据分析[J].北京中医药大学学报,2008,31(9):584-587.
[32]施学忠,杨永利,时松和,等.HIV/AIDS中医实证与四诊信息的结构方程建模[J].中国卫生统计,2011,28(5):495-496.
[33]王利敏,曲彬彬,赵歆,等.基于结构方程模型的亚健康状态中医证候量化分析研究[J].中华中医药杂志,2011,26(5):1033-1036.
[34]王阶,邢雁伟,陈建新,等.复杂系统熵聚堆方法对1 069例冠心病心绞痛证候要素提取和应证组合规律研究[J].中国中医基础医学杂志,2008,14(3):211-213.
[35]王天芳,李志更,吴秀艳,等.基于信息熵关联度系数法的慢性肾衰竭中医症状组合的探索[J].北京中医药大学学报,2010,33(7):493-495.
Unsupervised methods in TCM syndrome standardization study
ZHANG Shijun1,QI Dongmei1*,LI Yunlun1,2,NIE Wenting1,ZHU Lijuan1
(1.Shangdong University of TCM,Jinan 250355,China;2.The Hospital Affiliated to Shandong University of TCM,Jinan 250014,China)
Abstract:The methods of TCM Syndrome Standardization Study include the Supervised method and the Unsupervised method.The common Unsupervised methods in the study of TCM syndrome standardization include Multidimensional Scaling,Principal Components Analysis,Factor Analysis,Clustering Analysis,Association Rule,Latent Structure Models,Structural Equation Model and Information Entropy,the explanation of the relationship between the symptoms have a different direction since different unsupervised method based on the different thought and principle,so the different results can reflecting the different problems.During the study of the standardization of TCM syndrome study,there are three aspects need to pay attention:the quality of the data should be strictly controlled,the analysis method should be selected properly and the data results should be refined and interpreted by professional researchers.
Keywords:TCM syndrome standardization;unsupervised methods;classification;application
(收稿日期:2015-06-06)
文章编号:2095-6258(2016)01-0001-05
中图分类号:R241.2
文献标志码:A
*通信作者:齐冬梅,女,博士,教授,电话-(0531)89628063,电子信箱-qidm119@163.com
作者简介:张世君(1988-),女,硕士研究生,主要从事中医内科学(中医治疗心系疾病)研究。
基金项目:国家自然科学基金“正常高值血压中医证候宏观量化诊断标准的建立及其代谢机制”(81373515)。
DOI:10.13463/j.cnki.cczyy.2016.01.001
·学术探讨·