APP下载

中医证候研究中数理统计方法应用现状

2013-03-31刘恩顺孙增涛

长春中医药大学学报 2013年2期
关键词:数理统计人工神经网络粗糙集

杨 爽,刘恩顺,孙增涛

(1.天津中医药大学,天津300073;2.天津中医药大学第二附属医院,天津300125)

中医证候研究中数理统计方法应用现状

杨 爽1,刘恩顺2*,孙增涛2

(1.天津中医药大学,天津300073;2.天津中医药大学第二附属医院,天津300125)

证候是中医诊治疾病的核心。但证候缺乏客观、统一的规范和标准,其本身具有多变性、模糊性、复杂性、隐匿性的特征,因此在证候量化、证候信息的挖掘与利用过程中存在诸多困难。近年来,粗糙集理论、模糊数学、人工神经网络及无监督数据分析法等数理统计方法逐渐成为中医证候研究中常用的方法,取得了一些成果,同时也存在一些问题。多种手段相结合综合运用,将为中医证候研究提供适宜的科学方法。

中医证候研究;数理统计方法;应用现状

中医的证候是通过望、闻、问、切四诊所获知的在生命过程中表现在整体层次上的机体反应状态及其运动、变化规律,是从时间和空间两个方面反映疾病的过程及其相互依存和联系的复杂关系。其本质是揭示疾病的阶段性主要矛盾规律,并不断随时间而变动,存在着量变的过程,它不是人体局部的病理改变,也很难用注重定位、定性、定量的西医病理生理学的“金标准”去评价,这决定了它不可能像西医的“病”那样用实证的方法去研究,也不能简单以非此即彼的定性方法来区分。因此,中医辨证除了定性之外,还要依赖定量分析。而且中医所说的“病”是突出的证候,大多是病人的主观症状,病人的“主观感觉”是医生的“客观依据”,从病人的主观感觉出发,容易失治误治。许多专家根据中医证候复杂性,动态性,主观性的特点,将其看做一个复杂的非线性系统,他们提出用多种数理统计方法多角度研究证候的内部特征并取得了较好的效果。随着科学技术的发展,越来越多且先进的数理统计方法将会被运用于证候研究中。现将近年运用于中医证候研究中的一些数理统计方法及其局限性综述如下。

1 无监督数据分析法

无监督方法是用来探索完全未知的数据特征的方法,对原始数据信息依据样本特性进行归类,把具有相似特征的目标数据归在同源的类里,并采用相应的可视化技术直观地表达出来。[1]该方法包括多维尺度分析、相关分析、因子分析、聚类分析,以及隐结构模型等方法。聚类分析是以“物以类聚”为原则的一种统计方法,用数学的方法研究和处理给定对象分类的一种多元统计方法。曲淼等[2]使用该方法对105例抑郁症病人的临床资料进行分析,结论是:聚类分析发现心胆气虚、气虚血瘀、心肾不交、脾肾两亏、肾虚肝郁、气郁化火6个证候涵盖了抑郁症的大部分证候。结构方程模型是一种运用统计中的假设检验对有关现象的内在结构理论进行分析的一种统计方法。其特点是可证实所假设的先验关系成立与否;可将隐变量和直接测量变量一并考虑;可对变量测量误差及方差做出估计。谢世平等[3]使用结构方程模型从1 303例HIV/AIDS病例的45个辨证相关指标中提取了6个潜变量(因子),分别对应于中医的6个证型:痰热蕴肺、肺脾气虚、湿热内蕴、湿热蕴毒、气阴两虚、邪结皮肤,代表着HIV/AIDS的常见临床证型。用于研究HIV/AIDS中医症状、证候及其相互关系。结果是:列出了各证型的主症及次症,显示了各个证型的特征;合理解释了HIV/AIDS的中医证候分型和诊断规律。隐结构模型法是一种基于数据本身的特征、从各种角度对人群进行多维划分的方法,其反映的是蕴含在数据中的规律,具有较强的客观性和定量性。赵燕[4]研究了104例抑郁症病人的临床资料,将100个显变量参与隐结构模型构建,寻到隐变量34个,分为79个隐类,得出结果是抑郁症主要体现的病位类证候要素有:肝、心、胆、脾、胃、肾;主要体现的病性类证候要素有:气滞、气虚、湿、阳虚、痰、火。因子分析即用少数几个公因子去描述许多指标或因素之间的联系的方法。李得民等[5]采用该方法对112例超早期脑梗死患者的临床资料进行研究,结果显示:超早期脑梗死中医证候可分为4类,分别为气虚血瘀证、热结腑实证、肝肾阴虚证、风痰阻络证。在一定程度上揭示了超早期脑梗死中医证型特点。

其各自的局限性在于:聚类结果具有不确定性,且存在聚类的单分配问题,比较适合应用于单一疾病的证候分类。结构方程模型拟合指数的估计的方法决定其要求有较大的样本量,且需要专业知识与数理知识的紧密结合。既使结构方程模型的数据能很好的拟合,也不代表模型完全正确,只能说明不拒绝该假设模型。王利敏等[6]研究2 807例亚健康病人的临床资料,构建结构方程模型,在反复拟合之下,排除了肝火证下重要意义的变量,对全面分析亚健康状态的中医证候有一定的影响。在使用无监督数据分析方法时,一定要深入理解各方法运用的理论基础及应用条件,多种方法联合使用,可一定程度上减弱其局限性的影响。

2 数据挖掘技术

2.1 粗糙集理论 粗糙集理论是处理不精确,不一致,不完整等各种不完备信息的一种新型的有效的数学工具,主要应用于研究不完整数据、不确定知识的表达、学习及归纳。该理论数学基础成熟,不需要提供问题所需处理集合之外的任何先验知识,避免了专家的主观经验。而且该理论与处理其他不确定问题的理论有很强的互补性。吴昊[7]认为,中医诊断实际上也是一种知识模型,它是把机体看成黑箱,直接找出输入、输出的关系。这些关系不是凭空臆造,而是从大量的实践总结出来,能反映一定的客观规律性,在实践中行之有效,其存在的缺点就是缺乏对黑箱的具体分析。而粗糙集理论则是这种黑箱系统的有利分析工具,它利用临床症状进行辨证,从中抽取出确定与可能的规则。

粗糙集理论同时也存在一定的局限性未得到很好的解决:1)粗糙集理论中对错误判断的决定性机制非常简单。因此,由粗糙集产生的决策规则很不稳定而且有较差的分类精确性;[8]2)约简的有效计算问题。如何处理数据中的噪音和丢失值问题,连续属性离散化等仍未找到令人满意的方法;3)粗糙集理论所处理的分类必须是完全正确或肯定的,因而它的分类是精确的,只考虑完全“包含”与“不包含”而没有某种程度上的“包含”与“属于”,不能处理模糊分类的问题。[9]4)粗糙集理论只有和专业判断结合才有实际意义。郭建文等[10]采用粗糙集方法研究4 077例脑卒中病“阴阳类证”患者的临床资料,得出在粗糙集分析中,健忘与阴虚、火热、气虚的诊断相关,但从中医专业判断来说,健忘跟火热、阴虚、气虚都无必然联系,对证候判断的意义均很有限。

要想更好的应用粗糙集理论,要得到精确的决策规则,必须把粗糙集理论和其他数据挖掘方法结合起来。王璐[11]在对基于粗糙集理论的属性约简方法的研究基础上,通过比较分析现有的属性约简算法,提出了一种基于属性作用集差异度的属性约简算法,经过数据集上的实验和测试比较表明所提出的方法是有效的。该方法不仅能得到较小的约简子集,而且在执行效率上具有很大的优势。

2.2 模糊数学 模糊数学是研究和处理模糊性现象的一种数学理论和方法。它引用了模糊矩阵复合运算方法,首先对各单项参数进行评价,然后考虑各项参数在总体中的地位,配以适当的权重,再用模糊概念进行推理,经过模糊矩阵复合运算,得出综合评价结果。中医学理论体系普遍存在着的模糊概念,导致了“只能意会,不可言传”等问题的存在,模糊数学的出现,使得这类概念的量化成为可能。谢杰[12]应用模糊数学方法对78例绝经后骨质疏松患者的证型进行研究,得到了PMOP患者诸症证型总体的病情情况,并构建了一个较好的PMOP证型诊断的模糊模式识别数学模型。

其局限性在于:模糊集的隶属函数多数是凭经验给出的,带有明显的主观性,在确定分类组数和分类原则时,需要人为引进判别参数和分类标准临界值,在数学理论和实际应用上显得不够严谨,并且不能同时考虑到各个指标对分类的影响权重。[13]目前除了采取联合运用其他数理统计方法外,还未有其他有效的解决方法。

2.3 人工神经网络 人工神经网络是一种将整体论与还原分析方法有机结合的研究复杂系统的方法,能够有效处理复杂系统中杂乱无章的海量数据,并能够在海量数据中寻找模式及规律,归纳隐含的逻辑关系,发现多个信息单元之间相互关联规则,同时还能从数据的分析研究中进行学科发展预测性研究,因而在中医证候研究领域有着广阔的应用前景。[14]许朝霞等[15]将支持向量机方法和人工神经网络进行比较,将2种方法应用于对心血管疾病的中医临床信息和证候类别之间的关系的分析上,建立模型,观察其证候预测的准确性。得出结果是:经过比较,对于心气虚、心阳虚、心阴虚、痰浊、气滞、血瘀等心血管疾病常见中医证型,OCON网络的识别准确率最高,均在60%以上,其中心气虚和心阳虚证分别高达92.4%、82.9%。

其局限性在于:传统的神经网络中确定的权重和“隐藏单元”的含义很难被专家解释,而且不能从模型中提取规则。[9]作为一种非参数模型,人工神经网络的一切信息只来自于训练集,其训练的结果也就更加不稳定,极容易产生泛化问题,出现过拟合(过学习、过训练)的现象,降低泛化能力。通过正则化技术,剪枝技术,逐步构造技术及早期停止技术等可在一定程度上减弱神经网络的泛化问题。[16]

一些数理统计方法如卡方检验,频数法等为大家所熟知,因此不在赘述。还有一些数理统计方法,如非负矩阵分解法,多维尺度分析法,复杂系统熵堆积,基于树模型的分类算法研究,由于观点较新,论述文献较少,还需要进行继续研究和探讨。

马克思说过:“一种科学只有成功的运用数学时,才算达到了真正完善的地步。”因此,应将多种数理统计方法结合起来,尽快为中医证候研究提供更为适宜的科学方法。

[1]赵燕,薛晓林,吴秀艳,等.无监督数据分析方法在证候研究中的应用[C].北京:中华中医药学会中医诊断学分会论文集,2007.

[2]曲淼,唐启盛,裴清华,等.抑郁症中医证候的聚类研究[J].吉林中医药,2007,27(11):10-12.

[3]谢世平,陈建设,许前磊,等.HIV/AIDS证候分型及量化诊断的结构方程模型分析[J].中国中医基础医学杂志,2010,16(7):577-579.

[4]赵燕.基于多种无监督数据分析方法的抑郁症证候要素研究[D].北京:北京中医药大学,2007.

[5]李得民,李淑芳,刘金民.采用因子分析法对超早期脑梗死进行中医证候分类的初步研究[J].吉林中医药,2010,30(11):956-958.

[6]王利敏,曲彬彬,赵歆,等.基于结构方程模型的亚健康状态中医证候量化分析研究[J].中华中医药杂志,2011,26(5):1033-1036.

[7]吴昊.粗糙集在中医胸痹证候识别中的应用研究[D].呼和浩特:内蒙古大学,2006.

[8]Supriya K D,Krishna P R.ClusteringWeb Transac-tions Using Rough Approximation[J].Fuzzy Sets and Systems,2004(148):131-138.

[9]周忞,褚娜,李洁.中医证候研究中的分类算法方法学研究[J].中西医结合学报,2010,8(10):911-916.

[10]郭建文,黄燕.建立中风病“阴阳类证”辨证规范的数据挖掘研究[J].中医药导报,2010,16(9):17-20.

[11]王璐.基于粗糙集理论的属性约简算法及其在中医证候诊疗中的应用研究[D].南昌:南昌大学,2010.

[12]谢杰.应用模糊数学方法对绝经后骨质疏松症的证型研究[D].广州:广州中医药大学,2007.

[13]许晓娟,王庆国,许海旭,等.模糊模式识别和模块化思维用于中医证候诊断的可行性探讨[J].北京中医药大学学报,2007,30(1):17-21.

[14]孙贵香,袁肇凯.人工神经网络在中医证候研究中的应用[J].中华中医药学刊,2007,25(7):1450-1452.

[15]许朝霞,王忆勤,颜建军,等.基于支持向量机和人工神经网络的心血管疾病中医证候分类识别研究[J].北京中医药大学学报,2011,34(8):539-543.

[16]王恺,杨巨峰,王立,等.人工神经网络泛化问题研究综述[J].计算机应用研究,2008,25(12):3525-3530,3533.

Application Status of Mathematical Statistics Method used in Traditional Chinese Medicine Syndrome Research

YANG Shuang1,LIU En-shun2*,SUN Zeng-tao2
(1.Tianjin University of Traditional ChineseMedicine,Tianjin 30073,China;2.Second Affiliated Hosptical of Tianjin University of TCM,Tianjin 300125,China)

Syndrome is the core of traditional Chinesemedicine diagnosis and therapy.But the lack of objective syndromes,unified codes and standards,its itself has polytropism,fuzziness,complexity,occult characteristics,so the quantitative syndrome and syndrome informationmining and utilization process there are a lotof difficulties.In recentyears,the rough set theory,fuzzy mathematics,and the artificial neural network and no supervision and data analysis,mathematical statistics methodgradually become the doctor of traditional Chinesemedicine syndrome commonly usedmethods for the research of,made some achievements,butalso some problems.A variety ofmeans combining comprehensive utilization,willbe the doctor of traditional Chinesemedicine syndrome study provides appropriate scientificmethod.

Traditional Chinesemedicine syndrome research;Mathematical statisticsmethod;Application status

R242

A

1007-4813(2013)02-0210-03

2012-12-18)

国家自然科学基金项目(81273999)。

杨 爽(1987-),女,博士研究生。研究方向:中医药防治呼吸系统疾病。

*

刘恩顺,男,医学博士,硕士研究生导师,E-mail:hellotcm@126.com。

猜你喜欢

数理统计人工神经网络粗糙集
基于Pawlak粗糙集模型的集合运算关系
数学实验在概率论与数理统计中的教学应用
利用人工神经网络快速计算木星系磁坐标
基于二进制链表的粗糙集属性约简
人工神经网络实现简单字母的识别
浅谈《概率论与数理统计》课程的教学改革
滑动电接触摩擦力的BP与RBF人工神经网络建模
基于数理统计方法的发动机关键零部件加工误差统计分析系统
多粒化粗糙集性质的几个充分条件
双论域粗糙集在故障诊断中的应用