原发性高血压中医证候数据挖掘研究进展
2020-02-16徐佳萌王艳琴胡玉乐
杨 聪,郑 刚,2*,齐 婧,刘 盼,徐佳萌,王艳琴,钟 伟,胡玉乐
(1.陕西中医药大学,陕西 咸阳 712046;2.陕西中医药大学第二附属医院,陕西 咸阳 712000; 3.陕西中医药大学第二附属医院 心脑血管病研究所,陕西 咸阳 712000)
原发性高血压(Essential hypertension,EH)是一种常见的心血管系统疾病,也是引起脑卒中、冠状动脉粥样硬化性心脏病的主要危险因素。EH中医证候分型的客观化研究逐渐成为当前中西医结合临床的一项重要内容。数据挖掘是从众多的数据中寻找规律性,在海量的数据中提取出有效信息,适用于中医证候研究[1]。本文基于常见数据挖掘方法,分析EH中医证候分布规律及其相关性,为EH中医证候诊断的信息化、客观化与规范化研究提供借鉴,现报道如下。
1 聚类分析
聚类分析是根据变量间属性相似度进行归类,通过减少组内变量差异,增加组间差异,从而减少数据处理中由于主观判断而引起的误差,对于中医数据来说,选用聚类分析方法对数据结果进行分析会更加客观、合理。王庆高等[2]对2 000例EH患者的中医证候进行分类,收集的四诊信息采用系统聚类中的指标聚类方法进行分析,通过对每类证候的判定,结果显示EH的主要证型为痰湿壅盛、肝阳上亢、瘀血阻络、气血亏虚证,其中痰湿壅盛证最为多见。卢双双等[3]采集944例EH患者的四诊信息,选用58个临床症状为变量进行K-means聚类分析,其中聚类为7类症状分布最明显,具体为痰湿壅盛型(21.2%)、阴阳两虚型(17.5%)、气虚血瘀型(15.6%)、肝火亢盛型(14.5%)、中气不足型(13.8%)、阴虚阳亢型(8.9%)、肾阳不足型(8.6%),其中痰湿壅盛型占比最高。以上提示广西地区EH患者证型多为痰湿壅盛证,地域性可能影响一些变量表达和证候归纳精确性,因此后期需要多中心、大样本的流行病学调查。
2 因子分析
因子分析是一种简化、分析高维数据的统计方法,由英国心理学家C.E.斯皮尔曼提出[4]。因子分析法在系统综合评价中有独特优势,对各因子权重有较好的客观评价。王丽颖等[5]采集1 508例EH患者的四诊信息,通过因子分析方法提取10个特征根大于1的公因子,最后将其归纳、合并得到7个证素:气虚(15.93%)、痰(29.95%)、阳虚(10.42%)、内火(8.16%)、阳亢(10.76%)、阴虚(10.83%)、瘀血(10.35%)。其中证素痰、气虚的出现频率相对较高,提示临证时应重视痰、气虚等重要因素。陈炳为等[6]采集1 500例EH患者的临床四诊信息,收集100个中医症状指标,通过因子分析模型对79个观测变量进行分析,最终选择最适合的5个因子对应的中医证候:肝肾阴虚、心肾两虚、阴虚阳亢、肝火亢盛、痰浊内蕴证型,最后指出从整体结果上看,对于有序资料的因子分析,基于多项相关的模型要更加接近真实情况。金香兰等[7]对428例EH患者证候要素分布情况进行因子分析,得出血瘀、阴虚、热、气虚、血虚等26个公因子,主要证素为虚证(61.3%)、火(29. 4%)、血瘀(21. 7%)、痰(17. 6%),以上提示虚证是EH的主要证型,且夹杂火、痰、瘀等病理因素。胡元会等[8]通过因子分析131例盐敏感性EH患者的中医证候类型,归纳出贡献值最高的5个公因子,分析其所代表的病位脏腑、证候要素,结果各脏腑分布的高低顺序为脾肾(42.75%)、脾(21.37%)、肝脾(18.32%)、肾(17.56%);证候要素分布的高低顺序为阳虚(60.31%)、气虚(42.75%)、气滞(39.69%)、痰湿(21.37%)、热(21.37%)、气逆(21.37%)、水饮(20.61%)、阴虚(18.32%)、精亏(17.56%)、气陷(17.56%)。以上证素分布情况为EH中医证型的客观化研究提供了有效参考。
3 决策树与神经网络
决策树是一种比较强大的分类方法,自上而下逐步对数据进行分类,其基本方法是找出分类效果最好的属性对数据库进行划分,直到所有分类包含同一类型的所有数据,能够最直观地展示分类模型[9-10]。人工神经网络的本质是由许多小的非线性函数组成的大的非线性函数,反映的是输入变量到输出变量间的复杂映像关系,具有自动学习和识别变量间关系的能力,善于处理模糊的、非线性的数据。田艳鹏等[11]采用决策树算法对926例EH痰湿壅盛证患者的证候属性进行分析,判断准确率达93.74%,筛选出头重昏蒙、呕恶、吐痰涎、胸满闷、精神倦怠、痞满、苔白腻7种中医属性。通过径向基函数及多层感知器两种神经网络法分析35种分类属性,得出病痰湿壅盛证EH的最佳识别变量头重昏蒙。赵书颖等[12]通过决策树与神经网络两种联合方法建立EH阴阳两虚证的诊断模型,采集390例EH患者四诊信息,其中阴阳两虚证237例,对32个证候因子进行决策树分析,发现最佳识别属性是腰膝酸软,出现频率为92.9%,同时结合畏寒肢冷、心悸、乏力等其他四诊信息,形成较为符合EH阴阳两虚证诊断的组合判断模式。为提高证候诊断模型的客观化和准确度,联用多种统计分析方法进行相互补充、相互验证是较为可取的方法,能够为规范中医证候提供更客观的依据。但是仍需将这些结论在临床中加以检验,或进行更大样本量、多层次的研究。
4 贝叶斯网络
贝叶斯网络又称信念网络,是概率论与图论相结合的产物,其可描述变量之间相互依赖联系的概率网络图模型,常用于分析复杂系统影响因素之间的关系,主要包括定性层面和定量层面两方面内容[13]。朱咏华等[14]将贝叶斯网络与中医辨证系统联合起来,建立起中医辨证数据库,并建成中医辨证贝叶斯网络结构及概率表。吕胤[15]基于贝叶斯网络对116例EH患者进行证型分类,识别率的高低顺序依次为阴阳两虚、痰湿壅盛、肝火亢盛、阴虚阳亢、瘀血内阻及冲任失调等证型。何旭等[16]收集2 752例心血管疾病患者的病历资料,通过贝叶斯网络发掘出多个心血管疾病与其他慢性病之间的因果关系,发现EH患者罹患糖尿病的概率为0.352 2。贝叶斯网络分类算法具有准确率高、耗时短等优势,但是贝叶斯网络要求网络结构必须是无环的,这可能会丢失一些疾病之间存在的反馈现象。
5 支持向量机
支持向量机方法是基于统计学习理论的一种模式识别的机器学习方法,根据有限的样本信息在模型的复杂性和学习能力之间寻求最佳折衷,以期获得最好的推广能力[17]。中医的数据是离散型的,支持向量机的函数支持离散型数据,能够充分挖掘大量有价值的信息。支持向量机结构简单、客观实用,是建立四诊合参诊疗模型的有效方法,在中医证候应用方面有一定的优势。许明东等[18]采用C-支持向量机方法对549例EH患者的症状、舌苔、舌体、脉象进行融合处理,构建EH患者的中医诊断模型,其中痰瘀互结、阴虚阳亢、肝火亢盛及肾气亏虚等证型的预测准确率较高,整体准确率达到90.0%。通过前期的探索,许明东等[19]继续通过支持向量机构建EH的中医症状、舌脉与血脂、血尿酸、血糖的组合诊断模型。结果显示整体的准确率达到90.8%,各证候准确率依次为痰瘀互结>阴虚阳亢>肝火亢盛>肾气亏虚>其他,其中痰瘀互结(96.7%)、阴虚阳亢(93.9%)数值较大。以上说明EH患者证候与血脂、血尿酸、空腹血糖等指标存在一定的相关性。由于中医症状信息本身具有非线性和多维性,运用支持向量机的优势,从数据挖掘的角度分析EH中医辨证分型与理化指标之间存在的复杂关联性具有优势。
6 文献分析
文献挖掘的研究对象主要是非结构化数据,是一种从文本中发现潜在、隐藏、归纳性知识的方法[20]。祁怡馨等[21]纳入3 986篇标准文献,提取出18类症状描述,共涉及57个证候名称,排名靠前的证型为肝阳上亢(25.32%)、肝火热盛(18.07%)、痰浊阻滞(8.23%)、肝肾阴虚(7.01%)、阴阳两虚(6.99%)。肝、肾、心是EH的主要病位,证候要素有阳亢(25.68%)、内火(25.09%)、内热(20.99%)、阴虚(15.14%)、痰浊(10.25%)、气虚(7.71%)、肝风(5.3%)等。朱灵妍等[22]搜索近20年相关文献,分析EH患者相关中医证候特点,搜索范围覆盖全国24个省市地区。结果EH常见证候类型为:阴虚阳亢证、痰湿壅盛证、肝火亢盛证、阴阳两虚证、肝阳上亢证、肝肾阴虚证及瘀血阻窍等。其中东北地区多见阴虚阳亢证、肝火亢盛证及阴阳两虚证等证型,华北地区多见痰湿壅盛证,西北地区多见瘀血阻窍证,华中、西南地区分别以肝肾阴虚证、肝阳上亢证型多见。以上提示患者中医证候差异明显,应根据不同地域高血压患者证候特征,辨证论治、三因制宜等针对性用药。朱金妹[23]通过统计近10年来EH证型,发现最常见证型为阴虚阳亢证,其次为肝阳上亢、痰湿壅盛、肝火亢盛、肝肾阴虚及阴阳两虚等证型。徐强等[24]纳入3840篇关于EH辨证的文献,分析显示高血压常见症状以肝系为主,最常见证候类型为肝阳上亢证和肝火炽盛证。文献分析方式由于样本信息量大且缺乏明确统一标准,因此难免会存在误差,有一定的局限性。
7 系统评价
Meta分析是循证医学中的重要研究方法之一,又称荟萃分析、元分析、统分分析等[25]。美国Stony Brook University生态与进化学系杰西卡·古雷维奇等[26]在Nature正刊撰写综述介绍Meta分析,认为其作为一种重要的工具,通过量化已知、识别未知以促进科学的快速发展。李思洁[27]基于系统评价探讨EH中医辨证分型与血脂的关系,通过计算机检索相关文献124篇,最终纳入文献10篇,对各证型EH患者的胆固醇、甘油三脂、高密度脂蛋白、低密度脂蛋白等进行定性定量分析。结果发现,EH组与正常对照组患者的血脂水平比较差异有统计学意义,提示EH患者血脂的异常数量较正常人群多。其中甘油三酯、低密度脂蛋白水平升高,高密度脂蛋白降低可作为痰湿壅盛证的客观指标,低密度脂蛋白水平升高可作为阴阳两虚证的客观指标,胆固醇升高在各证型中均无明显差异。以上说明血脂的异常可作为EH辨证分型的依据。骆始华等[28]采用系统评价方法明确中医辨证或中医辨证联合血管紧张素转换酶抑制剂(ACEIs)治疗EH的疗效,结果表明单用中医辨证或中医辨证联合ACEIs治疗逆转左心室肥厚的疗效优于ACEIs治疗。
8 logistic回归分析
Logistic回归分析是一种广义的线性回归分析模型,因此与多重线性回归分析有很多相同之处,常用于数据挖掘、疾病诊断等领域。戴国华等[29]观察356例EH患者与饮食的相关性,相关证候比例为痰湿壅盛(39.89%)、肝火亢盛(28.37%)、阴阳两虚(22.47%)、阴虚阳亢(9.27%)等。其将年龄、性别、吸烟史、饮酒史、食盐量、家族史、素食强度等设为自变量,中医证型设为应变量,以上引入logistic回归分析,各因素与中医证型结果显示:素食强度是肝火亢盛证及阴虚阳亢证的相关因素,素食强度、年龄、食盐量等是痰湿壅盛证的相关因素,年龄是阴阳两虚证的相关因素。因此,通过调整素食比例可一定程度上降低痰湿壅盛证、肝火亢盛证及阴虚阳亢证型EH的发生率。郭娇等[30]纳入775例EH患者的四诊信息进行分析,临床证型按频率的高低依次为痰瘀阻络、气虚痰瘀、气阴两虚、肝肾阴虚及肝阳上亢等,占全部证候的69%。对五种证候的性别、年龄、吸烟史、饮酒史、EH家族史等15个危险因素进行Logistic回归分析,结果显示痰瘀阻络证的危险因素为高密度脂蛋白和血糖,气阴两虚证的危险因素为年龄,肝肾阴虚证的危险因素为甘油三脂,气虚痰瘀证和肝阳上亢证未见有明显统计学意义的危险因素。
9 结语
随着我国经济发展与社会老龄化的加快,EH发病率呈上升趋势。近年来中医药对慢性病的防治优势逐渐彰显,通过数据挖掘方法能够分析中医古籍和现代医案的用药规律,还可以综合症状与证候为中医药的临床发展提供数据支撑[31]。证候是疾病发生、发展过程中的病理概括,是疾病病机的外在反映,在整个中医理论体系中处于核心地位[32]。目前对EH中医辨证分型大多基于个人经验、古籍论述及流行病学调查,辨证分型标准不可避免地具有主观性。运用数据挖掘方法研究EH辨证分型,可一定程度上减少中医诊断的主观性,提高中医辨证的客观性以及为中医辨证的持续性研究提供保障。由于中医证候具有多元性和复杂性,简单而单一的统计学方法并不能完整地对中医证候进行描述。为避免中医证型研究的偏倚,从繁杂的数据中挖掘出简单的普适规律,需要采用多维的、复杂的数据挖掘方法,有时还需要将多种挖掘方法联用[33]。
中医证候的数据挖掘方面目前存在以下问题:①证候的演变规律是无序的,目前尚无证据说明证候与疾病之间演变的同步性,中医辨证治疗后证候的变化并不能说明西医疾病的好转,导致评价的观察终点难以确定[2]。②由于疾病的错综复杂性,辨证论治的过程即是医师知识与经验交织的过程,虽然参考相应的标准,但是辨证过程仍然存在一定的主观性。因此,现代研究需更加客观、准确地获取四诊信息。③EH前期中医证候、随着病情进展各证候间的关系,以及EH中医证候与EH分级间的关系等相关数据分析研究较少,以上均可指导患者的预防与治疗,对降低该病的发生率均有重要意义。④建立EH中医临床信息采集平台,联合多元分析方法,完善系统评价体系,实现信息的有效输出与归纳,是EH中医证候进行数据挖掘的重要环节。⑤每种数据挖掘方法都存在一定的局限性,应将多种数据挖掘方法联合起来,协同合作,共同解决数字化中医辨证中存在的问题并取长补短,提高中医智能辨证系统的准确度、科学性。
综上所述,数据挖掘技术将会更加多元化,充分利用现代科学技术实现中西医结合,从临床实际入手,又回到临床实际中去,可更加有效、方便地掌握患者的病情并指导临床。