结合数据发掘算法对中医症候研究的展望
2020-12-14王兴盛景少博张建平
张 津,王兴盛,杨 勇,景少博,王 博,张建平*
(甘肃省中医院,甘肃 兰州 730050)
辨证论治是是中医学针对疾病指导治疗的基本法则。辨证的的意思是辨别证候。证候是机体在疾病发展过程中的某一阶段的病理概括,与单纯的症状研究不同,证候的研究包括了病变的部位、原因、性质等。证候反映出疾病发展过程中某一阶段的病理变化本质,因而症候更能准确地揭示疾病的本质。所以利用中医症候来研究一些病症的病因与病理是中医临床研究的重要组成部分。但是现阶段对于中药初级研究人员来讲,中医临床研究受限于症候种类过多,临床症状更加庞杂的现状[1]。中药初级研究人员很难在短时间内掌握如此浩大的中医症候知识储备,所以中医症候的研究受到了很大的限制和制约。结合计算机技术的数据挖掘算法有可能给中医症候研究打开新的一扇窗。
1 中医数据挖掘特点
中医数据与其他行业应用数据不一样,主要表现出数据不完整、表达形式较多、数据规范性较差等特征。因为中医数据有着广泛的来源,很难保证其完整性,以古代典籍为例,其数据资料记录存在很多缺失的地方,一些字段也有残缺,这让古代典籍数据资料本底资料数据不够完整,当超过一定比例后,将对数据挖掘研究结果准确性带来不利影响。同时中医数据由于来源众多,在挖掘前需要对数据表达形式进行统一转换,但是数据统一与规范的过程较为繁杂,因此中医专家参与能够让数据更加准确与可靠。对于挖掘目标与结果评估方法,要求中医专家一起合作,让问题定义与结果解释更加准确和可信。
2 数据挖掘算法分类
2.1 朴素贝叶斯算法
该算法的基本理论是对于给出的待分类项,求解在指定分类项出现的条件下各个类别出现的概率,最后大概率认定此待分类项存在于概率最大的类别[2]。整个过程归纳为:首先我们需要采集好症候与症状的样本集,然后利用朴素贝叶斯算法可以建立不同证症状与症候之间的关系,最后根据需要读取数据即可。
2.2 支持向量机算法
该算法的基本理论是一种二分类模型,其基本模型定义为划分特征空间,将特征空间线性分类。通过支持向量机算法,可以使划分以后的空间元素间隔最大化,最终可以转化为一个二次规划问题的求解。利用支持向量机算法进行中医证候的研究的基本过程是,首先需要收集中医临床症候的症状,建立它们之间的关系[3]。根据需要构建多维的二分类训练样本,模型通过训练样本以后变为可预测模型,最后可以再用实际的测试样本进行测试。在算法的建立过程中通过优先考虑主证的症候因素可以提高预测效率。通过支持向量机算法可以有效地处理中医症候的数据多维,症候与症状之间的复杂关系。
2.3 人工神经网络算法
利用该算法建立的模型具有很好的自学习能力。中医相关研究人员首先需要把许多不同的症状和对应的症候结果输入人工神经网络,人工神经网络模型就会自模拟人脑的神经元的信息处理方法自动开启学习功能,模型会根据样本训练的多少慢慢学会识别中医症候和症状之间的关系。人工神经网络的自学习功能对于中医基本预测有特别重要的意义。除此之外,人工神经网络算法具有类似于人脑联想存储和功能。用人工神经网络的反馈网络就可以把一个计算机看作一个中药的“初学者”,通过不断训练这个“初学者”最后变成一个“老中医”。除此之外,人工神经网络具有自动查找最优解能力和反馈学习的能力,拥有这些能力的好处是,可以简化不必要的运算和节省计算机的资源。对于大型的中医症候在线的使用平台具有很高的实际应用价值。
2.4 关联规则算法
该算法的基本理论可以大体上通过下列蕴含式:R:X=>Y表示。其中X,Y,I都是事物集,I为总的事物集,三个事物集间关系是XI,YI并且X∩Y=。R表示X,Y之间的关系是事物集Y在事物集X出现的基础上的概率。用户关心的关联规则,可以用两个标准来衡量:支持度和可信度。支持度主要是为了解决中医临床实践中出现一种症候是否会伴随另一种症候,可信度是为了解决多种症候同时出现的概率情况[4]。与前三种种算法不同,关联规则算法需要采集实际的临床样本集。该算法实现简单,但是受限于算法的效率,该算法对于特定的有针对性的小样本中医症候预测效果会更好。
2.5 随机森林算法
该算法也是西医预测学常用算法,该算法是自助算法需要重采样。利用随机森林算法从中医临床记录中获取训练样本集N,从中有放回地重复随机抽取k个中医症候与症状样本生成新的中医临床记录训练样本集合,然后根据自助样本集生成k个分类树组成随机森林,最后将中医临床症状的测试的分类结果按照分类器(分类树)的投票情况进行打分,把打分结果按照的分数高作为最后症候的分析结果。随机森林算法其实质是将多个分类器进行捆绑使用[5]。举例来讲,在临床实践中,当遇到一些疑难杂症病例的时候会邀请多位中医专家进行会诊,专家们需要首先会诊表决,表决多数的治疗方案会成为最终的治疗方案。随机森林就是在多个分类器的基础上进行中医症候与症状关系的表决,表决多数的症候与症状关系为最终的预测结果。
3 通过数据发掘算法进行中医症候研究的意义
(1)可以很好的利用起来大量的实际临床治疗实践记录,显然中医单个个体的能力受到人力、物力、财力等方面的限制,无法短时间建立起中医症候与症状的庞大知识体系。很多中医症候研究人员终其一生也只是在中医症候的某个方面有所突破和建树。所以大量的中医个体临床实践经验需要整合。(2)对于使用中医症候传统的治疗方法的初级中医从业人员,由于临床经验少,很多时候误诊率偏高,而这些人员由于从业时间较短,可能很少有同一病症的参考类似病例。显然如果有类似的可以直接使用的工具会给初级中医从业人员的疾病诊断带来重要的提示功能。(3)目前的中医症候研究任然处在文本查找的阶段,而经验培养则需要大量的时间,这造成中医研究人员利用中医症候进行疾病诊断的时间偏长,医疗资源浪费巨大。而结合计算机数据挖掘技术的中医症候研究将使中医症候的临床诊断在几秒钟实现,且通过大数据和云计算技术可以将全国的中医症候临床数据信息入库整合,对于中医的研究将起到加速器的作用。
通过数据发掘算法对中医证候规律、诊断标准进行探索与研究,并以数字的方式描述表达中医诊断学内容,能够促进中医证候规范化诊的研究过程。对数据挖掘算法对象来说,主要为中医药领域中长期积累的海量数据,且数据表现出离散型、连续型以及混合型等属性,挖掘中各环节需要有丰富的中医药专业知识。基于此中医药专家要和数据挖掘专业人士加强沟通与合作,从而保证研究结果更加正确,可信度也更高。
4 结 语
中医症候的研究目前正处在高速发展阶段,随着“一带一路”的文化交流,很多外国友人开始关注中医症候的研究。同时还要建立系统数据库,不断提升中医药数据挖掘的效率和可信度,为中医现代化研究奠定良好基础,也实现临床、科研水平等进一步提高。希望通过数据挖掘技术和中医症候研究的不断融合可以方便全世界的中医爱好者加入到中医症候研究中来。