基于Naive Bayesian算法改进的智能诊病系统研究
2017-06-03黄伟肖厚波
黄伟+肖厚波
摘要:本文简述了智能诊病系统的发展,简单介绍了智能诊病系统,指出了它的一些局限性,并且介绍了Naive Bayesian算法的原理,提出了以该算法为基础的改进方案。
关键词:智能诊病;人工智能;专家系统;知识库;推理机;Naive Bayesian算法
中图分类号:TH165.3 文献识别码:A 文章编号:1001-828X(2017)009-0-01
一、智能诊病系统的发展
人工智能是现今最尖端的技术之一,近三十年来,人工智能发展迅速,在很多领域都得到了广泛的应用。专家系统是人工智能重要的一个分支,它通过一个或多个专家提供的专业领域知识,模拟人类专家解决那些需要专业领域知识才能完成的问题。1965年,美国斯坦福大学研制出了DENRAL系统,该系统具有丰富的化学知识,能帮助化学家推断出分子的结构。DENRAL系统的完成标志着专家系统的诞生。20世纪70年代初, NTERNIST系统在匹兹堡大学问世,这是第一个用于医疗的内科病诊断咨询系统。同一时期,一款能够帮助普通内科医生诊治细菌感染性疾病的专家系统MYCIN也在斯坦福大学出世,这两款专家系统的成功激发了智能诊病系统的开发热潮,国内外都开始往这方面投入大量的人力物力。到21世纪初,智能诊病系统已经相对成熟。
二、智能诊病系统
智能诊病系统以基于规则的方式来构建系统,它主要将系统分为知识库和推理机两部分,知识库中存储着各种医学知识的集合,包含从书本中知识,以及医学专家的知识和经验,而推理机根据用户提供的有效信息,来决定所使用的推理规则,通过从知识库中获取的相关知识进行推理判断,从而得出最终的结论。推理分为精确推理和不精确推理,精确推理根据条件和结论之间的必然性,得出的结果是肯定的,不精确推理:在条件不足的情况下,得到的假设不能被完全证实,这个时候为每个假设赋予一个权值来表明这个假设的可信度,通过这些假设进行下一步推理,可能会得到多个不同的结论,以可信度最高的结论作为最终结论。
三、智能诊病系统的缺点
难以得到足够知识和规则填充知识库,智能诊病系统做为基于规则的专家系统,需要以大量知识和医学专家规则作为基础,才能够准确地诊断病人的病情,这就需要大量的医学专家和知识工程师的参与才能够实现。
缺乏学习能力,跟一般的基于规则的专家系统一样,智能诊病系统不具备从诊病过程中提取经验进行学习的能力,只会依循本来就存在的规则和知识进行推理判断,更新知识库,添加规则些工作仍然需要知识工程师来完成。
Naive Bayesian算法:
Na?ve Bayesian 算法能够较好地对事物进行分类,具有结构简单,计算高效等特点,是分类算法中最经典,最有影响力的算法之一。Na?ve Bayesian算法首先需要通过训练样本计算出先验概率,在此基础上,计算一个待分类的后验概率。下面是Na?ve Bayesian 算法的定义,对于一个待分类的事物x,设:
1.x有{a1,a2,a3,……an}这样一个属性集,每个a都是x的一个特征属性。
2.有{y1,y2,y3,……ym}这样一个类别集合,每个y代表一个类别。
3.分別计算P(y1|x),P(y2|x),P(y3|x),…..,P(ym|x)的概率。
4.如果有P(yi|x) >= P(yj|x)(j属于1~n),则事物x属于类型yk。
在这里,我们称P(yi|x)为后验概率,根据贝叶斯定理,P(yi|x) = P(x|yi)P(yi)/p(x)。
由于对于所有的后验概率,都需要除以P(x),所以在这里我们可以将P(x)忽略,只求出最大的P(x|yi)P(yi)即可。P(x|yi)P(yi) = P(a1|yi)P(a2|yi)P(a3|yi)…P(an|yi)P(yi),其中P(aj|yi)和P(yi)我们都需要通过样本数据进行计算:
1.设有样本集{x1,x2,…xn},每个样本有一个属性集a其中包含若干属性。
2.有{y1,y2,…ym}这样一个类别集合。
3.P(yi)为样本中类别yi的个数/样本总数。
4.P(aj|yi)为样本中类别yi中含有aj属性的个数/类别中yi的个数。
通过Naive Bayesian算法对智能诊病系统的改进:
由于知识库中知识量和规则的限制,智能诊病系统可能会出现无法准确判断用户病情的状况,通过Na?ve Bayesian算法可以有效地改善这一情况。一个人患病的原因会跟他平时的生活环境,生活习惯还有家族遗传有很大的关系,由此,我们可以将生活环境,生活习惯和家族遗传作为特征属性,建立一个辅助诊断病情的Navie Bayesian分类器。算法的训练样本通过记录每个精确推理确诊的患者的生活环境,生活习惯,家族遗传等属性信息取得,通过不断地增加训练样本,Navie Bayesian分类器的准确性不断提升,从而提升智能诊断系统的不精确推理能力。
参考文献:
[1]Liu H, Motoda H. Feature selection for knowledge discovery and data mining[M].Springer Science&Business Media, 2012.
[2]Pang-Ning Tan, Michael Steinbach, Vipin Kumar.数据挖掘导论(中文版)[M].范明,范宏建,等,译.北京:人民邮电出版社,2011:139-141.
作者简介:黄 伟(1981-),男,瑶族,湖南花垣人,讲师,主要从事计算机科学研究。
肖厚波(1994-),男,汉族,湖南郴州人,本科在读,主要从事软件工程研究。
基金项目:吉首大学科研论文项目,项目编号:JSU-CX-2015- 98。