基于Naive Bayesian算法改进的智能诊病系统研究

2017-06-03黄伟肖厚波

现代经济信息 2017年8期

关键词：推理机专家系统知识库

黄伟+肖厚波

摘要：本文简述了智能诊病系统的发展，简单介绍了智能诊病系统，指出了它的一些局限性，并且介绍了Naive Bayesian算法的原理，提出了以该算法为基础的改进方案。

关键词：智能诊病；人工智能；专家系统；知识库；推理机；Naive Bayesian算法

中图分类号：TH165.3 文献识别码：A 文章编号：1001-828X（2017）009-0-01

一、智能诊病系统的发展

人工智能是现今最尖端的技术之一，近三十年来，人工智能发展迅速，在很多领域都得到了广泛的应用。专家系统是人工智能重要的一个分支，它通过一个或多个专家提供的专业领域知识，模拟人类专家解决那些需要专业领域知识才能完成的问题。1965年，美国斯坦福大学研制出了DENRAL系统，该系统具有丰富的化学知识，能帮助化学家推断出分子的结构。DENRAL系统的完成标志着专家系统的诞生。20世纪70年代初， NTERNIST系统在匹兹堡大学问世，这是第一个用于医疗的内科病诊断咨询系统。同一时期，一款能够帮助普通内科医生诊治细菌感染性疾病的专家系统MYCIN也在斯坦福大学出世，这两款专家系统的成功激发了智能诊病系统的开发热潮，国内外都开始往这方面投入大量的人力物力。到21世纪初，智能诊病系统已经相对成熟。

二、智能诊病系统

智能诊病系统以基于规则的方式来构建系统，它主要将系统分为知识库和推理机两部分，知识库中存储着各种医学知识的集合，包含从书本中知识，以及医学专家的知识和经验，而推理机根据用户提供的有效信息，来决定所使用的推理规则，通过从知识库中获取的相关知识进行推理判断，从而得出最终的结论。推理分为精确推理和不精确推理，精确推理根据条件和结论之间的必然性，得出的结果是肯定的，不精确推理：在条件不足的情况下，得到的假设不能被完全证实，这个时候为每个假设赋予一个权值来表明这个假设的可信度，通过这些假设进行下一步推理，可能会得到多个不同的结论，以可信度最高的结论作为最终结论。

三、智能诊病系统的缺点

难以得到足够知识和规则填充知识库，智能诊病系统做为基于规则的专家系统，需要以大量知识和医学专家规则作为基础，才能够准确地诊断病人的病情，这就需要大量的医学专家和知识工程师的参与才能够实现。

缺乏学习能力，跟一般的基于规则的专家系统一样，智能诊病系统不具备从诊病过程中提取经验进行学习的能力，只会依循本来就存在的规则和知识进行推理判断，更新知识库，添加规则些工作仍然需要知识工程师来完成。

Naive Bayesian算法：

Na?ve Bayesian 算法能够较好地对事物进行分类，具有结构简单，计算高效等特点，是分类算法中最经典，最有影响力的算法之一。Na?ve Bayesian算法首先需要通过训练样本计算出先验概率，在此基础上，计算一个待分类的后验概率。下面是Na?ve Bayesian 算法的定义，对于一个待分类的事物x，设：

1.x有{a1，a2，a3，……an}这样一个属性集，每个a都是x的一个特征属性。

2.有{y1，y2，y3，……ym}这样一个类别集合，每个y代表一个类别。

3.分別计算P（y1|x），P（y2|x），P（y3|x），…..，P（ym|x）的概率。

4.如果有P（yi|x） >= P（yj|x）（j属于1～n），则事物x属于类型yk。

在这里，我们称P（yi|x）为后验概率，根据贝叶斯定理，P（yi|x） = P（x|yi）P（yi）/p（x）。

1.设有样本集{x1，x2，…xn}，每个样本有一个属性集a其中包含若干属性。

2.有{y1，y2，…ym}这样一个类别集合。

3.P（yi）为样本中类别yi的个数/样本总数。

4.P（aj|yi）为样本中类别yi中含有aj属性的个数/类别中yi的个数。

通过Naive Bayesian算法对智能诊病系统的改进：

由于知识库中知识量和规则的限制，智能诊病系统可能会出现无法准确判断用户病情的状况，通过Na?ve Bayesian算法可以有效地改善这一情况。一个人患病的原因会跟他平时的生活环境，生活习惯还有家族遗传有很大的关系，由此，我们可以将生活环境，生活习惯和家族遗传作为特征属性，建立一个辅助诊断病情的Navie Bayesian分类器。算法的训练样本通过记录每个精确推理确诊的患者的生活环境，生活习惯，家族遗传等属性信息取得，通过不断地增加训练样本，Navie Bayesian分类器的准确性不断提升，从而提升智能诊断系统的不精确推理能力。

参考文献：

[1]Liu H， Motoda H. Feature selection for knowledge discovery and data mining[M].Springer Science&Business Media， 2012.

[2]Pang-Ning Tan， Michael Steinbach， Vipin Kumar.数据挖掘导论（中文版）[M].范明，范宏建，等，译.北京：人民邮电出版社，2011：139-141.

作者简介：黄伟（1981-），男，瑶族，湖南花垣人，讲师，主要从事计算机科学研究。

肖厚波（1994-），男，汉族，湖南郴州人，本科在读，主要从事软件工程研究。

基金项目：吉首大学科研论文项目，项目编号：JSU-CX-2015- 98。