基于数据挖掘技术的电子政务
2006-08-01康莉
康 莉
摘要电子政务的蓬勃发展,使得如何有效分析和利用信息成为一个最重要的问题。本文介绍了数据挖掘技术,探讨了数据挖掘技术在电子政务中的应用,并指出了电子政务数据挖掘的发展趋势。
关键词:信息化电子政务数据挖掘关联规则决策树
电子政务是一种基于网络,符合Internet标准,面向政府机关、企业和社会公众的信息服务和信息处理系统。近年来,电子政务在我国得到了快速的发展,为此,我们利用信息技术生产和搜集数据的能力大幅度提高,成千上万数据库被各级政府、部门开发建设出来,数据量呈指数增长,这种趋势还将持续下去。如何处理大量的、复杂的、历史的政务数据将成为包袱,数据挖掘技术就是在这样一种环境下应运而生的。
1 数据挖掘技术介绍
所谓数据挖掘,就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。它是一种新型的数据处理技术,通过对信息的分析处理,发现蕴藏在数据中的有用信息,挖掘数据内在联系、规则和模式,帮助领导决策。毋庸置疑,数据挖掘技术将为电子政务提供有利的技术支持,极大地促进电子政务的发展与普及,推动电子政务的应用进程。
1.1数据挖掘的主要方法
数据挖掘的结果体现在知识的发现上,而知识的发现是个极其复杂的过程。数据挖掘常用的技术有关联规则、决策树、粗糙集、神经网络、遗传算法及各种算法的融合等。这里简单介绍关联规则和决策树这两种常用的数据挖掘技术。
(1)关联规则方法。用于对大型关系数据库发现有价值的关联模式,也可对半结构化的数据库(如文档数据库)进行关联规则挖掘。它通过统计方法对数据中的IF-THEN规则进行寻找、归纳和提取。
(2)决策树方法。利用信息论中的信息增益寻找示例数据库中具有最大信息量的属性字段,建立决策树的一个节点,再根据该属性字段的不同取值建立树的分枝,然后在每个分枝重复递归建立树的下一个节点和分枝的过程,即可建立决策树。接着进行剪枝处理,然后把决策树转化为规则,利用这些规则对新事物进行分析。
1.2数据挖掘的应用流程
数据挖掘在电子政务中的应用是一个将信息转化为有用价值的知识的过程。可将数据挖掘分为四个步骤:
(1)确定业务对象。应熟悉应用领域的数据、背景知识、清晰地定义出业务问题,明确所要完成的数据挖掘任务,完成数据定义工作。
(2)数据准备。包括数据抽取和预处理工作,主要对数据质量进行分析,完成消除数据噪音,清除不一致数据,进行多个数据库的集成、组合等工作。然后从数据库中选择数据挖掘的对象,将数据转换成数据挖掘系统要求的统一格式等工作。
(3)数据挖掘。是知识发现的核心步骤,包括选择合适的算法和技术,执行挖掘算法,搜索提取数据模式等。
(4)结果分析。依据所要解决的问题,对挖掘出的模式进行确认或者解释,将发现的知识以用户能够理解的方式提供给用户。
2数据挖掘在电子政务中的应用
电子政务位于世界各国积极倡导的“信息高速公路”五个领域(电子政务、电子商务、远程教育、远程医疗、电子娱乐)之首,说明政府信息化是社会信息化的基础。将数据挖掘技术引入电子政务中,可以大大提高政府信息化水平,促进整个社会的信息化。
数据挖掘技术在电子政务中的应用具体体现在以下几个方面。
2.1降低成本、减少财政支出的需求
电子政务系统的建设带来的直接经济效益,就是打破了各级政府之间文件传递的繁琐性,用最快捷的电子方式在政府上下级之间传递信息,这不仅降低了政府办公用品及相关开销,而且无形中也减少了大量的额外开支。通过数据挖掘可以了解各个部门的费用开支状况,并提供可行的减少开支的方案。
2.2分析和决策的需求
电子政务数据挖掘对政务系统中的海量数据进行开采、挖掘和分析,从中识别和抽取隐含的信息,并利用这些信息为政府部门重大政策、法规的制定提供决策依据。例如,通过对政府网站、社会公众网站数据进行收集,然后用数据挖掘方法对其进行挖掘,从中得到对提高政府工作效率有益的知识,从而为政府部门工作人员提供科学、实用的辅助决策支持。
2.3实时有效信息的需求
政府部门要充分发挥政府的职能,进行有效的监控和管理,同时增强民众和政府之间沟通的时效性,及时掌握有效的信息,就必须建立一个可以有效收集、监测和分析所获得的大量数据的系统。
2.4政府的电子贸易
为了发现政务系统中用户的访问模式及行为模式,可以利用数据挖掘技术对系统服务器以及浏览器上日志记录中的数据进行挖掘操作,从中发现信息并对其进行预测分析。例如,通过对用户浏览某些信息资源所花费的时间进行挖掘,可以判断出用户对哪些信息资源感兴趣,从而进行个性化服务。
2.5网站设计
为了有效地组织政府网站信息,可以通过对网站内容的挖掘,主要是对文本内容的挖掘操作。例如,可以利用聚类技术对网站文本的内容进行自动划分类别,从而实现网站信息的层次性组织,便于文本内容的分类浏览与检索,同时,还可以结合对用户访问日志记录信息的挖掘,把握用户的兴趣,从而开展个性化的信息服务和有针对性的电子政务活动,进而吸引更多的用户。
2.6政务创新能力
创新是政府职能向知识型政府转变的基本要求,它不仅仅局限于行政方法和政务处理流程层面上的创新,而且也包括政府制定发展战略和公共政策的创新。电子政务数据挖掘增强了政府应对突发事件的快速响应能力,提高了政府工作的创新能力和人员素质。
3电子政务数据挖掘的发展趋势
对过去行政管理工作的数据进行挖掘,得到更多未知的行政管理经验和知识,是电子政务数据挖掘的巨大魅力所在。但是,目前数据挖掘技术的研究还不成熟,距离实际应用还有较大的差距,主要表现在以下几个方面。
3.1源数据形式多样
目前数据挖掘工具处理的数据形式十分有限,一般只能提供对数值型的结构化数据的处理,面对电子政务系统大量的文本、图形、图像、www 资源等结构化、半结构化的数据形式,处理难度很大。
3.2知识的表达和解释机制
对挖掘出的知识如何以用户能理解的形式表达出来,这要求知识的表达不能局限于数字或符号,应该以更容易理解的方式。如图形、自然语言和可视化技术等。所以,能够提供更好的知识表达和解释机制,才能使用户更有效地评价这些知识,区分出哪些是真正有用的知识,哪些只是常识性知识或异常情况。
3.3挖掘的对象规模大而复杂
政府信息化的发生使数据挖掘面对着更大的数据库、更高的维数,以及属性之间的复杂关系,处理的数据量更加庞大了,从而导致组合爆炸。目前主要通过利用并行技术或抽取的方法处理大规模的数据,以此来获得较高的挖掘效率。
3.4证实技术的局限
主要体现在两个方面:一是挖掘出的知识证实;二是参与挖掘的源数据抽取、净化、挖掘算法选择、算法本身等是否合理的证实。这使得发现的知识要么没有普通的适应性,要么就是人们的共识。
3.5知识的维护和更新
新数据的快速大量积累并参与数据挖掘过程,可能导致以前发现的知识失效,这些知识需要动态维护和及时更新,并指导新知识的发现。
虽然数据挖掘存在以上问题,但随着数据量的急剧增加和分析决策难度的增强,以及人们对决策分析工作的智能化、自动化要求的不断提高,人们将广泛地接受并使用数据挖掘及工具。