应用数据挖掘技术进行电子政务建设的研究
2015-02-12孙谦
孙 谦
(1.同济大学 上海 200092;2.天津市静海县双塘镇人民政府 天津 301600)
1 数据挖掘技术概述
随着电子政务被越来越多的政府机构所应用,政府的日常运行产生了大量的信息和数据,然而海量的信息使得用户在使用电子政务系统时难以快速找到所需要的信息。因此如何有效提高用户的访问效率,有针对性地满足用户的需求并提供个性化服务变得十分重要。作为新兴的计算机数据处理技术之一的数据挖掘技术能在一定程度上解决上述问题。
1.1 数据挖掘的定义
数据挖掘技术是一种能从大量模糊的、不确定的、不完全的数据中揭示出隐含的、未知的,但具有潜在价值信息的技术。它主要基于人工智能、模式识别、机器学习、数据库、统计学、可视化技术等,自动分析用户日常数据,做出归纳和推理,从看似没有规律、没有价值的一般数据中挖掘出潜在的含义。数据挖掘技术能在大量数据中发现有用的知识,并将其应用于用户分析、个性推荐等决策过程中。
1.2 数据挖掘的主要应用
数据挖掘技术是计算机数据处理技术的前沿应用,它能够在海量数据中寻找其内在关联和有价值的信息,更深层次地使用数据,挖掘数据的潜在价值。
一个完整的数据挖掘过程通常包括:数据准备、数据预处理、建模、模型评估、模型应用等 5部分。其中,建模和模型评估是数据挖掘过程的核心,前者集合数据挖掘的实现方法,通过针对不同类别的数据和目标采取合适的挖掘方法,从而得到目标数据;后者是对模型是否适合、有效的评估过程。
数据挖掘技术主要用于关联分析、聚类分析、趋势和行为预测、概念描述和偏差检查。针对这五类问题,数据挖掘技术都有成功的案例和成熟的解决方案,它们可以为解决电子政务中的相似问题提供参考。
2 数据挖掘技术在电子政务中的应用
数据挖掘技术是多种计算机技术的集合,需要针对不同的应用选择合适的解决方案,还要根据方案实际运行情况进行模型修正和测试。对数据挖掘工具的应用,要有清晰的方向,不可漫无目的随意应用,也不可不分领域地采用单一模式应用。目前数据挖掘技术在我国电子政务的应用主要有以下几个方面:
2.1 以各级政府的政务网站为代表的公共服务信息网
政府公共服务信息网为社会大众提供了围绕着以“在线服务、政务公开、网上互动”为主体的服务,用户可根据自身需求选择不同的服务及栏目。网站可以记录每位访问者的浏览内容,并利用数据挖掘工具从中找出潜在的规律,从而指导网站栏目改善其设置、优化界面及提高维护效果。该应用属于数据挖掘技术中的相关性分组或关联规则,用于反映一个事件和其他事件之间关联知识或依赖关系。当两项或多项属性之间存在关联,就认为其中一项的属性值可以依据其他属性值进行预测和分析。
2.2 政府创建的各部门之间共享的电子政务信息资源库
电子信息资源库集中存储了各职能部门在其长期工作中积累下来的各类专业性数据,这些数据是社会政治、经济、文化等多方面的运行指标,有极高的挖掘价值。利用传统的信息管理系统只能对其进行一些基础的应用,如查询、统计等,无法进行深层次的价值挖掘。运用数据挖掘技术,政府部门可以有针对性地选择数据挖掘的方向,在一定高度上对数据进行统筹考虑,给出战略性的指导方针,保证各部门进行的数据挖掘与整体的数据挖掘规划保持一致性。从而合理、适度的运用数据挖掘技术,做到因需求而挖掘,而非为挖掘而挖掘。利用数据挖掘技术对信息库的挖掘可以实现某些社会指标的预测和估算,为政府提供决策支持。如对各种经济数据的挖掘,能确定某些未来的经济走势,帮助政府制定相应的宏观调控政策;对各项社会指标的挖掘能预测社会的运行趋势,帮助政府制定服务政策;对各行业运行数据的挖掘,使政府可以更合理地分配人力、物力,协调政府资源分配,优化社会资源组合。
2.3 行政机构、机关内部的办公网
政府办公网是以各个行政办公局域网为载体,运行着政府的各类指令传递、行动执行、文件传输等方面任务的面向政府决策运营的电子政务系统。由于办公网承载大量政府行政运营数据,利用数据挖掘技术,可帮助政府深入了解其机构运行状况,实现主管部门对政府机构工作流程的优化和监督。
3 应用数据挖掘技术需要注意的风险及防范措施
数据挖掘技术具有全新的信息分析模式,能从科学决策、精细管理、优化服务等方面为电子政务提供帮助,潜在价值无限,对我国的电子政务发展而言是重大的发展机遇。但也应看到数据挖掘的应用存在一定的风险,它的实施有较高的资金和技术门槛,实际收益也有不确定性,并且会面临数据的可用性、人才的可得性、分析的可靠性、系统的安全性和投入的经济性等方面的挑战。在数据挖掘的应用过程中需要把握的风险主要有以下几方面:
3.1 成本与收益之间的关系
对比传统数据处理方式,数据挖掘的应用在数据采集、存储、分析等方面的成本较高。这就要求有关部门在推行数据挖掘项目时要科学测算其总成本和边际成本,根据实际需求确定合适的数据采集范围和数据处理深度,不要盲目追求项目的“高、大、上”,而要更多的追求项目的高回报率。
3.2 数据质量的问题
由于单一的数据来源可能存在各种错误和误差,所以在进行数据采集时要进行多源采集,把多部门的数据进行比对、验证,提高数据可靠性,从而提高数据挖掘应用的效率和效果。
3.3 分析方法的有效性
在数据挖掘、分析过程中,可能会由于一些新兴的、复杂的或不成熟的分析模型的应用造成误判,导致决策失误,带来重大损失。所以,很多重大决策的制定不能单一依赖数据挖掘的分析结果,还要依靠其他工具的辅助和领导者自身的判断力。
3.4 安全问题
数据的大规模集中会给数据安全与隐私保护方面带来更多问题。需要在数据中心建立时从技术和管理等方面加强防范,严格控制数据的使用权限。
3.5 收益分配问题
数据的来源是分散的,然而数据挖掘的应用和产生的价值往往比较集中,带来的收益的分配和归属问题可能会成为争议的焦点。这就要求各部门之间要进行充分的沟通,对权益和责任进行详细划分,遇到分歧时需要主管部门公平、公正的进行处理。
3.6 人才支撑问题
数据挖掘系统的应用和维护,数据的分析,模型的建立、测试等方面都需要大量高素质人才,这就需要政府在引进人才和培养人才的方式上打破常规,招揽和培养既熟悉政务,又精通计算机相关理论和应用的复合型人才,为电子政务数据挖掘应用提供支撑。
4 结 语
数据挖掘技术具有开发周期长、应用技术复杂等特点。开发人员应在系统开发初期同行政管理人员共同做好需求分析,尽量选择较成熟的模型和经过市场检验的产品;在电子政务中的应用是循序渐进的,不能盲目求大,应理性地考虑投入产出比,从国家、政府和人民的利益出发,切实地将数据挖掘技术的应用落到实处。■
[1]常盛,刘劲节,房辉.数据挖掘技术在电子政务建设中的实施思路[J].办公自动化,2010(8):14-16.
[2]王昭.数据挖掘在电子政务中的应用[J].河北联合大学学报(自然科学版),2013(2):78-79.
[3]钱蒙翔.数据挖掘在电子政务中的应用研究[J].江苏科技信息,2008(11):33-35.