APP下载

基于数据挖掘技术的政府决策咨询系统的研究与设计

2018-01-19孙道远

关键词:数据仓库数据挖掘咨询

孙道远

(安徽工贸职业技术学院计算机信息工程系,安徽 淮南 232001)

0 引言

政府的决策在社会发展中具有重要的政治意义和社会意义,牵涉到社会发展的很多层面。传统的政府决策是通过相关的纸质报告以及具体工作经验进行的,具有很大的人为性和主观性。在信息技术迅速发展的今天,传统的决策机制在时效性、客观性、整体性上存在着很大的缺陷,基于数据挖掘技术的信息化政府决策咨询系统可以将数据以信息的方式进行收集、处理,分类别地进行呈现。“政府决策咨询系统”是为政府科学决策和依法行政提供辅助支持的信息管理系统与分析决策系统。本系统拥有一个中心数据仓库(包括若干数据集市),两个支撑系统(基础支撑、决策支撑),以及决策执行与跟踪系统等具体应用系统。政府在重大决策前,可以借助本系统进行决策事前分析、实施执行以及实效评估等阶段模拟运算。

1 数据仓库与数据挖掘相关技术

1.1 数据挖掘技术

数据挖掘技术就是从大量的历史数据中,通过数据挖掘算法实现提取出对决策者或用户需要的信息的过程,数据挖掘的数据源来自于政府决策咨询系统的数据仓库。数据挖掘在具体的实现过程中,先对数据源进行数据预处理形成数据集合,再使用数据挖掘算法,将数据挖掘的结果用直观的多种可视化方式提供给用户[1]。在数据挖掘实现时,有很多数据挖掘系统,本项目借助于SQL Server 2008中的数据仓库技术来实现对数据的挖掘。

1.2 数据仓库与数据集市

数据仓库和数据库有着本质的不同,数据库是着重对实时数据的操作和处理,数据仓库是对历史数据或已经存在的看似无用的数据进行处理,从中找到对用户有价值的信息,为用户提供决策和分析服务。数据仓库中的数据来自源数据库,数据源中的数据可能具有不同的格式,需要经过抽取、清理、转换等工作[2],根据决策分析的需要形成统一的数据格式,再经过OLAP服务后,使用前端分析工具,进行数据挖掘、数据分析、数据报表等,为用户产生各种数据分析和汇总以及数据挖掘结果,并进行长时间的保留,数据仓库的这种特性恰恰是政府决策者们需要的展现形式。数据集市则是数据仓库的某个主题的数据,若干个数据集市构成一个数据仓库,同时数据仓库也向数据集市提供数据[3]。在本政府决策咨询系统中有面向社会经济生活等各方面的12个数据集市组成了一个完整的数据仓库。

1.3 Web Service访问技术

Web Service是一种跨平台的页面访问技术。目前,实现Web Service的方式有两种:一种是采用SOAP消息封装,采用WSDL描述的Web Service对象,载体是符合XSD模式的XML,传输协议是HTTP;另一种方式就是Jason/restful。本项目采用第一种方式,即Web Services服务提供方通过WSDL(Web Services Description Language)描述所提供的服务,并将这一描述告知Web Services 注册服务器。注册服务器依据WSDL的描述,依照UDDI(Universal Description Discovery and Integration)的协定更新服务目录并在Internet上发布。目前,Web Service接口访问技术是在各种行业系统解决方案中应用的最为成熟的接口访问技术,采用的SOAP消息封装保证接口数据的完全性。

2 决策咨询系统数据仓库总体体系架构

基于数据挖掘技术的政府决策咨询系统,以数据仓库为核心,将各种应用系统集成在一起,为数据分析提供了来源和基础,通过数据分析与报表模块的查询和分析工具OLAP、决策分析、数据挖掘完成对信息的提取,以满足决策的需要,本项目数据仓库的体系结构如图1所示,分为源数据层、数据处理层、数据服务层、应用层和访问用户层等5部分[4]。

数据仓库是整个系统的基础和核心,源数据层是系统的数据来源,是数据仓库和数据集市的基础[5],它包含内部数据(档案数据)和外部数据(来自于互联网、高校、研究机构和各局机关的数据信息)。在通过底层获取外部数据源后,需要进行数据抽取、转换和装载,也就是ETL,把来自不同数据源的数据合并成一致的格式,进行装入和刷新,更新数据仓库[5]。数据仓库包含着海量的数据。在数据服务层,采用OLAP可以快速地提供对复杂数据的查询。服务层采用数据立方体计算模式对数据仓库中的多维数据在OLAP数据分析模型的基础上进行处理,将处理结果输出。在应用层,数据报表、数据分析和数据挖掘为用户产生各种数据分析和汇总报表,以及数据挖掘结果。用户访问层用户主要是政府决策咨询系统的使用者,包括政府领导、决策人员、高级用户以及相关授权用户,用户通过不同的权限对分析的数据进行使用,经过OLAP分析后的数据将以不同法人模式呈现给用户,以满足不同用户的使用需求。

3 决策咨询系统中的技术实现

数据报表显示、查询交互等前端操作采用B/S模式,源数据提取、采集等后台操作采用C/S模式。在使用浏览器访问系统的过程中,页面的请求提交给Web服务器,使用通过对数据仓库的OLAP和数据挖掘将获取的信息反馈给Web浏览器,3层B/S模型图(如图2所示)。

图2 3层B/S模型图

本项目对于专业部门手工录入数据时采用C/S架构(Windows窗体),通过录入界面把各行业部门数据在底层使用程序代码实现整个ETL过程(ETL即数据获取、转换和加载),C/S架构图如图3所示。

图3 C/S架构图

由于数据源来源的多样性,本系统采用了多种数据采集方式,各种类型的数据源通过Web Service服务接口进入某个主题的数据集市中,由于政策决策咨询系统主要是对数据分析处理,粒度要保持适合状态,接口参数尽量简单。第三方数据的导入实现方式如图4。

图4 Web Service接口示意图

在系统开发上采用Microsoft的.Net framework 4.0,开发平台使用VS2010。使用SQL Server 2008 Integration Service构建企业级ETL应用程序,实现异构数据源的提取、转换、加载。构建分析数据库,使用SQL Server 2008 Analysis Services进行联机分析处理(OLAP)和数据挖掘。构建分析数据库采用完全自定义和可自定义的模板两种方式。用数据仓库来填充Analysis Services数据库,构建报告服务器,将关系操作报告从事务处理数据库中分离出来。首先要创建一个数据库镜像,在镜像上创建一个数据库视图[6],分析数据库示意图如图5所示。

图5 分析数据库示意图

在具体数据挖掘实现过程中采用时间序列和神经元网络算法作为数据挖掘技术模型,得出国民经济数据集市等数据源的预测值。

4 数据仓库的设计与数据挖掘模式

4.1 决策咨询系统数据仓库的设计

系统中心数据仓库是数据挖掘的对象,在决策咨询系统中,中心数据仓库包含了12个具体的数据集市,需要对各种类别的数据进行分析。数据仓库的设计分为以下几个步骤:首先确立数据仓库的主题进行需求分析、其次建立数据仓库逻辑模型、最后进行数据仓库的部署[2],具体的设计过程如下。

4.1.1 主题需求分析

决策咨询数据仓库的主题需求分析确定了数据研究的对象,就是政府政策制定时涉及的对象。分析决策的目标和需求,既有宏观目标也有微观的分析,考虑到本系统涉及到政府所需的各行业部门采集的数据,涉及到多个复杂对象,要确定分析的指标、分析维度和粒度,这是建立数据仓库的基本要素。

4.1.2 数据仓库逻辑模型的建立

决策咨询数据仓库需要创建多维度的数据模型,从多个角度对数据进行查询与分析[7],多维数据模型的建立涉及到粒度、维度、度量等核心要素,在具体建立模型的过程中要选择合适的粒度、维度和准确的度量,以保证数据仓库的可用性。建立数据仓库有多种数据模型,其中本系统采用的是星型模式结构。比如在经济景气指标主题分析时,采用星形模型,需要对国内生产总值、劳动工资与就业、工业经济、社会消费等建立维度表。根据这些经济指数分析获取宏观经济监测和预警、经济增长因素、竞争力、经济发展趋势等数据或图形表示。经济景气指标主题星形模式如图6所示,事实表围绕着度量来建立,同时定义事实表的粒度,当度量产生时,事实记录就生成了,最后进行元数据的设计,用来定义事实表和维表的主题和内容。

玉米是一种人们喜爱的食物,在玉米的生长中,土壤耕种和施肥管理是重要内容,土肥科技管理对提升玉米种植的实效性具有不可忽视的作用,进而保障玉米的产量和质量,促进农业经济良性可持续发展。

4.2 决策咨询系统数据挖掘技术模式设计

关于数据挖掘,简单地说就是从海量数据中发现信息的一个过程,本系统采用微软SQL Server Analysis Services构建挖掘模型,使用SQL Server(Windows平台上强大的数据库平台)数据挖掘作为政府决策咨询平台的底层相关联数据查询不会受限于数据挖掘系统本身的功能,因为它能根据需求而扩展。数据挖掘的模型很多,贝叶斯、时间序列、神经元网络、关联规则等都是常用的模型,因为本系统涉及国民经济分析数据,采用时间序列和神经元网络模型算法,具体实现过程可通过SQL Server Data Tools新建一个Analysis Sercice Project项目。

5 基于数据挖掘项目的系统实现

“政府决策咨询系统”建设的主要目的是为政府科学决策和提高行政效率服务,需要进行建设的主要内容包括:一个中心数据仓库、两个支撑系统、相关应用系统以及一个专家智库和安全保障系统。具体建设内容如图7所示。

图6 经济景气指标主题星形模式图

图7 政府决策系统功能组成示意图

5.1 一个中心数据仓库

具体包括物价指数分析、人口就业分析、突发应急事件分析等12个数据集市。数据仓库提供了当地各行业大量的未经处理的静态数据,需要根据具体的需求主题从中挖掘出相关政策制定所需要的信息。数据仓库中的数据主要是来源于政府部门之间、企事业单位与电子政务信息资源库,采集的方法是通过数据提供部门根据不同职能和采集标准,将不同类型的数据录入或导入相关数据集市中。也可能通过从电子政务资源库中根据需要调取数据,最终,数据经过提取、转换、加载,进入到政府决策咨询系统平台的数据仓库中。同时,还可以通过门户网站面向社会进行投票,将反映民意的信息提取到数据仓库中。

5.2 两个支撑系统

政府决策咨询系统是一个综合性的应用系统,它不仅仅要对数据进行处理,还需要其他系统的配合,具体包括两个支撑系统:基础支撑系统和决策支撑系统。

5.2.1 基础支撑系统

包括计算机网络系统、服务器、主机存储、资料室和办公场所建设,为政府决策咨询工作提供基础支撑环境。网络系统是系统建设项目建设的基础,是项目建设的重要组成部分,在具体实现的过程中需要具有安全性,QoS质量服务保证体系,网络的可用率不小于99.99%等指标。

图8 网络拓扑图

在“电子政务专网”接入中,“电子政务专网”的局域网应能满足应用系统运行需求,支持数据的存储、交换和共享,支持音视频数据传输的需求,确保实现与市各局机关单位互联互通和数据交换。随着业务系统的安装,紧跟着相应的安全软件系统也随之被安装,这样就需要网络具有很好的负载能力。同时,政务外部的访问量将会大幅上升,对系统并发处理能力的要求也会大幅提高。还有,有关的系统资料包含有文字、图片、声音和视频元素,而对于图片、声音和视频信息转输是要消耗大量网络资源的。同时还要求网络系统应能24 h×7不间断地工作。依托政府外网实现通过互联网、运营商专网进行数据交换,接入网络带宽为50 M。根据信息系统中各类业务的业务功能及相关业务系统的安全级别,网络划分为业务区域和办公区域,按各区域所运行业务系统的安全级别对所属网络区域进行定级建设,并在各网络区域中针对业务及应用的类型、特点等因素进行子区域划分,并对各子区域进行分级保护。

5.2.2 政府决策咨询支持系统

主要为行政决策提供决策咨询信息的管理、查询、维护、电子档案管理、异构数据采集和整理、决策执行跟踪、效果反馈等功能,同时,通过门户网站向外发布各类政策和决策咨询信息,并且利用在线问卷调查等方式,获取社会群众对重大决策的真实意愿,提高社会的参与度。系统能够将分散在各个职能部门中的各种数据通过ETL到政府决策咨询数据中心中,在进行数据分析时,将各个主题与相关分析文章的主题词进行智能关联分析,并将结果以直观易于理解的方式提供给用户。

5.3 四大应用系统

应用系统包括决策咨询基本信息管理系统、门户网站、电子档案管理系统、决策执行与跟踪系统。

1)决策咨询基本信息管理系统。决策咨询基本信息管理系统将在数据挖掘及OLAP基础上最终实现国民经济宏观分析、固定资产投资分析、外资外债分析、政策法规分析、物价指数分析、财政金融分析等功能,为政府决策提供科学依据。

2)门户网站。门户网站提供了一个政府向社会公众发布决策信息并进行公示和收集民众反馈意见的平台。该门户网站的使用者除政府各级部门以外,还涉及公众百姓,为公众提供信息交流平台,使公众从多种渠道获取多元信息。

3)电子档案管理系统。本项目电子档案管理系统中,以收集针对政府决策咨询相关档案为主要任务,提供录入档案UI界面。用户录入的档案信息经类别的判定将进入数据集市相关业务表中。

4)决策执行与跟踪系统。政府通过决策咨询系统在制定政策时,对问题有了更加准确客观的把握,为政策制定提供了一个依据。在政策制定、发布后,还需要有一个执行和跟踪的过程,需要通过具体的应用系统进行政策执行的具体运行情况的跟踪。

5.4 系统安全技术体系建设

政府决策咨询系统作为政府信息系统,需要建立严格的安全保障措施,系统安全技术体系建设包括物理安全防护、数据存储安全、内部网络安全管理、网络入侵检测以及通信网络安全等方面的安全保护措施[8]。在保障系统安全、可靠、稳定运行的过程中,需要重点加强系统的健壮性与安全性,在具体实施的过程中可以通过防火墙和安全域的划分在系统网络边界之间提供防护,降低网络风险,并使用网络入侵检测系统抵御来自接入网络的攻击,实时做出各种防护反应措施。在系统安全防护技术中,政府决策咨询系统的通信网络安全防护具有非常重要的作用。根据目前系统采用的3层结构,核心层是整个网络的中枢,需要在核心层使用双核心设备保证它的可靠性,再使用虚拟化技术起到设备级和线路级的保护。汇聚层要能够处理来自接入层的全部数据流量,并提供到核心层的上行链路,减少核心层的压力和负担,使核心层只需要处理到整个网络外部的数据交换即可。为了保证数据的安全,核心设备可以采用冗余链路和虚拟化技术,通过对网络的一系列安全设置,使基于数据仓库挖掘技术的系统达到安全技术体系等级设计要求。

6 结语

基于数据挖掘技术的政府决策咨询系统,从数据仓库整体系统架构、网络基础支撑系统、具体应用平台3个方向进行设计,采用了数据挖掘技术对数据仓库中的数据进行分析,获取政府决策中有用的信息,有效地实现了对经济社会发展数据的统计和掌握,具体实现过程中使用具体业务系统作为应用层入口,通过支撑系统接入网络,并进行网络安全防范与保护,保障数据通信安全。基于数据挖掘技术的政府决策咨询系统的使用,使得政府从社会运行的大量数据中更加客观、准确地把握经济社会的发展,为政策的制定提供了重要的参考依据。

[1] 刘玲.基于数据挖掘系统的可视化技术研究[D].北京:北京工业大学,2010.

[2] 李春葆,李石君,李筱驰.数据仓库与数据挖掘实践[M].北京:电子工业出版社,2014.

[3] 朱文婕.数据仓库技术及应用[J].安徽电子信息职业技术学院学报,2004(5):265-266.

[4] 王超.基于数据仓库的银行绩效管理系统应用研究[D].上海:复旦大学,2012.

[5] 程平,黄仁,陈艳,等.高性能数据仓库平台构建的研究[J].计算机工程与设计,2006,27(12):2189-2192.

[6] 张亚茹.高端分布式交换机端口镜像系统的配置管理[D].南京:南京邮电大学,2008.

[7] 陈文伟.数据仓库与数据挖掘教程[M].北京:清华大学出版社,2006.

[8] 沈昌祥,张鹏,李挥,等.信息系统安全等级化保护原理与实践[M].北京:人民邮电出版社,2017.

猜你喜欢

数据仓库数据挖掘咨询
探讨人工智能与数据挖掘发展趋势
基于数据仓库的数据倾斜解决方案研究
基于数据仓库的住房城乡建设信息系统整合研究
基于并行计算的大数据挖掘在电网中的应用
咨询联盟大有可为
探析电力系统调度中数据仓库技术的应用
一种基于Hadoop的大数据挖掘云服务及应用
基于数据仓库的数据分析探索与实践
基于GPGPU的离散数据挖掘研究
健康咨询