基于云计算的电子政务大数据管理研究
2013-12-10迪莉娅燕山大学文法学院河北秦皇岛066004
●迪莉娅(燕山大学 文法学院,河北 秦皇岛 066004)
数据显示,政务部门集成的数据占社会总量的90%以上。尤其是在大数据时代,政务部门数据的类型已多样化,包括结构化数据、半结构化数据和非结构化数据。如何采集、保存、维护、管理、分析、共享正在呈指数级增长的电子政务大数据是目前政府和社会面临的挑战。
1 云计算与大数据内涵的界定及其关系的描述
(1)云计算的内涵。云计算的产生是借用了量子物理中的“电子云”,强调说明计算的弥漫性、无所不在的分布性和社会性特征。云计算是并行计算、分布式计算和网格计算的综合发展,或者说是计算机科学概念的商业实现,同时又提升了虚拟化、效用计算、IaaS(基础设施即服务)、PaaS(平台即服务)、SaaS(软件即服务)等功能。云计算的发展经历了网格计算、共用计算、软件即服务和云计算四个阶段。
云计算的基本类型分为IaaS(基础设施即服务)、PaaS(平台即服务)、SaaS(软件即服务)。
(2)大数据的内涵。目前国内外关于大数据并没有统一的概念,但基本上从以下三个角度定义大数据。① 大数据本身的角度。该种定义认为大数据是“海量数据”+“复杂类型”的数据。② 大数据特点的角度。大数据是具有“4V”特点的数据,即种类多(Variety)、流量大 (Velocity)、容量大 (Volume)、价值高(Value)的数据。③ 大数据要素的角度。大数据是具有大分析、高带宽和大内容要素的数据。
(3)大数据与云计算的关系。大数据着眼于“数据”,关注实际业务,提供数据采集分析挖掘,看重的是信息积淀,即数据存储能力。云计算着眼于“计算”,关注 IT解决方案,提供 IT基础架构,看重的是计算能力,即数据处理能力。大数据植根于云计算技术,利用云计算强大的数据处理能力,可以为挖掘大数据丰富的信息数据提供强有力的工具。当然,大数据和云计算之间还存在一定的区别(见表1)。
表1 云计算和大数据的区别
2 电子政务大数据管理的意义
电子政务大数据是指各种公务机构通过广泛应用现代信息技术,推动政务活动方式的变革,提高行政效率,发展民主决策进程,向社会提供优质、规范、透明的管理与服务过程中所产生的海量的、类型复杂的数据。其管理具有以下重要的意义。
(1)大数据的包容性将有助于打破政府各部门间、政府与公民间的固有边界,信息孤岛现象将有可能大幅度削减,数据共享有望成为现实。大数据可以提供政府管理所需要的基本信息支持,提高政府各机构协同办公的效率和为民办事的效率及政府的治理能力和公共服务能力。(2)有助于增强政府危机管理的预警能力和应急能力。加强电子政务大数据的管理不仅能动态监测而且还能深度分析和挖掘网络舆情和危机事件的动态,提高政府危机预警能力和应对能力。(3)有助于改变政府传统的决策模式和效率。在大数据的环境下,政府将从基于“经验”的决策模式走向基于“实证”的决策模式,为政府科学和精准的决策提供支持。(4)有助于促进政府管理更加开放和透明。数据高度开放和大规模强力流动,意味着知识在政府管理中得到深度挖掘和更加广泛的利用,这将促使政府的管理和服务更加开放和透明。
3 基于云计算的电子政务大数据管理模式构建
传统的电子政务数据管理以收集和存储为主,在云环境下,电子政务大数据的管理将创新数据的管理模式,偏重政府数据的分析与挖掘,为政府的管理与决策服务(见图1)。
除臭规模总风量Q为13 000 m3/h,共计2套处理系统,其中,一期设计风量9 000 m3/h,二期设计风量4 000 m3/h,除臭工艺采用生物土壤滤池除臭技术。首先将O池中的恶臭气体密封加盖,防止恶臭气体外溢,采用不锈钢收集风管进行收集,通过引风机将恶臭气体引至生物土壤滤池进行处理,处理后的气体无组织达标排放。
图1 基于云计算的电子政务大数据管理模式图
3.1 电子政务大数据的采集
电子政务大数据的采集通常分为集中式采集和分布式采集,二者各具优缺点。集中式采集易于控制全局数据,分布式采集灵活性的特点较突出(见表2)。
表2 电子政务大数据采集方法表
大数据的采集涉及政府机构内部的采集和机构之间的采集,充分利用云计算分布式并行计算的特点,采用混合式的大数据采集模式将会更有效率。即在整个大数据采集过程中,政府机构内部采用集中式的采集模式,而在机构之间采用分布式采集模式。这种数据的采集中,每个政府机构内部设置一个或者多个中心服务器,该中心服务器作为虚拟组织内的集中式的数据注册机构,负责存储共享的数据信息。机构之间所有的中心服务器之间则采用分布式数据采集模式进行组织(见图2)。[1]这种数据采集模式克服了集中式与分布式数据调度模式的不足。
图2 基于云计算的电子政务大数据采集模式图
因为电子政务大数据既包括结构化数据又包括半结构化、非结构化数据,在进行云计算的分布式采集时,应按照数据的不同类型,分类存储。同时也因为云计算具有很强的扩展性和容错能力,可将数据池相同或者相似的数据同构化,同时应用集群技术、虚拟化技术实现机构之间的无缝对接和超级共享。
3.2 电子政务大数据的存储
电子政务数据仓库是面向主题的、集成的、相对稳定的、反映历史变化的数据集合,用于支持政府管理中的决策服务。电子政务数据仓库与过去的电子政务数据库存储最大的区别在于,前者以数据分析、决策支持为目的来组织存储数据,后者主要目的则是运营型系统保存、查询数据。
同时由于大数据本身的特点,传统的电子政务数据仓库也已经无法适应大数据的存储需求。首先,大数据的急骤增长,使得传统数据仓库技术面临巨大的挑战,单结点的数据仓库系统往往难以存储和分析海量的数据。其次,传统的行式数据仓库,是根据元组按行存储的,维护大量的索引和物化视图无论是在时间(处理) 还是空间(存储) 方面成本都很高。[2]
而基于云计算的电子政务数据仓库采用列式存储克服了行式存储的弱点。列式数据仓库的数据是根据属性按照列存储,每一属性列单独存放。投影数据时只访问查询涉及的属性列,大大降低了系统输入和输出损耗。又由于列式存储的数据具有相同的数据类型,相邻存储的数据之间相似性比较高,具有更好的压缩率,而压缩的数据更能够减少输入与输出的开销。例如,传统的数据仓库存储采用的行式存储有一个1万行的表,取其中3个字段,行存储需要每行都读取出来才能取出3个字段。而列存储只需要读3次就可以完成任务。尤其在大数据环境下,将大幅度提高电子政务数据仓库管理的性能。
3.3 电子政务大数据的联机分析
联机分析处理是数据仓库系统的主要应用,支持复杂的分析操作,侧重决策支持,并且提供直观易懂的查询结果。在联机分析当中,云计算的分布式并行计算从数据仓库中的综合数据出发,提供面向分析的多维模型,并使用多维分析的方法从多个角度、多个层次对多维数据进行分析,使决策者能够更全面地分析数据。联机分析处理的一个主要特点是多维数据分析,这与数据仓库的多维数据组织正好形成相互结合、相互补充的关系。因此,利用联机分析处理技术与数据仓库的结合可以较好地解决电子政务决策支持系统既需要处理海量数据又需要进行大量数值计算的问题(见图3)。
图3 电子政务大数据联机分析图
3.4 电子政务大数据的挖掘
利用电子政务联机分析方法一般只能获得数据的表层信息,难于揭示数据属性的内在关系和隐含信息。电子政务大数据挖掘是指从海量数据的大型数据仓库中提取人们感兴趣的隐性的知识,这些知识是事先未知且是潜在的。提取出来的知识通常可以表示为概念、规则、规律或模式等形式。
基于云计算的电子政务大数据挖掘采用分布式并行挖掘技术。分布式并行数据挖掘技术不同于其他并行算法的地方在于它适用于处理大规模的数据处理。过去所使用的串行数据挖掘算法只能适用于规模很小的数据,并且其运行需要花费大量的时间也成为其缺点。分布式并行数据挖掘是指在分布式系统中,机器集群看作硬件数据池,将并行的任务拆分,然后交由每一个空闲机器去处理数据,能够极大地提高计算效率,同时这种数据无关性,对于计算集群的扩展无疑提供了最好的设计保证。任务分解处理以后,将处理以后的结果再汇总起来。MapReduce是云计算环境中处理大规模数据集的挖掘模型,程序员在Map(映射)函数中指定对各分块数据的处理过程,在Reduce(规约)函数中指定如何对分块数据处理的中间结果进行归约(见图4)。在电子政务大数据中的应用,不仅可以提高数据挖掘的效率,而且这种机器数据的无关性对于计算集群的扩展也提供了最好的设计保证。[3]
图4 MapReduce-电子政务大数据挖掘模型图
3.5 电子政务大数据的可视化
(1) 反映同类事物共同性质的广义型知识。(2)反映事物各方面特征的特征型知识。(3)反映不同事物之间属性差别的差异型知识。(4)反映一事物和其他事物之间依赖或关联的关联型知识。(5)根据历史和当前数据推测未来数据的预测型知识。(6)揭示事物偏离常规出现异常现象的偏离型知识。但如何能更好的揭示这些蕴藏在政府领域中的海量知识之间的关系和发展趋势,则需要在数据挖掘的过程中应用可视化技术为政府决策和管理服务。数据可视化是对大型数据库或数据仓库中的数据的可视化,它是可视化技术在非空间数据领域的应用,使人们不再局限于通过关系数据表来观察和分析数据信息,还能以更直观的方式看到数据及其结构关系。具体而言是将大型数据集中的数据以图形、图像形式表示,并利用数据分析和开发工具发现其中未知信息的处理过程。[4]
数据可视化是电子政务大数据管理过程中重要的技术。在云环境中,电子政务大数据可视化不仅用图像来显示多维的非空间数据,使用户加深对数据含义的理解,而且用形象直观的图像来指引检索过程,加快了检索速度,因此得到很多国家的重视,例如美国能源部将投资2500万美元建立可扩展数据管理与可视化研究所,帮助科学家对数据进行有效管理,促进其生物和环境研究计划、核数据计划等的研究。[5]
4 基于云计算的电子政务大数据管理策略分析
(1)建立电子政务大数据管理的框架。顶层设计是很多国家电子政务和大数据管理成功的经验。目前,为了更好的促进电子政务大数据的管理,面对大数据的挑战,很多国家和政府将政府大数据的管理提升到国家战略层面,从国家政策或者制度层面规划大数据的发展,挖掘大数据的潜力。例如,2012年3月,美国奥巴马政府推出“大数据研究与开发计划”,提出“通过收集、处理庞大而复杂的数据信息,从中获得知识和洞见,提升能力,加快科学、工程领域的创新步伐,强化美国国土安全,转变教育和学习模式”。而英国、法国、日本等国政府也已经关注大数据和大数据技术,积极开展和推动政府和企业大数据的管理和大数据技术的应用。我国电子政务大数据的管理还处于发展阶段,更需要从国家战略层面规划我国电子政务大数据的发展策略,提升政府的数据管理和应用能力。
(2)制定相关的法律,保护大数据时代下的信息安全。在大数据环境中,电子政务所依托的非关系型数据库中,在访问控制中并没有设置严格的访问控制和隐私管理工具,同时由于电子政务大数据来源的广泛性和复杂性,让政府部门定位私密信息的界限变得复杂起来。由于云管理中将数据储存在同一个地方,虽便于数据保护但同时也容易成为黑客的攻击目标。因此这就需要政府部门加强立法,保护个人隐私安全。面对技术进步以及信息呈几何级数增长,立法部门一方面需要使相关法律更加具体和细化,其反应机制也应该越来越快,为监管部门提供及时有效的监管依据;另一方面,需要借鉴他国立法经验,以及各国政府之间的合作,共同保护云环境中大数据的安全。
(3)建立云计算和电子政务大数据的标准。可以说云计算和电子政务大数据管理和技术标准是政府大数据有效管理的前提和基础。例如云的外部特性与接口,包括互操作、业务迁移、安全以及电子政务大数据的采集标准、质量标准、数据生命周期管理标准、数据安全标准等的研究和应用问题都期待解决。全球范围内的云计算标准化工作已经启动,全世界已经有30多个标准组织宣布加入云计算和大数据相关标准的制定行列,并且这个数字还在不断增加。因此,面对大数据的挑战,我国政府也需要积极参与云计算标准和大数据标准的制定,为各级各类信息系统的网络互连、信息互通、数据共享和安全奠定基础。
(4)积极培养数据分析人才。大数据最关键的部分是挖掘和分析数据。大数据分析主要基于预言建模或未来趋势分析。但是传统数据分析师并不具备开发预言分析应用程序模型的技能。而且大数据源很多来自非结构化数据,数据源的广泛性和类型的复杂性等因素也制约了对数据的分析和挖掘。
大数据需要三类人才:第一类是云计算方面的人才;第二类是掌握计算框架和基础算法,并能很快部署到云计算和需要掌握机器学习和知识图谱的人才;第三类是具备数学、统计学、数据分析、商业分析和自然语言处理的应用型人才。人才短缺是制约大数据领域发展的重要因素。而政府、大学、企业合作,是培养大数据人才的重要途径。在大数据理论和技术研究领域,大学具有一定的优势,但是大学不生产大数据,政府和企业的大数据为人才培养提供了重要的实践场所。为了适应大数据的发展,这种大数据人才培养模式在我国已经开始,例如北京航空航天大学计算机学院、软件学院和百度、淘宝、腾讯等企业合作,联合开办国内第一个大数据专业工程硕士,为大数据人才的培养提供重要的平台。
[1]韩振.政务数据中心体系结构及其访问控制机制的研究与设计[D].杭州:杭州大学硕士论文,2009:34-35.
[2]杨卓荦.数据仓库分布式列存储技术研究与实现[D].昆明:昆明理工大学硕士学位论文,2012.
[3]张春艳.云计算下的SRINT并行算法研究[J].软件,2010(11):57-61.
[4]刘勘,等.数据可视化的研究与发展[J].计算机工程,2002(8):9-10,71.
[5]冯海超.透视美国大数据爆发全景[J].互联网周刊,2013(1):38-41.