APP下载

基于大数据的四大数据中心共享融合方法研究

2017-11-30庹宝林向灏帆李一

中国信息化 2017年10期
关键词:油用业务部门结构化

文|庹宝林,向灏帆,李一

基于大数据的四大数据中心共享融合方法研究

文|庹宝林,向灏帆,李一

在建设坚强智能电网的新形势下,智能电网对信息化的支撑能力提出了更高的要求,自2009年国家电网公司信息化建设提出了“信息化建设和智能电网的发展还存在一定差距”的问题以来,建立的SG186工程在近几年的信息化建设中有效地提升与改善了信息资源的集成、信息系统的应用深度和实用化、生产控制与管理业务的联动效果。建设完成后,信息化系统从上万套精简至2300余套、所有各项业务处理周期缩短了30%、财务月结速度平均缩短50%、电费资金到帐时间缩短70%等,产生了极大的社会与经济效益。但在后续发展中仍然面临以下问题:

“整合医院整体信息平台、改善医疗服务系统、打造医患信息终端,是2013年至2018年医院信息化建设的三大方向。”王立明介绍,在“互联网+医疗+服务”的理念和实践之下,医院原有诊疗全流程正在被颠覆。

四大数据中心间数据仍然存在信息壁垒。四大数据中心的建设初衷,即实现国家电网数据资产的统一管理、集中利用,但四大数据中心间的数据互通、数据共享仍不能完全满足,进而间接的形成了新的信息壁垒。

各数据中心间交集过少,业务需求分散。四大数据中心的基础数据均来源于业务部门,但各数据中心之间的数据并未产生过多的交集,导致业务部门数据分离存放,不同业务部门之间的不同类型的数据无法更深层次的利用。

数据价值挖掘的基础数据不足。现有四大中心共存的情况下,各中心数据之间依然存在壁垒。形成四大数据中心的共享融合体系后,将各中心的数据统一进行管理、分析,使四大数据中心的基础资源融为一体,扩大了数据覆盖面,此时将会得到更好的收益。

一、四大数据中心概述

依据“统一领导、统一规划、统一标准、统一建设”的建设原则所建立的四大数据中心,作为SG-ERP的基础支撑平台,对外提供公共服务及工具,满足公司各项业务对数据全生命周期的管理及利用需求,均承担着重要的使命:

(一)结构化数据中心

结构化数据中心建立了一个标准的、开放的模型,提供通用的数据接口,以满足发电、输电、变电、配电、用电和调度环节的数据需求。结构化数据中心建设以来,形成了全网统一的管理标准、编码、模型和数据的工具.

从图2看出,油用牡丹叶量以油用牡丹-核桃套种模式最低,油用牡丹-香椿套种模式最高,油用牡丹单一种植仅次于油用牡丹-碧桃套种。复叶数以油用牡丹单一种植模式最多,其余依次为油用牡丹-碧桃套种、油用牡丹-香椿套种、油用牡丹-核桃套种。结果荚枝数和果荚总数均以油用牡丹-香椿套种最多,油用牡丹-核桃套种最少。叶片是植物光合作用的重要器官,而果荚数与产量相关。因此,相较于其他栽培模式,与核桃套作模式下,油用牡丹的生长和发育在一定程度上受到了制约。

(二)非结构化数据管理平台

1. 资源的节省

(三)海量历史准实时数据管理平台

各单位智能电网调度技术支持系统(SG-OSS)、输变电状态在线监测系统、用电信息采集系统、能效管理数据平台、配电自动化系统等的试点建设和推广,不断产生大量实时数据,继而沉淀形成了海量的历史数据,这些数据是公司的重要资产,是实现精益化管理的重要基础,需要通过海量历史/准实时数据管理平台实现这些数据的集成与共享。

(四)电网GIS空间信息服务平台

2. 海量数据的存储与分析处理

二、国内外大数据共享融合

(一)某大型企业大数据融合整体规划

该企业大数据包含着大量的信息,需要通过大数据技术支撑数据价值的深度挖掘,为社会提供更多的信息便利。电信行业大数据主要面临数据规模大、关联查询复杂、即席查询多三方面的问题,在国内,解决上述问题的主流思路是:以基于MPP架构的新型数据库集群作为大数据处理平台的核心,管理结构化大数据。使用基于Hadoop的数据处理技术管理非/半结构化大数据,并用事务型数据库(如南大通用BC-RDB系统)支撑在线业务系统,这两者同时为MPP架构的新型数据库集群提供数据支撑。

物理教学“对分课堂”教学模式正在各大高中如火如荼的开展中,我校也应当把握住课程改革的机遇,及时调整教学方案,培养一批高素质、高水平的物理教学人才,从扎实教学基本功做起,鼓励开展教育创新和教育突破,为实现新课标大背景下物理教学的新目标而努力,遵循人教版教材的教学大纲和“对分课堂”的教育理念,将物理教学办好办精,培养高中学生的物理学习兴趣,为高级人才的培养做出贡献.

(二)某大型企业的大数据分析处理架构

数据源:除该种方法之外,还可以分为离线数据、近似实时数据和实时数据。数据存储的结构,其中重点是流数据,它的核心就是数据的连续性和快速分析性;

计算层:内存计算中的Spark是UC Berkeley的最新作品,思路是利用集群中的所有内存将要处理的数据加载其中,省掉很多I/O开销和硬盘拖累,从而加快计算。而Impala思想来源 于Google Dremel,充分利用分布式的集群和高效存储方式来加快大数据集上的查询速度,近似实时查询;底层的文件系统HDFS, 也就是Hadoop的底层存储。上层的YARN就是MapReduce的第二版,综合起来,就是Hadoop最新版本。基于之上的应用有Hive,Pig Latin,这两个是利用了SQL的思想来查询Hadoop上的数据。

任何企业的发展离不开人才,在企业中同样要培养信息人才,将信息人才作为企业发展的人才储备库。培养高素质的信息人才,无论是从信息技术方面,还是计算机的相关知识方面,都要定期对其进行培训,对人才展开针对性的培训体制,推动企业的信息化发展进程,培养一直综合素质较高的信息化人才队伍,为企业的未来发展奠定坚实的人才基础。

3. 高效简洁的数据资源

三、四大数据中心共享融合方法实现

国家电网公司在十二五规划中,完成了虚拟池的建设,对业务系统与数据库进行纳管,其为数据中心的共享融合提供基础。对于大数据来说,是需要更强的决策、洞察发现力和流程优化能力来适应海量、高增长率和多样化的信息资产;仅湖北公司,其四个数据中心的总量数据,以每年约5T的速度飞速增长,特别是非结构化与海量的数据,结构化和GIS的数据相对增长平滑。

(一)共享融合的技术方法研究

共享融合,技术架构上遵循四层模式,其核心优势如下:

Hbase+HDFS—更高效数据仓库:

为了提高测控系统的稳定性,电源电压的串联级数越少越好,在器件选型时将器件的供电电压作为一个考虑因素。测控系统硬件电路中各器件的供电电压有-3.3 V、3.3 V和5 V 3种。因此可采用三级变换的方式来提供各器件的供电电压,即24 V到5 V、5 V到3.3 V以及3.3 V反转为-3.3 V[9]。

自从2004年国内初步接触到机构知识库,我国高校图书馆在机构库的理论研究和工作实践上都有了长足的发展,在机构库的建设内容和质量上也有了很大的提高。但是,我们也应该承认,高校机构库的整体建设并不乐观,机构库要想健康发展,还需要克服很多困难和障碍。主要集中在以下几个方面。

HDFS在对超大文件、流式的访问数据、硬件需求上均有较大优势,而引用Hbase将大量小文件的存取效率提升。

内部滥用方面要从规范严谨的资源管理制度入手。构建规范严谨的数据管理制度,数据资源与业务数据明细需要分开管理,严格按照业务部门对其权限范围数据明细负责,而数据资源统一由数据资源主管部门统管;即数据资源与数据明细作为数据价值不可分割的两面,在管理上相对独立,以保障其数据价值,至少要由两个独立的部门联合协同才可以被正常使用。

Spark在内存分布式计算框架有绝对的优势,而Storm的并行使用提升了实时流数据的处理效率。

技术框架中,通过Kettle等数据转换工具,将数据整合至关系型、非关系型数据库中,HDFS存储文档,再通过统一的SG-CIM规范,将数据关系进行映射,其上通过分布式的计算来承载巨量的数据应用。

(二)共享融合的管理方法研究

数据架构进行变更以后,带来了管理方式的变更。分散的各业务部门自行主管,或业务部门和信息部门共同主管的模式,已经不能满足统一数据中心的管理模式;统一的数据中心,除了管理数据结构、数据属性、业务价值以外,还有数据字典明细的管理,其在逻辑上统一的整体,在数据价值方面又具有多属性。在管理方式的变更上:

第一步,应该收回分散到业务部门的数据中心管理权限。统一数据中心作为共同的数据载体,需要收回数据资源的管理权限,以保证数据资源能够有序的,进行整体规划、共同的协作。

第二步,明确数据资源主管部门与业务部门的职责与权限。由数据资源主管部门或信息部门管理归集,同时数据的存取及形态对用户、业务部门隔离。

共享融合遵循SG-CIM的规范,其逻辑统一,同时包括异构数据,其数据总量已达到24T,在统一的数据平台的搭建上,平稳、可控的数据迁移过程是必须关注的重点。国网湖北省电力公司在信息环境的基础设施建设中,已完成虚拟化和云存储的相关部署,而非结构化平台的数据已完成迁移至资源池的建设中,结构化数据中心目前仍由物理机负载其应用,可采用数据抽取、数据迁移等方法迁移到资源池中,入池以后,通过VMware虚拟化技术进行统一数据中心的逻辑构建。

(三)共享融合的关键要点

1. 统一数据平台的建立及数据的平稳迁移

第三步,对数据资源的使用及变更,需要提前规划,做好数据字典映射关系库的变更,杜绝未规划、无记录的进行变更。数据资源的使用必须提前规划,对于特定的业务数据需求,由业务部门统一提交给数据资源管理部门,由资源管理部门进行评审、变更,并按要求做好数据字典映射关系库的维护;因工作流程的变更,相对整项工作的周期可能变长,这也对业务部门、资源管理部门提出更高的规划管理要求。

电网地理信息系统(GIS)作为一种电网资源综合集成管理与可视化分析的有效手段,可广泛地应用于电网企业的发电、输电、变电、配电、调度、营销、通信等各个专业,对有效提高数据采集、分析、处理能力,提供电网分析辅助决策支持,降低企业生产运营风险。平台通过与各业务系统的集成,构建统一数字化电网,提升电网的精益化管理水平,建设了开放式的、面向企业级应用的电网空间信息服务平台。

统一数据中心,其数据量将由统一数据中心进行负载,其特点是数据量巨大、高吞吐、存取快、数据类型多。统一数据中心的数据存储,不再是单一的存储模式,而是包括关系型数据库,例如Oracle、Mysql、Sql Server、达梦等;分布式文件存储,如HDFS;非关系型数据库如HBase等。其完成共享融合后,数据总量巨大,且业务模式由直接对单独的数据中心请求,变成直接向统一数据中心业务请求,由统一数据中心调度、分配各业务请求,因此统一数据中心的业务请求量为四个数据中心业务总和,为解决巨大的业务数据计算问题,在整个架构过程中,需要考虑引入分步式计算框架,如Hadoop、Spark,以保证其高效。

More research on US domestic affairs and international changes will help us to enter the new phrase of Sino-US ties with more faith.

3. 共享融合的数据安全

一日中饭后,喜姑正在家里闲着,就想着去香娭毑家里喝茶,然后晚上一起去师傅家里学戏,一出《刘海砍樵》,还只学了一半呢!就在这时,宝刚爹来了,宝刚爹站在门外,嗡声嗡气地喊,喜姑,喜姑,你姐要你去我家里坐坐。

统一数据中心,纳管数据量巨大,其数据安全的问题也是直接影响信息系统稳定可靠的重要因素,数据安全方面,主要从外部入侵和内部滥用两部分入手。

1.因变量。农村化学品企业产值(Outputjt),其中,j和t分别代表省份和年度。本文以《规划》中明确规定的化学品污染重点防控产业中农村化学品企业总产值作为因变量的替代变量。

外部外侵方面要采用完善的安全策略,构建高效的大数据信息安全模型,来实现数据信息的安全。首先,可以通过一定的工具,在数据收录和存储阶段完成数据类型的划分;其次,要在架构层上构建完善的防入侵安全体系;最后要确保大数据框架下各个节点之间的加密安全的通信,降低大数据的攻击。

Storm+Spark—更高效的分布式计算系统:

四、数据共享的效益分析

(一)经济效益

开展非结构化数据管理平台的技术研究与建设,有利于在公司范围内建立统一的非结构化数据管理标准,逐步消除数据孤岛,促进业务流程规范融合、运营管理高效协同,将非结构化数据贯穿企业日常生产、经营、管理和决策全过程,集中体现了公司信息化建设的整体工作思路

在四大数据中心完成共享融合,将会形成新的数据中心体系,届时可以集中利用软硬件资源,将数据的存储、计算、传输等集中处理,并可以将废旧设备利用共同进行分布式计算,这样不但可以节约现有的资源,同时也能将废旧资源进行再利用。

2. 统一数据标准

共享融合的实现,统一了对数据的各项操作,并可以根据该工作方式制定统一的标准,规范数据的存储、计算、传输等。实现一体化、精细化管理,提升工作效率。

收缩压(SBP)和舒张压(DBP)、合并症及病程。术前每例患者均行标准的经胸超声心动图检查,为减小测量误差,窦性心律患者,取3个心动周期的平均值,房颤患者取5个心动周期的平均值。根据MG(≥40 mmHg或<40 mmHg)及LVEF(≥50%或<50%)分为四组,即组1:高跨瓣压差正常射血分数组;组2:高跨瓣压差低射血分数组;组3:低跨瓣压差低射血分数组;组4:低跨瓣压差正常射血分数组,另设一正常对照组。

四大数据中心的融合不是简单的数据叠加,而是针对共性数据进行合并,非共性数据通过引导层进行共性关联。数据资源在此基础上实现了冗余最小化,使数据资源变得高效、简洁。

4. 数据挖掘与决策分析

将术后成模动物60只随机分为:模型组和丹酚酸B高、低剂量组(20、10 mg/kg),每组20只,另取20只动物仅开胸不结扎冠脉作为假手术组。各组均于术前7 d开始ip给药,每天1次,假手术组和模型组ip等量生理盐水。

在打破四大数据中心间的壁垒后,减少了数据的传输路径,不同业务部门之间的非共性数据也能通过更为简洁的方式进行关联。而统一的数据资源,通过共性关联,使业务部门之内、各业务部门之间均可以利用该资源进行深层次需求的发掘。

(二)社会效益

1. 更高的用电满意度

对各类基础数据进行收集、融合后,对历年的用电情况、并对未来的情况进行预测,实现对客户的用电信息进行预测,提高客户的用电体验度。

2. 更人性化的用户体验

大型工业立体仓库保持稳定是其安全作业的前提,结构稳定性原则需考虑上轻下重、成组货架质量相近两方面因素。

在清洗不同途径提供的数据,经过筛选之后,通过简单的界面定义,结合自定义模型,对数据对比信息进行直观的展示,使得用户快速、直观的查询到所需信息。

(三)数据价值挖掘

大数据的经典定义是可以归纳为4个V:海量的数据规模(volume)、快速的数据流转和动态的数据体系(velocity)、多样的数据类型(variety)和巨大的数据价值(value)。在4个V 中,统一数据中心关注其Value,即融合后的巨大的数据价值。

统一数据中心的系统的海量数据,通过结构化关系映射,业务已转变为以数据中心,基于清晰透明明数据资源,前端的业务可通过配置,自行建立多种的数据模型,以进行数据价值分析,例如关联海量的台区用电信息与结构化数据中的的售电信息,以计算其利润变化趋势,与此同时,可与ERP系统中的利润值进行比较匹配,更精益化的管理用、售电情况;地理切片信息可精准定位线路、台区等信息,结合非结构化信息中的杆塔、台区照片,可辅助判断其电力设备的运行情况;非结构化中的工程项目设计图,结合结构化数据中的相关项目属性,可作为知识库,在类似的项目开展时,提供成本、设计、人员等需求依据。

五、结语

随着电力系统的发展,智能电网对信息化的支撑能力提出了更高的要求,四大数据中心作为基础支撑平台,为数据的业务融合、智能决策提供了丰富的基础资源,对电力信息化的发展有着关键性作用。

本文提出了四大数据中心共享融合方案,不仅仅是电力产业某个技术环节所需要的专门性的技术,而是组成整个电力信息化的技术基石。将全面促进电网坚强、业绩优良、技术变革、精益管理等方方面面,它支撑的正是整个未来新结构的精细化能量管理的电力系统。

作者单位:庹宝林、向灏帆:湖北华中电力科技开发有限责任公司李一:上海博辕信息技术服务有限公司

猜你喜欢

油用业务部门结构化
浅析油用牡丹栽培现状及发展建议
——以柏乡县为例
借助问题情境,让结构化教学真实发生
改进的非结构化对等网络动态搜索算法
深度学习的单元结构化教学实践与思考
油用牡丹助农增收
左顾右盼 瞻前顾后 融会贯通——基于数学结构化的深度学习
油用牡丹助农增收
电力企业构建纪检监察与业务部门协同工作机制的研究
在当前形势下“业财融合”的发展
供电企业纪检监察与业务部门协同工作机制建设研究