中国能源大数据获取分析机制研究及实现
2017-10-18郑晓东胡汉辉赵林度黄建城
郑晓东, 胡汉辉, 赵林度, 黄建城
(1.东南大学 经济管理学院,江苏 南京 211189;2.江苏省电力设计院,江苏 南京 211102)
中国能源大数据获取分析机制研究及实现
郑晓东1,2, 胡汉辉1, 赵林度1, 黄建城2
(1.东南大学 经济管理学院,江苏 南京 211189;2.江苏省电力设计院,江苏 南京 211102)
借助信息系统的建设和智能传感技术的深入应用,能源行业采集了体量巨大、结构复杂的能源大数据,蕴含着极高的经济利益和社会效益,对能源行业的业务开展、管理提升、辅助决策等具有重要意义。基于能源行业的发展规律与方向,结合互联网大数据理论,梳理了能源大数据多源采集、管理、分析流程,提出了能源大数据获取分析机制和算法,在此基础上构建了能源大数据规划研究系统架构,并通过江苏能源规划研究平台进行了实证。结果表明,基于能源大数据获取分析机制和算法的江苏能源规划平台能够有效应用于实际生产,挖掘有效信息,支撑综合分析和辅助科学决策。
能源大数据; 大数据采集; 大数据存储; 大数据分析; 数据挖掘
0 引言
借助互联网+、信息化和智能传感等先进技术的深入应用,煤炭、石油、天然气、电力等能源领域数据及人口、地理、气象等其他领域数据正以高复合增长率快速膨胀[1-3],这些多源异构的海量数据共同构成了能源大数据。利用能源大数据,人们可以掌握更加丰富详实的实时信息、历史信息,进行时间跨度更大、涉及业务范围更广的综合分析,以辅助更优决策。例如,为克服新能源出力不稳的缺点,提高对新能源预测的准确度,人们需要充分考虑天气、气象等因素(如温度、气压、湿度、降雨量、风向、风力等变量),进行综合分析[4]。但是,现有的数据管理方式、数据分析方法难以支撑如此大量、复杂且快速增长数据的存储、管理与分析[5-6]。因此,急需引入能源大数据获取分析机制,以满足能源及电力行业各阶段不同的应用需求,加强信息数据采集、存储、加工、处理和分析全价值链的处理能力,为管理提升、优化整合、辅助决策及服务转型提供技术支撑。
本文基于能源行业的发展规律,利用互联网大数据理论,研究能源大数据获取分析机制,梳理能源大数据采集、管理、分析流程,构建能源大数据规划系统架构,并通过江苏能源规划研究平台进行实证。
1 能源大数据特征
能源大数据以“4V”为其典型特征,即体量大(Volume)、类型多(Variaty)、速度快(Velocity)和价值高(Value)。
(1)体量大:体量大是能源大数据的重要特征。随着信息化的快速发展和智能电力系统的全面建成,电力设备产生了大量的运营数据。同时,与电力存在能源转化和互通互动的供热系统、供冷系统、燃气系统、交通系统的数据都被纳入到能源大数据体系中,这进一步增加了能源大数据的数据规模[4]。
(2)类型多:能源大数据涉及结构化数据、半结构化数据和非结构化数据[6]。随着信息传播技术、多媒体技术的发展以及可视化功能在能源管理系统的普及,图像、音频、视频等非结构化数据在能源数据中的占比逐渐加大。此外,能源大数据应用过程中还需要大量的环境数据、经济数据等进行关联分析,这些都直接导致了数据类型的增多,从而极大地增加了能源大数据的复杂度。
(3)速度快:主要是指对能源数据采集、处理、分析速度的要求。能源大数据中包含着很多实时性数据,数据的分析结果也往往具有实时性要求,这需要能源管理系统有较快的响应速度和强大的数据处理分析能力[4]。
(4)价值高:能源大数据涵盖能源生产、配送、转换、交易和消费的方方面面,利用大数据技术挖掘有效信息,可以用于科学分析、预测、管理及规划,取得巨大的经济效益、社会效益和环境效益。
2 能源大数据获取分析机制
为充分挖掘能源大数据的有效信息,推动开展综合分析与合理预测,大力支撑科学规划与优化决策,需要研究并建立能源大数据获取分析机制。能源大数据获取分析流程主要包括数据采集与融合、数据存储与管理、数据分析与挖掘三个部分,三者紧密相连,层层递进,共同支撑起能源大数据的规划研究工作,流程图如图1所示。
图1 能源大数据获取分析流程
2.1能源大数据采集与融合
多源数据的集成技术是能源大数据获取机制的核心技术。能源大数据不仅包含能源类数据,还包含了大量其他类别的结构化/非结构化数据,如资源环境、经济社会数据等。因此,能源大数据的集成需要综合考虑多源数据的数据来源、采集方式和采集内容。具体而言,能源大数据的采集与融合主要包括如下内容:
(1)借助综合感知设备采集能源数据,包括燃气网、热力网、电网等来源的信息,如储能、微燃机、空气源热泵、太阳能热、生物质能、电动汽车充电桩等信息[7]。
(2)从电力运行、管理系统集成能源类数据,包括调度自动化系统、配网自动化系统、用电管理系统、智能电表AMI、地理信息系统GIS等[7]。
(3)从外部系统采集的能源相关数据,主要包括从统计部门网站和数据库采集的宏观经济数据、从气象部门网站和数据库采集的气候气象数据、从政府部门网站和数据库采集的相关法律法规数据。
(4)多源数据的采集可能会引发数据种类交叉、数据冗余、数据不一致等问题。这就需要通过制定数据校验与清洗规则,建立数据价值评估体系,从而消除多领域跨部门之间的数据孤岛与藩篱,解决多源数据冲突的矛盾[6]。
2.2能源大数据存储与管理
高效、可靠、低成本的存储与管理模式是能源大数据的关键技术之一,更是进行后续深度挖掘、科学分析的基础和保障。能源大数据的存储与管理,软件层面要能存储结构化数据、半结构化数据、非结构化数据,硬件层面则需要合理利用底层的物理设备性能,满足上层应用对存储性能和可靠性的要求。最适合的方式是采用分布式文件系统和分布式数据库。
(1)分布式文件系统:分布式文件系统向用户提供底层的数据存储与管理功能,用户可以将数据存放在分布式文件系统中,并可对其进行读、写、编辑、删除等操作。与传统的文件系统不同的是,分布式文件系统存储的资源并非集中在单一的主机或服务器上,而是分散在一个网络中,文件通过层级结构和统一的视图在用户之间共享。
主流的分布式文件系统有GFS和HDFS。GFS是Google公司为存储海量搜索数据而设计的一个可拓展的分布式文件系统,它可以被部署在由廉价的普通硬件组成的集群上,通过容错功能为用户提供高效、可靠的服务。HDFS是Apache基金会对GFS的编程实现,已发展成为Apache的核心开源项目。GFS和HDFS的架构遵从主/从框架体系,主服务器作为管理节点,保存系统的元数据,并负责整个文件系统的管理;数据服务器负责具体的数据存储和读写操作,数据被划分后以数据块的形式存储在不同的数据服务器上。主服务器和数据服务器之间通过心跳机制保持联系,并不进行数据传输。这种设计大大降低了主服务器的负载,提高了系统的稳定性和可拓展性。
(2)分布式数据库:分布式数据库的基本思想是将数据库管理系统的完整拷贝副本,或者部分拷贝副本放置在不同的主机上并在主机上建立自己局部的数据库。将这些分散的主机通过网络进行连接,共同组成一个完整的、全局的、逻辑上集中、物理上分布的大型数据库。
分布式数据库的种类繁多,主流的分布式数据库有MySQL、Oracle、SQL Server、MongoDB、BigTable、HBase等。其中,MySQL、Oracle和SQL Server是行导向的数据存储系统,是传统关系型数据库管理系统在分布式环境上的应用;MongoDB是文档导向的数据存储系统,其具有广泛的适用性,可运行在Linux、Windows或OS X平台;BigTable和HBase是列导向的数据存储系统,这类数据库十分适合批量数据处理和即时查询。
能源大数据包含的数据结构复杂、种类繁多,能源领域不同业务的数据需求方面差异也较大。因此,需要全面考虑数据量、存储模型、读写频度、响应时间等因素,结合大数据存储技术,建立能源大数据的综合存储体系,进行数据优化管理。结构化数据可采用行式数据库进行存储,非结构化数据可采用HDFS等分布式文件系统进行存储,半结构化数据可采用列式数据库进行存储。
2.3能源大数据分析与挖掘
能源大数据的分析与挖掘是发掘数据价值、支撑优化分析、辅助科学决策的关键技术。对于规模巨大、结构复杂、变化迅速、价值稀疏的能源大数据,其处理亦面临计算复杂度高、任务周期长、实时性要求高等难题。为解决这些难题,不仅要引入互联网大数据处理技术来加强数据计算与处理能力,更需要立足能源系统业务需求,梳理分析能源行业工作特色,拓展创新能源领域的应用方向。
(1)大数据分析技术
能源大数据的深度加工和有效表达需要借助专业的统计分析工具,主流的大数据分析方法有:遗传算法[8]、神经网络[9]、回归分析[10]、空间分析[11]、时间序列分析[12]等。
(2)能源大数据应用方向
数据采集与监视控制:以电力系统自动化的实时数据为基础,采用分布式控制框架,建立电力自动化监控体系,对现场的运行设备进行监视和控制,实现数据采集、设备控制、测量、参数调节以及各类信号报警等功能。
能源供需预测:从已知的经济、社会发展和能源(电力)需求情况出发,通过对历史数据的分析和研究,探索事物之间的内在联系和发展变化规律,以未来年份经济、社会发展情况的预测结果为依据,对能源(电力)需求作出预先估计和推测,是能源项目研究、规划、建设的基础。
能源(电力)规划:研究整个电力系统中各个电站如何配合运转、供电条件在年、月、日中的变化情况以及各发电厂机组进行年计划检修的时间安排和负担全系统负荷备用、事故备用等情况,根据系统负荷要求对已建成的和正在规划、设计中的水、火及新能源电站的容量和发电量进行合理安排,使他们在规定的设计负荷水平年中达到容量和电量的全面平衡。
智能电网分析:融合地理信息数据与电网数据,将不同区域、不同年份、不同类型的电网数据整合到地图中进行直观展示,在给定电力系统网络拓扑、元件参数和发电、负荷参量条件下,计算有功功率、无功功率及电压在电力网中的分布,并将计算结果显示在电网图中,以此检验电网规划方案的可行性、科学性,辅助分析决策。
3 能源大数据平台建设
江苏省能源规划研究中心设在江苏省电力设计院,负责开展江苏省能源发展战略、规划和政策研究,新技术研究及推广,能源信息收集及分析以及能源项目咨询和评估等工作。为了充分利用上述能源大数据获取分析机制指导能源规划研究工作,提升能源系统智能化、信息化水平,江苏院联合软件商建设了江苏能源规划研究平台,该平台与国家能源局现有相关系统原理一致,模型真实、算法权威,技术先进。
3.1总体设计
江苏能源规划研究平台将接入国内外商业数据资源,尤其是江苏能源信息,同时集成江苏院已有信息资源,实现各类能源数据信息的整合管理,支持各类分析、规划研究业务的开展。基于上述能源大数据获取分析机制,平台总体架构如图2所示。
(1)基础设施层:通过VMWare虚拟化平台抽象成计算资源、存储资源、网络资源来进行灵活扩展、统一管理、对外提供透明的服务。
(2)数据采集层:主要衔接院内已有信息系统与外部各类信息来源,形成数据采集机制,依据不同的数据来源通过数据抓取、系统接入等多种方式完成数据采集录入。
(3)数据存储层:主要承载系统涵盖的所有数据,主要利用分布式的存储系统与文件系统,实现对各类结构化与非结构化数据的存储与管理,非结构化数据采用HDFS分布式文件系统存储,结构化数据采用分布式数据库存储,并建立数据仓库。
图2 平台总体架构
(4)数据处理与分析层:实现对各类数据的统一管理,涵盖数据抽取/清洗/转换并接入,同时利用大数据的流式、分布式、内存计算能力,依据平台需要的分析功能,构建出各类数据挖掘模型,同时提供各类统计分析功能支撑。
(5)平台服务层:服务层主要将本平台的基础功能以REST风格的Web服务发布,包含数据可视化、规划仿真、数据分析、数据管理等。
(6)平台管控层:平台管控层主要提供负载均衡、状态监控、故障告警等管控功能,确保平台的稳定运行。
(7)平台应用层:涵盖平台的能源信息、能源项目、负荷预测、电力平衡、新能源消纳、电网分析等应用模块。能源信息与能源项目实现各类数据接入、采集,并对数据进行清洗、整合,形成最全面的规划研究指标体系,为平台提供基础数据支撑。负荷预测、电力平衡、新能源消纳、电网分析作为系统专业研究模块,能够对接不同专业仿真计算模型,实现科学的规划研究,具体平台功能架构如图3所示。
图3 平台功能架构
3.2建设内容
(1)能源基础信息管理:江苏能源规划研究平台充分考虑了能源大数据的复杂性和多样性。平台建立了稳固的信息采集渠道,广泛集成了全方位的能源综合数据。数据类别涵盖基础地理信息数据、能源生产、能源消费、能源交换、能源能效、能源需求数据、电源数据、电网数据等,具体数据分类如表1所示。同时,系统对数据指标进行归纳,形成种类齐全、覆盖面广的能源规划数据指标体系。
在采集信息的基础上,江苏能源规划研究平台构建了能源基础信息库,通过数据仓库实现对能源大数据的管理与存储。通过索引库实现各类指标索引数据的更新和管理,一方面可以提高数据的查询效率;另一方面可以保证索引的时效性和准确性。能源基础信息管理主要功能有:数据存储、数据检索、统计分析、数据可视化、数据输出、数据维护等。可视化查询界面如图4所示。
(2)能源(电力)需求预测:平台借助经典负荷预测算法,如弹性系数法、回归分析法、用电单耗法、增长率法、滑动平均法、负荷密度法对能源大数据进行计算,预测电力需求。其中,弹性系数法、用电单耗法、增长率法采用用户设置的负荷预
表1 江苏能源规划研究平台数据分类
图4 数据可视化查询界面
测参数进行计算得到结果;回归分析法、滑动平均法、负荷密度法采用样本分析的方法得到预测结果。此外,平台在省级负荷预测的基础上提供地市负荷预测功能,能精准计算各地市的负荷预测结果。能源需求预测如表5所示。通过建立基础性、长效性、动态性的电力需求预测模型系统,辅助规划人员更准确地判断江苏省及各地市能源(电力)需求发展趋势,有利于能源(电力)规划研究工作的准确把握。
表5 能源需求预测表
(3)能源规划:建立火电消纳模型和新能源消纳模型,进行规划区域内的火电、风电光伏消纳能力的预测分析。其中,火电消纳模型的电力平衡计算基于扫描切割负荷曲线的方法,通过对各类电源逐机组逐月安排工作位置进行电力平衡计算并合理统筹安排电源检修计划;新能源消纳模型根据各类电源工作位置计算调峰裕度曲线,根据风电光伏的输入计算风电光伏实际可以消纳的电量,更新调峰平衡中的备用容量和系需电力,各类电源的发电利用小时数,整理结果,完成计算。同时建设了可视化的在线数据维护与计算平台,并可智能输出研究报告,辅助能源规划研究与决策。
(4)电网分析:平台融合地理信息数据与电网数据,在地图上对不同区域、年份、类型的电网方案进行直观展示。此外,集成了多个专业电网分析的模型和算法,对电网方案进行潮流计算,并将计算结果以潮流图的形式进行展示。结合可视化信息平台的优势,对不同的电网规划方案进行对比与修正,在满足规划期内输电能力要求及各项技术指标的前提下统筹优化电网建设。
3.3建设成果
(1)实现了基于大数据技术的数据获取与可视化管理。基于大数据技术,建立了涵盖电力、石油、天然气、煤炭、新能源等各类能源信息的综合型能源基础数据库,整合现有资源,持续收集、积累各类业务相关数据,并建立了能源资源数据的标准化管理流程,为江苏省能源战略规划和产业布局等相关咨询工作提供基础数据支撑。
(2)实现了基于大数据技术的分析挖掘。建设了基于大数据的能源(电力)研究平台,针对江苏省内特点,集成与开发了能源(电力)需求预测分析、电力电量平衡、新能源消纳分析、电网分析计算等模型,提高了设计工作的科学性、宏观性、全面性和效率性。
(3)实现了信息化与规划研究业务紧密结合。以国家能源规划研究为研究对象,建设了具有数据全面权威、可视化的数字化工作平台。系统遵循简洁、友好、易用等原则,考虑用户使用习惯和使用频次,对功能与界面进行了合理的划分,从而辅助能源规划工作的高效开展。
4 结论
改进能源生产利用方式,提高能源利用效率和智能化程度,建设以清洁能源输送为主导的低碳环保、安全高效的现代能源体系是能源行业的发展方向。这一发展方向离不开对能源大数据的深入研究与探索。研究能源大数据获取分析机制能够促进能源生产和输送企业的业务变革,提升能源领域的智能化水平和管理水平,为加快能源发展改革、实现清洁能源目标提供坚实的理论基础和技术支持。
基于能源大数据获取分析机制的江苏能源规划研究平台在现阶段取得了显著成果。平台实现了能源(电力)大数据的采集、存储、分析、展示的一体化操作,大大提高了工作效率、管理水平和决策能力。
此外,能源大数据获取分析机制还存在较大的改进创新空间,一方面,现有的大数据分析技术多数仍处于研究或初步应用阶段,本身还存在一定的缺点,如数据收集和处理的工作很大,分析计算比较复杂,未经实地验证等;另一方面,能源行业发展迅速,新的业务需求和应用方向不断涌现。因此,今后还需要进一步结合能源行业的业务需求和发展方向,继续完善数据采集方式、优化管理平台和创新分析模型。
[1] 杨佩, 蔡皓, 裘洪彬,等. 面向能源互联网的大数据关键技术研究[J]. 电力信息与通信技术, 2016,14(4):9-12.
[2] 刘敦楠, 唐天琦, 赵佳伟, 等. 能源大数据信息服务定价及其在电力市场中的应用[J]. 电力建设, 2017, 38(2):52-59.
[3] 饶玮,蒋静,周爱华,等.面向全球能源互联网的电力大数据基础体系架构和标准体系研究[J]. 电力信息与通信技术, 2016,14(4):1-8
[4] 刘世成, 张东霞, 朱朝阳,等. 能源互联网中大数据技术思考[J]. 电力系统自动化, 2016, 40(8):14-21.
[5] 薛禹胜, 赖业宁. 大能源思维与大数据思维的融合(一)大数据与电力大数据[J]. 电力系统自动化, 2016, 40(1):1-8.
[6] 薛禹胜, 赖业宁. 大能源思维与大数据思维的融合 (二)应用及探索 [J]. 电力系统自动化, 2016, 40(8):1-13.
[7] 李栋华, 耿世奇, 郑建. 能源互联网形势下的电力大数据发展趋势[J]. 现代电力, 2015, 32(5):10-14.
[8] 马永杰, 云文霞.遗传算法研究进展[J]. 计算机应用研究, 2012, 29(4):1201-1206.
[9] 范高锋, 王伟胜, 刘纯,等. 基于人工神经网络的风电功率预测[J]. 中国电机工程学报, 2008, 28(34):118-123.
[10] 康重庆, 夏清,刘梅,等. 应用于负荷预测中的回归分析的特殊问题[J]. 电力系统自动化, 1998,22(10):38-41.
[11] 苏海锋, 张建华, 梁志瑞, 等. 基于GIS空间分析与改进粒子群算法的变电站全寿命周期成本规划[J]. 中国电机工程学报, 2012, 32(16):92-99.
[12] 孙文文, 刘纯, 何国庆,等. 基于长时间序列仿真的分布式新能源发电优化规划[J]. 电网技术, 2015, 39(2):457-463.
Investigation and Implementation of Acquisition & Analysis Mechanism of China’s Energy Big Data
ZHENG Xiaodong1,2, HU HanHui1, ZHAO LinDu1, HUANG Jiancheng2
(1.School of Economics and Management, Southeast University, Nanjing 211189, China; 2. Jiangsu Power Design Institute Co., Ltd. of China Energy Engineering Group, Nanjing 211102, China)
With the progress of information technology and reform of energy industry, the energy data which are huge in volume and complex in structure is daily increased. The energy big data are of high industry value, commercial value and management value as well. The energy big data have attracted increasing attention in the energy field in recent years. Based on the development of the energy industry and the internet big data theory, the paper investigates the acquisition and analysis mechanism of energy big data, and arranges the processes of the data collection, data management and data analysis, and then constructs a planning and research system. The Jiangsu energy planning and research platform is taken as an example to demonstrate the research contents of this paper. It is found that the acquisition and analysis mechanism proposed can be effectively applied to practical production and information mining, and it can also support the comprehensive analysis and scientific decision-making.
energy big data; big data collection; big data storage; big data analysis; data mining
10.3969/j.ISSN.1672-0792.2017.09.001
TP315
A
1672-0792(2017)09-0001-07
2017-05-31。
国家自然科学基金面上项目(70673010)。
郑晓东(1976-),男,博士,高级工程师,东南大学博士后,主要研究方向为企业信息化、知识与信息管理、系统工程等。