APP下载

大数据在电力行业的应用与挑战

2016-06-02孟祥君张伟昌王宗光国网山东电力公司山东济南250000

中国科技纵横 2016年1期
关键词:电力大数据数据挖掘大数据

孟祥君 张伟昌 王宗光(国网山东电力公司,山东济南 250000)



大数据在电力行业的应用与挑战

孟祥君 张伟昌 王宗光
(国网山东电力公司,山东济南 250000)

【摘 要】大数据(big data),是指数据规模特别巨大,以至于无法通过传统的软件工具和处理方式有效地对数据进行采集、存储、分析、整合、控制,达到数据的深度价值挖掘和辅助决策的信息资料。大数据具有4V特点:Volume(数据量大)、Velocity(实时性强)、Variety(数据种类多样)、value(价值大)。

【关键词】大数据 电力大数据 Hadoop 数据挖掘 分布式机器学习

【Abstract】Big data, refers to a huge amount of data, that it is unable to be collected, stored, analyzed, integrated and controlled by the conventional software tools and effective processing ways, in order to achieve the deep value mining and scientific decision-making.Big data has 4V features: Volume(massive data), Velocity(high real-time), Variety( various data types), Value(high value).

【Key words】big data; big data in electric power industry; Hadoop; data mining; distributed machine learning

1 引言

2014年7月28日 国务院印发《关于加快发展生产性服务业促进产业结构调整升级的指导意见》,更加明确了大数据技术在产业结构升级中的核心基础性地位。

能源产业的全面、协调和可持续发展,是我国经济实现平稳快速增长和转型升级的重要基础性保证。电力作为最主要的二次能源,其高效利用和优化配置,实现节能减排和服务转型升级,对于顺应低碳发展趋势、构筑绿色能源产业体系、减少资源浪费、促进产业结构升级、创建可持续性发展的节约型社会具有重大意义。

2 什么是电力大数据

近年来,随着全球能源问题日益严峻,世界各国都开展了智能电网的研究工作。智能电网的最终目标是建设成为覆盖电力系统整个生产过程,包括发电、输电、变电、配电、用电及调度等多个环节的全景实时系统。而支撑智能电网安全、自愈、绿色、坚强及可靠运行的基础是电网全景实时数据采集、传输和存储,以及累积的海量多源数据快速分析。因而随着智能电网建设的不断深入和推进,电网运行和设备检/监测产生的数据量呈指数级增长,逐渐构成了当今信息学界所关注的大数据,这需要相应的存储和快速处理技术作为支撑。

电力行业的大数据在电力的生产和使用过程中,伴随着发电、输电、变电、配电、用电以及调度等环节产生。

3 电力大数据的关键技术

3.1 数据挖掘

电力大数据的分析和挖掘主要面向结构化和非结构化数据,能够针对复杂数据结构、多类型的海量数据做有效的处理。

但目前电力行业的数据挖掘计算大多都是基于小数据集进行计算的,这是因为目前在大数据行业内主流的大数据计算框架还没有在电力大数据领域内得以普遍应用,使用传统方式做海量数据的挖掘计算往往需要数天甚至几个月的时间,这是人们在实际业务场景中无法接受的。而是用小数据集进行的数据挖掘操作,其真实性、可靠性都远不及基于海量数据的挖掘结果。这也是我们目前正在持续进行的研发重点。

基于Hadopp HDFS、HBASE的快速访问,基于Spark的分布式访问和分布式计算,基于R和Spark mllib的统计、计算、分析,基于Mahout的机器学习,共同构建了基于大数据的高性能流计算的数据挖掘、统计、分析技术框架。

3.2 实时计算

电力行业的实时计算在其大数据应用领域内具有不可忽视的地位。电力行业的实时数据往往代表着设备运行参数、生产环境的各项指标、客户的实时需求等等,这样的数据,其价值只有在其刚刚产生的时候,才是最大的。而且,在数据刚刚产生的时候,就对其进行移动、计算和使用才是最有意义的,这也符合数据应用的一般规律。因此,电力大数据一定要重视实时计算场景的应用。

现阶段,基于传统数据量实现的实时计算框架已经比较能够成熟的应用在电力行业。例如,在电厂中,以秒、分钟为单位采集电厂电力设备的各项运行指标、参数,数据采集完成之后,将被发送实时计算框架。在框架中,所采集到的参数指标将应用于数据挖掘建立的数据模型及电力专家长年积累的业务规则,实现设备故障检测、故障预警、设备状态评估等功能。实时计算完成后,计算结果及原始数据将被保存至数据库,供后续数据挖掘使用,而挖掘出的规则、知识、数据模型,也将重新应用实时计算的过程中,形成一套近似于自我完善的完整体系。但是,由于其单节点计算的瓶颈,没有分布式计算的概念,导致其能够同时支撑的实时计算模型有限,无法适应电力行业发展的需求。因此,电力行业的实时计算急需通过分布式内存计算的方式,解决数据量增大时计算性能受限的瓶颈。

充分利用Spark Streaming的分布式数据访问能力,基于Spark分布式计算平台和Spark分布式计算对R的整合,并结合Redis分布式内存数据库,完全可以解决海量数据下的电力大数据实时访问和实时计算分析。

4 主流的大数据技术

4.1 apache Hadoop

Hadoop是一个能够对大量数据进行分布式处理的软件框架。具有可靠性高、可扩展性高、访问效率高、计算效率高、容错性高、伸缩性强的特点,用户可以基于hadoop平台轻松架构和使用自己的分布式计算平台,开发和运行处理海量数据的应用程序,是大数据行业内,最为主流的大数据平台构建基础(如图1),其分布式存储系统和作业调度系统已经成为其他大数据框架的构建基础,居于主导地位。以Hadoop技术架构为核心的大数据技术架构生态系统构成目前最主流的大数据技术生态系统。大数据技术目前正处于快速发展时期,业界普遍预期,大数据相关技术架构,将在未来1-2年趋于成熟。

4.2 apache spark(分布式计算)

Apache spark是一款开源的数据分析集群计算框架,由于他基于内存的分布式计算设计,使得他的计算效率相比Hadoop自带的Mapreduce计算框架要高20~100倍。由于这样的性能优势,spark已经成为大数据行业内最为主流的分布式计算框架。

图1

Spark开发团队基于Spark计算框架,又相续研发出了分布式实时计算框架Spark Streaming和数据仓库Hive in Spark,这两款工具以其高计算性能、高容错性、巨大的数据处理规模、低端的学习成本已经逐渐在其相关领域内占据了不可替代的位置。

4.3 apache kafka(分布式消息系统)

Kafka是一款开源的基于队列实现的分布式消息订阅发布系统,主要用于处理活跃的流式数据,比较常见的是日志处理系统,在电力行业内通常作为实时数据与实时计算框架之间的缓冲区存在。他具有速度快、可扩展性好、可靠性好的优点。

4.4 apache Mahout(机器学习)

Mahout起源于2008年,最初是Apache Lucent的子项目,它在极短的时间内取得了长足的发展,现在是Apache的顶级项目。

Mahout的主要目标是创建一些可扩展的机器学习领域经典算法的实现,旨在帮助开发人员更加方便快捷地创建智能应用程序。Mahout现在已经包含了聚类、分类、推荐引擎(协同过滤)和频繁集挖掘等广泛使用的数据挖掘方法。除了算法,Mahout还包含数据的输入/输出工具、与其他存储系统(如数据库、M o n g o D B或Cassandra)集成等数据挖掘支持架构。

5 电力大数据的应用

电力大数据的价值在于挖掘海量数据隐藏的物与物之间的关系和规律,为企业电力生产、经营管理和电力服务在质量、效益、效率方面提高提供有力的支撑,促进电力资源配置、服务的优化。

电力生产过程中各个环节数据的融合、发掘,能够帮助发现电力生产的薄弱环节、寻找改进措施。电力生产大数据的挖掘和分析处理技术可以指导发电企业更好地进行设备运行状态评估及故障诊断、发电生产决策与控制等。

5.1 安全评估及故障诊断

基于数据挖掘技术的设备运行状态监视:基于DCS、PI等系统的实时数据和海量的历史数据,结合其他第三方系统数据(例如天气状况、电网调度历史数据等),建立机组安全运行状态模型,数据挖掘技术可以自动发现某些不正常的数据分布,从而暴露设备运行中的异常变化,分析潜在的不安全因素,协助运行和检修人员预测机组运行状态,并迅速找出问题发生的范围及时检修和采取对策。

5.2 发电生产决策与控制

基于数据挖掘技术的决策支持和控制:决策支持方面,发电企业门户系统的主要功能是统计和展示,并没有提供决策信息(例如某电厂的月度发电量指标、年度经营指标等如何制定);控制方面,当机组出现异常情况时.目前仍然是基于专家系统的控制方式,即依赖经验丰富的专家(值长),此时呈现在专家面前的数据量从几十条/min瞬时上升为几十条/s,数据量的激增使得专家在应对异常状况时也有较大压力,因此这种控制方式也已无法适应生产要求。数据挖掘技术具有定性分析能力。从大量数据中去除冗余信息,可将每一种状态的故障特征提取出来.成为判断机组状态、如何快速处理故障、准确决策的依据。

5.3 设备检修策略改进

基于数据挖掘技术的电力设备状态检修:首先收集设备的基础信息、历史运行数据、设备缺陷信息等,通过对历史运行数据和缺陷信息进行数据挖掘,得到设备缺陷状态下特征值及关联参数值,将挖掘得到的信息与设备当前运行监测值进行对比分析,即可以判断设备当前运行状态是否正常。例如,通过关联规则分析,往往可以发现A设备振动报警后。B设备也会有较大概率出现振动报警,该关联规则可以提供早期故障预测及原因分析。

在电力输送领域内进行电力的实时线损计算,通过智能电表采集到的海量能源数据,实时计算分线、分压、分区、分台区等等各种范围的线路损耗,从而为电网的调度、交易和检修提供支撑,有利于实现更为经济、可靠的电网运行方式,增强电力资源的配置能力。

除了电力领域之内在电力企业外部,电力大数据也为社会民生、经济发展的动向提供了有力的客观依据。目前,作为一种高时效性、高准确性的数据,电力数据已经被广泛的应用于分析经济发展水平、经济走势、产业分布情况,甚至政策实施效果等等科学问题。我们通过分析各种产业用电量之间的关系,深入研究产业结构与经济体系的变化特点,能够对未来几年内的电力需求情况有大致的预测,为社会经济发展提供了有力的支撑。

6 结语

电力大数据作为大数据领域内新兴的技术和理念,已经展露出其数据中蕴含的巨大价值和能量,其数据无论是与自身关联,还是与其他行业相关联,都是一笔巨大的待人挖掘的财富。

眼下,以数据为中心的信息化理念异军突起,正在逐步变革传统的信息化工作思路,促进信息化与工业化深度融合,给电力行业带来全新的工作方式和商业模式。在不远的将来,电力大数据一定能够变革传统的电力生产、营销模式,使电力产业以崭新的姿态出现在国民经济发展的大潮中!

作者简介:孟祥君(1975—),男,山东济宁人,本科,高级工程师,国网山东省电力公司,主要从事信息化管理工作;张伟昌(1971—),男,山东枣庄人,本科,高级工程师,国网山东省电力公司,主要从事信息化管理工作;王宗光(1971—),男,山东济宁人,本科,高级工程师,山东鲁能软件技术有限公司,主要从事电力信息化系统开发与建设管理工作。

猜你喜欢

电力大数据数据挖掘大数据
基于并行计算的大数据挖掘在电网中的应用
电力大数据应用研究与展望
一种基于Hadoop的大数据挖掘云服务及应用
电力大数据质量评价模型及动态探查技术研究
基于GPGPU的离散数据挖掘研究