电网大数据跨行业数据融合交互途径研究
2018-02-06吴永欢
张 雨 吴永欢
(广州供电局有限公司,广东广州510620)
0 引言
当前,国内外电网企业已经在工业用电负荷预测、电网网架建设优化、95598供电客户服务等内部基本业务应用的大数据分析方面做了一些尝试,奠定了一定的基础[1]。在此基础之上,电网企业面对庞大的数据资产,应当考虑的另一个重点应用方向是电网企业内外部数据的交互。遵循这一思路,电网企业将不再局限于以往的传统输配电业务模式,而将发掘出更加丰富多彩的商业模式,实现业务价值向电网外部的拓展,并最终实现跨行业的产业升级。
1 电网数据跨行业数据融合交互的发展现状
大数据正在改变着各行各业,近年来互联网产业呈现出井喷式的增长,涌现出了线上贸易、线上金融等互联网与传统行业相融合的创新途径,并取得了丰硕的成果。电网企业通过各类表计、监测设备等所记录的海量数据中,蕴藏着巨大的价值财富,同时也具有独特的数据价值发掘需求[2]。但由于历史体制原因,过去电力行业与其他领域跨行业交互融合的情形还比较鲜见。
如今国家“互联网+”行动计划的蓬勃开展,为社会各部门跨行业数据合作提供了可能。电网公司与其他公用事业管理部门及社会企业进行合作,在一定程度上打破数据壁垒,可以提高整个社会的运行效率。
2 外部数据与电网的融合交互
2.1 数据融合的作用
数据融合的概念,最初是针对多传感器系统而提出的。在最初的多传感器复杂系统中,传感器上送的信号具有信号数据的海量性(Volume)、信号形态的多样性(Variety)、相互连接的价值性(Value),以及研判处理的实时性(Velocity),当时都已经远远超出了过去任何聪明的人类大脑的处理能力。在这种情况下,就出现了多传感器复杂系统信号融合技术。
在当今的大数据时代,数据融合的实质是针对多来源、多维度、多形态的复杂海量数据进行碰撞关联以及线索分析,寻求和发掘数据的价值,进而提取优化的管理模式和技术路线[3],以发掘提取低价值密度数据的价值,提高数据的可利用率。为此,电网企业需立足自身数据资产以及与外部数据的关联能力,将大数据技术与具体业务场景相结合,发挥数据挖掘的巨大作用。
2.2 数据融合的途径
电网企业数据融合可以涵盖很多场景,比较典型的包括天气数据、工商税务数据、实时交通数据、行业经济动态数据等。除此之外,还有许多种数据融合的形式可以为电网所用。凡是与电网发生关联的、可以获取到的数据,都值得研究其数据融合价值。
2.2.1 气象数据
气象部门的气象数据,对于电网运行是至关重要的。温度的高低会影响负荷,内涝、干旱会导致农业灌溉负荷陡降陡升。飓风、强降水等灾害性天气通常会使得电力需求明显变低。在输变电设备运行的影响方面,大雪、冻雨容易造成高压线路断股、断线,严重覆冰的情形甚至会导致倒塔,沙尘或污染物难以扩散的无风天气容易造成输电线路污闪,强风容易造成输电线路相间放电,雷击容易造成开关跳闸等。在电力施工的影响方面,大风、雨雪等恶劣天气会对室外的电力施工、检修等带来不同程度的不利影响。电网企业融合了外部的气象数据之后,将可对因天气影响而发生的电力设备故障进行预测分析,提前给出预警,对检修和施工作业结合天气情况进行优化安排。
2.2.2 大用户工商、税务数据
将电力用户的工商、税务数据融合进电网企业的大数据平台,可以与客户的电费缴费行为进行关联分析,通过将客户的外部工商税务信息、客户基本属性特征与其缴费行为进行关联分析,用大量的数据将用户欠费模型训练出来,用于对潜在的欠费客户给出预警,然后对比预警结果与后续缴费记录中客户的实际缴费行为。若预测准确率较高可信,利用此模型对容易发生欠费行为的重点客户划定相应的风险等级以及进行预警,就可以提前采取应对措施,保障企业的电费收入,有效控制企业经营风险。
2.2.3 实时交通数据
城市电网电力工程的施工常常与道路交通互相影响,如地下电缆工程的破路开沟、电缆敷设等,往往需要对道路进行部分封堵限行。根据交警提供的实时交通数据,以及通过模型预测出来的分时段车流量数据,可以合理安排施工工期以及封路程度。
2.2.4 行业经济动态互联网数据
电网企业将外部获取的行业经济动态数据与电力用户的用电信息融合,可为大客户营销提供支持。电力工业大客户是供电企业的核心客户,其电力消费对供电企业的经济指标贡献特别大,而且其用电量具有受其所在行业的整体形势影响较大的特点。电网企业可以从国家统计部门、工商部门以及互联网上抓取相关的行业形势动态数据,为大客户的营销提供支持和预警。客户经理可以协助大客户进行用电分析,优化用电服务方案。在节假日、行业特殊事件发生时,能够针对大客户的特殊用电需求,迅速做出响应。针对大用户可能存在的电费拖欠风险,也可以进行有效的识别和防范。
3 电网大数据跨行业数据融合交互的实施策略
在数据融合方面,要与外部数据源相关部门进行沟通协调,建立数据共享机制。例如,与气象部门、交通部门达成协议,将重点区域附近的气象信息和道路交通状况实时推送到电网企业的大数据融合平台。
3.1 建立基于大数据思维的管理思路
要以能源价值链延伸为目标,树立大数据融合导向的思维模式。电网内部的大数据分析、应用已积累了一定的经验。从长远来看,海量数据的所有者,即“数据主人”对其数据资产处置的着力点将是内外部数据的交互融合。首先,必须更加注重提升用户价值,同时通过利用跨行业数据提高全社会运行效率,为促进社会节能减排做贡献。其次,要加快建设统一的大数据基础平台,如构建企业级跨行业融合数据仓库等,聚拢各个业务部门的数据需求,提高数据资产的利用效率与质量,促进商业模式创新。
图1 基于商业Hadoop发行版产品的大数据仓库架构
3.2 构建统一的电网大数据融合平台
为实现电网大数据的跨行业数据融合交互,从技术角度来说,需构建基于电网企业全局的统一大数据平台体系,建设服务于内外部数据跨行业融合交互的数据仓库与数据集市。
3.2.1 数据仓库与数据集市搭建
数据仓库是为企业所有级别的决策制定过程提供所有类型数据支持的战略集合,对于有建构企业级商业智能业务需求的客户,在企业运营成本降低、生产进度和质量监控方面,有显著的辅助优化作用。
图1是一个基于Hadoop商业发行版大数据平台的数据仓库结构与数据流转路径,该图示出的数据仓库架构涵盖了海量数据的存储汇聚、查询检索、交互式数据探索以及数据挖掘等大的功能模块,此外还包括元数据管理、数据同步、数据稽查等开发工具。数据存储层可以通过丰富的中间件和通用接口来对接多种异构的数据源,不论是结构化数据、半结构化数据还是非结构化数据都可以先汇聚到统一的大数据平台的“ODS贴源层”中来。对于结构化数据来说,从最底层的贴源层,到上面的基础明细层,再到公共主题模型层,在不同的层次间流转时,数据将按照特定的主题而划归为独立的分布式批处理task,交由分布式计算引擎来执行离线的批处理计算,也即分层分步进行“数据加工”的过程。另外,在这些纷繁的数据流转层次之间,需要有总体化的资源调度机制以及完善的工作流配置工具做保证,避免各个业务之间出现资源争抢的现象,确保各类批处理任务有条不紊地执行完成。
底层数据处理引擎的各项功能提供了对应用层业务逻辑的强大支持,通过基于容器技术构建的微服务架构,实现了动态的资源分配和管理。经过基础明细层和公共主题模型层加工过的数据,由业务应用层的软件获取,根据自身的业务逻辑特点对数据进行多角度的展现和人机交互,同时由于底层共用一套基础平台,不同的电网业务群的应用层软件之间也可以实现数据共享。
3.2.2 数据源管理
数据仓库建设过程中,需要对数据源进行数据抽取和管理。大数据平台要融合来自各个单位和部门的数据,系统接入数据方式非常多样化,包括关系型数据库数据、实时数据、文件数据、图片数据、日志数据、音视频等。面对于多种数据接入的需求,通过Flume、Sqoop等多种数据抽取中间件进行对接。
3.2.3 算法建模
数据挖掘的任务依赖大数据平台的数据挖掘组件进行。该组件主要由R语言环境、Spark分布式内存计算框架等构成,并且后台引擎内置了大量常用的并行化机器学习算法和统计算法,同时兼容数千个开源的R语言算法包,可高速分析关联关系网络等的图数据。并行化算法库主要包含机器学习算法库与统计算法库,利用Spark在迭代类型的计算上天然的优势,将经典的传统数据挖掘算法在Spark上进行了分布式的实现,可以有效提高大数据量上算法的执行效率,也能充分体现其在内存计算方面的优点。另外,该组件同时还包括一些统计类算法的分布式化,可充分支撑电网数据融合业务的算法建模工作。
3.2.4 平台安全管控
数据融合交互大数据平台通过Guardian组件,在软件层面提供资源管理控制和数据访问权限安全的能力,实现大数据平台“4A”级(即包括账号管理、账号认证、权限授权、日志审计)统一控制管理多租户方案,有效地对各个部门以及下级单位的用户数据提供多租户的开发平台服务。
3.3 数据交互案例:基于大数据分析的95598客服工单全过程监控
由于历史因素的影响,长久以来,电网企业的客户服务一直采用的是传统的人工应答和记录模式,对于客户的需求响应不及时,会埋下一定的风险隐患,尤其是针对大的工业用户,以及部分老旧线路的居民用户,需要投入大量的人力进行客户服务以及关系维护工作。一旦出现服务不及时、不到位,在当今这个舆论体系和“自媒体”发达的年代,极有可能造成恶劣的社会影响。如能对可能出现问题的用户进行实时监控乃至提前预警,则可以使得电力营销和95598客服工作准备更充分、更有针对性。
通过使用大数据实时企业数据服务总线技术,准实时接收95598渠道工单及工单流程变化信息,实时展现95598工单变化情况,并与进入大数据平台的其他数据相融合,对其中的关键客户发出预警,是实现这一目标的技术手段。大数据平台融合的数据来源包括电网公司内部的营销综合管理平台、企业工商信息公示平台、互联网数据等。
在技术方面,借助大数据实时计算技术,实时消费Kafka的队列消息,并按照业务逻辑进行关联计算,把计算结果封装成JSON串写入到Kafka消息队列,可以供前端进行实时的消费展现。若要对前端的操作型数据库与大数据融合平台实现准实时的数据同步,需要借助于OGG(或Shareplex)所生成的操作型的日志,并在大数据平台上进行同样的事务处理。数据采集时,需要同时配置源端以及目标端的Goldengate进程,实时把增量日志解释成变化数据,并把变化数据准实时地同步到大数据平台的各个存储引擎。
在业务方面,95598工单类别包括报修、咨询、查询、投诉、举报等类别。将95598工单信息与其他渠道获取的相关用户信息进行融合,加以语义解析和语义挖掘,就可以进而探查出特定用户或用户群体的投诉、抱怨甚至欠费风险,并给出及时的预警。
大数据平台融合的数据源多种多样,既包括国家公示的企业经营数据、电网企业掌握的居民数据,也包括互联网上关于电力大用户的企业新闻、贴吧评论、法院裁决、招投标信息等,以及对居民用户的新闻采访及评论。根据关键词将这些与分析的目标企业相关的零碎信息通过网络爬虫以及离线的文件传输工具统一汇聚到大数据平台后,对海量的、低价值密度的数据进行解析,可以形成客户知识图谱,分析出企业的经营趋势以及居民用户的用电行为特征,进而实现上述的业务目标。该系统能够帮助电网企业的营销部门更加深入地了解客户,大大提高电网公司95598客服工作的效率。
3.4 数据资产管理与风险防范
电网数据资产管理,是一种全方位的无形资产管理模式。其针对电网企业现有以及将来可能拥有的数据资产,从最初的数据汇集,到数据资产形成,到中期数据资产维护,以及到后期的价值转化,达到覆盖每个步骤的全过程管理的目标。这样可对电网企业运营的数据资产进行统一管理,方便管理者制定相关的数据资产管理相关规范制度,从而使得电网数据在各种业务应用中的分析和利用更加高效,最终达到电网企业数据资产价值最大化的目标。
建设电网大数据跨行业数据融合交互平台,汇聚了来自于各个渠道的数据,其挑战主要在于数据的可信度与安全性。数据质量需要进行核实与校验。首先,对于从各个渠道搜集来的海量数据,需要进行清洗和加工,然后基于数据溯源关系以及数据关联关系,形成公司数据资产全景视图,采用数据资产实时监测技术,通过源头把控、关键节点监督、防篡改监控等手段,将企业的数据转化为有价值的资产。
4 结语
电网企业及其关联单位蕴藏着极为丰富的数据资源,电网企业与外部数据进行交互也是大势所趋。大数据技术的发展为这种数据跨行业融合交互提供了充分的技术支撑。在关联分析、聚类分析等数据挖掘和机器学习理论和方法的帮助下,数据对于电网企业的价值终会凸显出来。在电网企业、电力客户以及外部相关单位的共同努力下,未来一定会实现电网数据的深度开发,以及电网内外部数据充分的跨行业融合交互,为社会创造更多的财富。
[1]张东霞,苗新,刘丽平,等.智能电网大数据技术发展研究[J].中国电机工程学报,2015,35(1):2-12.
[2]刘广一,朱文东,陈金祥,等.智能电网大数据的特点、应用场景与分析平台[J].南方电网技术,2016,10(5):102-110.
[3]杜磊,王党卫,姚迪.多源目标数据融合方法设计与实现[J].科技信息,2011(13):27-28.