商务智能在配电网数据分析及可视化中的应用
2020-01-08葛诗涵张世栋李立生姜仁卓
葛诗涵,张世栋,李立生,姜仁卓,刘 洋
(1.山东理工大学电气与电子工程学院,山东 淄博 255049;2.国网山东省电力公司电力科学研究院,山东 济南 250003)
0 引言
随着大数据时代的来临,数据信息产生量巨大,电网数据信息也呈爆炸式增长。由于生产管理系统、调度管理系统、电力营销系统等信息系统在配电网中广泛应用,各系统积累了大量历史数据,其数据形式多样且相互独立。传统的分析系统难以交互分析多源海量数据,极易形成“数据孤岛”,造成数据价值利用率低。配电网长期运行积累的大量历史数据中隐藏了配电网运行状态的历史特征,对配电网的运行控制、升级改造和供电可靠性的提高具有重要意义。面对配电网数据激增以及多变的业务需求,如何快速挖掘海量数据,并以最直观、最高效的方式展现给电网人员,是当前电网发展和建设的关键和难题之一。
数据可视化技术是处理海量数据的关键技术。通过数据可视化,能够直观地展现智能配电网大数据的应用方式与应用价值。可视化方式实现由单一形式到连续图形[1-2],由单独显示到多屏显示[3]等。随着网络技术的发展,商务智能(Business Intelligence,BI)技术逐渐在数据可视化方面得到采用。
目前,BI 工具在银行、地产和矿业等行业得到了广泛的应用[4-6]。在输变电设备和配电网中也展开BI研究,文献[7]将BI、数据仓库技术应用到电网调度运行数据的分析,构建了电网调度运行智能数据平台,但缺乏多维数据的分析;文献[8]将数据挖掘应用在电力设备状态检修中,但存在多维超大量数据集的挑战。文献[9]运用数据仓库、数据挖掘等技术建立了地区电网的调度决策支持系统,提高系统的分析效率和处理复杂查询的能力,但该系统实现数据的交互分析较复杂,数据价值利用率低。针对配电网可靠性指标在数据挖掘及可视化上存在的问题,通过敏捷型BI 工具实现配电网数据可视化的多维数据分析操作和图形展示,为电网人员提供快速、准确地决策依据。
1 BI 介绍
1.1 BI 概念
BI 是通过搜集、管理和挖掘大量的商务信息,利用人工智能、数据仓库、数据挖掘等先进技术,将各种数据及时地转换为支持决策的信息和知识,达到辅助企业制定有利决策的目的。BI 的关键是能够快速从海量数据中提取有用部分,通过查询和分析,最终将数据以图表的形式展示给决策者,为决策提供支持[10-11]。
1.2 BI 工具
目前,市场上有100 多种BI 工具,均支持多数据源和多种数据库连接,甚至支持以Hadoop 为代表的大数据连接。BI 工具大多可以通过拖拽的方式迅速建立起直观、交互的数据可视化。用户可以自由分析数据,也可以将可视化图表共享,从而帮助企业快速认识和理解数据,以应对数据的激增以及业务的持续增长。
传统BI 工具基于数据驱动,以瀑布开发模式建设,需要预先生成多维数据库(Cube),交付时间在半年左右,若需求发生变化,相关模块调整周期按月计算。通常传统BI 工具模块较多,操作复杂,无法形成自服务BI,数据分析能力差,灵活性较差,分析能力落后。随着技术的更新和发展,企业对BI 工具轻量型、灵活性需求迫切,敏捷BI 工具相应而生。敏捷BI工具基于业务驱动,直接把数据装载到内存中,无需预先生成Cube,交付周期按周、月计算,上线周期明显缩短,能够快速响应业务分析需求,用户可以自主直接与数据交互分析。用户可以基于细节数据,实现多维度数据探索,不再依靠传统BI 的数据分析模型,数据分析响应速度大大提高。QlikView、Power BI、Tableau、Fine BI 等敏捷BI 工具带有数据集市,可以处理海量数据。
分别从部署架构、数据架构、用户界面、自主分析易用度等方面对QlikView、Power BI、Tableau、FineBI 等敏捷BI 工具进行分析和比较。4 种典型可视化工具根据其产品定位的不同各具特色,具体对比如表1 所示。
表1 4 种典型可视化工具对比
QlikView 部署方式以web 界面为主,采用独特的AQL 架构,提供灵活、强大的分析能力,但其在易用性和易操作方面稍逊色。Power BI 可视化工具在各个方面均有较好的设计,其使用风格和Excel 相似,较易被用户接受,部署架构以云模式为主。Tableau 自有tde 内存数据压缩技术,Hyper 内存数据引擎,人机交互界面友好,具有强大的地图展示功能,以及较好的数据下钻和分析能力,但前端数据处理能力较差,抓取能力弱。Fine BI 支持基于索引的高效计算引擎和基于SQL 数据库直连,图表展示丰富,具有较好的实时性,独创spa 螺旋分析,集成ELT,具有很强分析能力。
1.3 配电网BI 工具
目前,配电网相关数据包括遥信数据、遥测数据、人工录入线路和设备的缺陷数据、检修数据、配电网设备在线监测数据、故障数据和设备台账数据等,各数据在专门的电力网络中传输,且数据格式规整,质量较高,电网工作人员大多不具备基础的编程和统计相关知识。
针对表1 中商务智能可视化工具的对比,结合电网实际,选取Tableau 作为主要可视化工具。Tableau 主要由Tableau Desktop 和Tableau Server 两个部分组成。Tableau Desktop 主要用来连接数据库并对数据进行分析挖掘,将结果以仪表板形式发布。Tableau Server 主要用来管理Desktop 发布的仪表板及管理用户查看权限。通过分配不同人员,不同账号及权限,可实现通过局域网随时随地查看数据以及根据工作需要分析数据。
2 配电网数据分析
2.1 配电网数据特点
配电网结构复杂,配网设备和监测采样数据远远大于输电网。综合评价配电网可靠性,指导配电网精准运维,需要大量的数据提供支撑。
配电网数据目前呈现大数据发展态势,主要特点为:
1)数据分布在多个信息系统中,包括配电网生产管理系统、调度管理系统、电力营销系统、智能配电网运行监控平台和配电自动化系统;
2)配电网可靠性指标数据量巨大,仅一个省级电网公司,配电网有20 多万台设备,每年产生数据接近30 PB;
3)配电网数据价值密度低,在量测数据中,大量数据是重复的或相似的,逐一分析价值不大,滞后的数据分析将无法为配电网的升级改造提供数据支撑;
4)配电网数据类型较多,有文本、层次、网络、时空及多维数据,不同种类数据蕴含着独特的配电网规律信息,需将数据可视化加工之后才能准确直观的表达深层次价值。
2.2 配电网数据可视化
传统配电网所使用的数据挖掘及可视化系统,都是针对特定的应用场景以及业务需求进行开发。这种方式的弊端是跟随业务需求变化的数据响应严重滞后[12-14]。敏捷BI 不再采用传统的BI 架构,具体架构如图1 所示。先由ETL(数据抽取—转换—加载)进行数据清洗、转换、合并与集成,再将底层数据导入到数据仓库中。敏捷BI 采用了动态的内存数据技术,将数据仓库划分为多个业务数据包,每个业务数据包包含多个Cube,接下的OLAP 分析和数据挖掘操作都是在Cube 上实现。OLAP 服务器可根据自动捕获的主题进行分析,迅速完成各种查询和分析需求,最后将信息以各种图表形式展示出来,将多维数据展示给电网人员。
图1 敏捷BI 架构
2.3 数据优化
数据优化是对原始数据的预处理,其主要流程为数据采集、数据分析和数据处理。采用C4.5 算法来实现数据的优化。
C4.5 算法是对ID3 算法的改进,具体改进为:用信息增益比来选择属性;在构造过程中对树进行剪枝;完成对连续属性的离散化处理;对不完整数据进行处理。C4.5 算法的计算公式如式(1)—式(5)所示。
1)信息增益率为
式中:S 为训练数据集;A 为样例的属性集合。
2)分裂信息为
式中:i 为A 的所有可能取值;|Si|为分割的样本子集取值为的样例数量;|S|为分割的样本子集总样例数量;V(A)为属性A 可取值的集合。
3)信息增益为
式中:Entropy(Sv)是A 值为v 的熵的大小;|Sv|、|S|分别为对应样例集合中样例的数目。
4)熵为
式中:p+、p-为样例集中类别正、反比例。
5)表面误差增益值公式为
式中:R(t)=r(t)p(t),R(t)为叶子节点误差代价,r(t)为节点错误率,p(t)为节点数据量变比;R(T)为子树的误差代价;N(T)为子树节点个数。
3 配电线路故障数据分析的BI 设计
基于BI 工具,以配电网线路故障数据为例,进行交互式仪表板的设计,并实现交互式仪表板在局域网的发布。
配网故障数据主要来源于调度系统,通过对故障跳闸情况统计可随时掌握10 kV 线路故障跳闸总体情况,分析故障停电跳闸原因,避免因人为因素、外力因素造成故障跳闸的情况,杜绝其发生;通过分析10 kV 线路故障重复跳闸数量,找出规律和故障发生的原因,有针对性地进行线路改造。
3.1 趋势预测模块
故障停电数据以周为单位进行发生次数趋势预测,采用多项式拟合来展示指标发展趋势,采用三次指数平滑法对数据下一周发生趋势进行预测。
指数平滑法是在移动平均法基础上发展出的一种时间序列分析法,在经济、管理等预测方面获得了成功,在进行快速趋势预测上具有一定优势。指数平滑算法包括一次指数平滑算法、二次指数平滑算法、三次指数平滑算法。三次指数平滑算法可以对同时含有趋势和季节性的时间序列进行预测。
电网中的指标数据具有一定的季节性,利用三次平滑指数有趋势的累加预测模型、无趋势的累乘预测模型、有趋势的累乘模型、无趋势的累乘模型分别对某地区的次月故障量进行单一数据源预测。三次指数平滑法计算公式为
三次平滑法的预测模型由式(7)—式(10)表示。
3.2 故障跳闸可视化模块
故障跳闸情况主要包括引起故障的不同原因和数量,可通过气泡图来对故障跳闸情况展示。气泡大小代表不同数量,气泡越大代表数量越多,不同颜色代表不同故障原因。以山东省17 地市故障跳闸情况为例进行展示,如图2 所示。
图2 故障跳闸可视化
由图2 可知,外力因素造成故障跳闸最多,其次是用户原因和设备本体。其中烟台市外力因素造成故障最多,菏泽市用户原因造成故障较多。
3.3 基于Tableau Desktop 交互式仪表板设计
在配电网的日常运维中,通常需要从多个角度的灵活组合来观察数据,从而发现配电网运行的隐含规律和薄弱环节。在仪表板设计过程中,需要满足多维度分析需求,并按照分析需求可以实现数据按照不同粒度进行细化来实现数据钻取。
通过提取配电网线路故障数据,以Tableau Desktop 为工具设计仪表板,多维度、多角度将故障数据进行分析展示,具体仪表板设计方案如表2所示。
表2 仪表板设计方案
从时间序列上,支持“年→月→日”的钻取分析;从空间上,支持“区域→厂站→线路”钻取分析;从数据上,支持故障次数和故障率的展示方式。
通过Tableau Desktop 将各信息系统中数据进行提取,建立多维度数据模型。根据数据类型不同,采用地图、词云图、网络图、散点图等可视化图形对数据进行可视化再加工,并将可视化图表组合生成交互式仪表板,整体流程如图3 所示。
配电网线路故障停电数据仪表板如图4 所示。
仪表板的中间以着色地图作为主要界面,地图下方用圆环来表示各个故障原因的分布。仪表板的左侧用数字码表、柱状图等数据可视化形式在统计角度展示了市/县公司的分布和排名情况。仪表板的右侧采用热图日历展示每周的故障分布情况,表格的形式展示了重复故障线路,采用折线图展示了整体故障的时间变化趋势。
在人机交互方面,设置了两个筛选器,时间筛选器和分析模式筛选器(故障次数和故障率)。用户根据自身业务需求,选择特定时间段内的数据,按照故障次数模式或者故障率模式,自主分析配网线路故障数据和挖掘隐含信息。
图3 Tableau Desktop 设计整理流程
在仪表板联动上,支持特定区域、特定原因的选定,其他功能区跟随联动,以满足用户的个性化分析需求。通过地图区点击选择特定分析区域或故障原因展示区选定特定原因后,故障总量展示区、时间分布展示区、易故障线路展示区、故障原因展示区、趋势预测展示区会随之联动展示相应的区域的数据分析。当依次通过点击地图区特定区域及故障原因展示区,可定向挖掘该区域下特定的故障原因分布。
3.4 基于Tableau Server 的仪表板发布方案
前文通过Tableau Desktop 整合形成仪表板后,可将仪表板或提取后数据源发布到Tableau Server,通过Tableau Server 跟踪各个仪表板的使用情况。根据各个部门工作重点的不同,以及决策层的决策需求,利用Tableau Server 用户的权限管理功能,可以修改用户,管理不同用户的修改权限、仪表板的发布权限及查看、提取数据的权限。具体流程如图5 所示。
图4 配电网线路故障停电数据设计
图5 仪表板发布方案
4 结语
依靠敏捷型BI 工具,通过提取配电网各信息系统中数据,将BI 工具应用于配电网可靠性指标分析中。以配电网线路故障数据为例,通过敏捷BI 工具,多角度可视化展示配电网线路故障数据,多维度挖掘配电网薄弱环节,深度钻取历史数据中隐含价值。敏捷型BI 的应用将会极大提高电网工作人员感知、理解、分析配电网的能力,对指导配电网运行,改造升级,提高供电可靠性,具有重要意义。