面向大数据的电力用户信息挖掘探讨
2018-09-20施尧杨铮宇
施尧,杨铮宇
(1.云南电网有限责任公司,云南昆明,650051;2.云南电网有限责任公司信息中心,云南昆明,650051)
0 引言
电网客户服务系统是电网企业的重要服务窗口, 不断积累着海量用户信息数据, 这些需要信息数据需要经过系统的整合挖掘,从而最大化发挥其自身价值。随着大数据技术的发展,以大数据技术作为基础,进行海量电力用户信息数据的处理分析,以此发挥对电网企业信息系统交互以及客户服务决策的支持作用,成为电网客户服务系统发展的趋势。基于此,本文针对如何利用大数据技术来满足电网客户服务系统对海量用户信息数据处理需求的问题,提出面向大数据的电力用户信息数据数据挖掘系统设计方案。
1 系统关键技术
1.1 面向大数据的ETL数据仓库技术
在本系统设计中,数据处理策略采用MapReduce分布式计算模式,而数据加载策略则需要支持并行加载。使用多种方法应对不同的数据抽取策略,从而提高系统性能。本设计中,采取以下形式来表达电网的结构化数据的ETL行为:
(1)以P、W、O、M分别表示原始数据、数据仓库的数据、不同ETL任务、数据仓库的元数据等数据集合,则电网结构化数据 ETL 行为模型为N=(P,W,O,M)。
(2)ETL任务以O表示。数据抽取任务、数据导入任务以及数据集成任务则分别表示为
ETL的数据源表以T表示。T在i时间点时,数据仓库过渡区中的数据副本以 Ti表示,时间戳以D表示,则
(3)数据源表从i至i+1的变更副本以I表示, 发生数据变更的日志号以表示,数据变更操作以M表示,变更前的数据以 To表示,变更后的数据以 Tn表示,
因为I<T,在得到Ti+ 1 时,映射的效率高,同时不会较大地影响源数据库性能。
(4)以关系代数来表示数据仓库过渡区中从 Ti+ 1映射到
stat={Max,Min,Count,Sum,Avg},即得到 Ti+1在[i, i+1]时间区间的事实数据后,进行聚集投影运算。
1.2 多维数据分析技术
多维数据分析技术是指把一个实体的多项重要的属性定义为多个维,对不同维上的数据进行比较,具有极强的人机互动性以及能够灵活表达数据的优点。为了能够深度发掘电力用户的信息数据,在本系统设计中采用了多维分析技术,通过分析模型工具,分析数据仓库中的数据信息,并且生成服务质量指标分析和服务质量分析等模型。
1.3 数据聚合及挖掘
在本设计中,数据聚合及挖掘主要分为统计数据分析、预测数据分析以及决策数据分析三个部分,下面针对这三个部分进行具体阐述。
(1)统计数据分析主要针对电力用户服务管理组织方式,根据相关业务信息和分析指标,设计了多维数据模型。其中,数据统计值主要包括累计、增量、平均、最大、最小以及标准差等项的统计值。根据统计数据分析,进行数据挖掘建模和矩阵计算, 实现切片、钻取和钻透等功能。
(2)预测数据分析基于电力相关业务规则及挖掘模型,将原始数据优化后得到精简数据,建立线性回归模型、多维尺度模型并进行分析。
决策数据分析主要为定量分析及统计分析,算法在决策数据分析中具有着关键作用。在没有隐含假设前提下, 分类回归树算法可以对变量与因变量之间的线性相关性进行预测.,因此本设计中主要采用分类回归树算法, 并对该算法进行封装。
2 面向大数据的电力用户信息数据挖掘系统
2.1 系统整体架构
本设计采用四层系统架构,如图1所示。四个层次分别为数据层、服务层、聚合层、表示层。
图1 系统整体架构
数据层能够统一配置管理不同数据库,主要包括呼叫中心、营销系统、配网系统、OA系统、排队叫号机等数据库。
聚合层主要用于非结构化数据的处理,由数据仓库、Hadoop以及Stream流计算构成。其中,数据仓库为电网企业营销业务数据的集合;Hadoop用于存贮非结构化数据,分析原始数据并能提高系统性能;Stream 流计算用于数据分析,能够快速判定特定问题下各数据相关性。
服务层主要是在数据层以及聚合层之间进行数据管理与数据访问,具有模型数据映射和性能优化的特性。模型数据映射支持对关系型数据库、数据仓库和非关系型数据库的访问;性能优化主要包括二级缓存、并发保护和高危查询过滤等。
表示层主要包括数据展示构件、数据分析构件、报表构件等,为系统用户提供数据查询调用的功能,以报表、图形等形式显示数据分析结果。
2.2 系统功能设计
在该系统的功能设计方面,设置了服务质量与客户感知监控、工单管理与调度、综合服务质量评价管理、结果展示等功能模块,如图2所示。
图2 系统功能
2.3 面向大数据的电力用户信息数据挖掘系统应用
本文提出的面向大数据的电力用户信息数据挖掘系统,在某电网公司中进行应用实测。针对该公司的营销业务,整合95598、电力营销、计量自动化、配网等系统的数据,建立高集约、高智能的管理模型以及系统性算法模型库,提供全面且深入的电力数据分析和数据预测功能,对该电网公司的营销环节进行全程、多维度的闭环分析。通该电力用户信息数据挖掘系统,该电网公司实现了系统问题的及时发现以及高效处理,从而提高了服务质量以及营销工作的效率。
3 结语
针对如何挖掘电网客户服务系统中海量用户数据信息的问题,本文基于大数据技术,提出一套电力用户信息数据挖掘系统设计方案。通过某电网公司实测,证明该系统 通过整合电网公司的各业务数据库, 构建综合数据分析管理系统,能够从中提取有价值的用户信息数据,对其进行分析,并将结果通过图形及报表等形式进行展示,为电网企业的绩效评估、运营决策、用户服务等提供数据支持。