电力大数据智能化高效分析挖掘技术框架研究
2021-04-20李颖杰
李颖杰
(深圳供电局有限公司,广东 深圳 518000)
随着智能电网建设的持续发展,国家电网已经创建了4 种数据中心平台,分别为结构化、海量历史、非结构化、电网空间,实现大量大数据资源的积累,支撑了企业数据的融合与共享。文献[1]研究过程中提出了智能电网为大数据应用的主要领域,并且提出基于智能电网的路线图与技术框架。现代国家电网公司积累大量数据资源,为数据的分析决策提供了良好条件,但是还存在跨类型海量数据分析不足、数据存储分散等问题。大数据为分析决策主要手段,备受工业界与学术界的重视。因此,对电力大数据智能化分析挖掘框架的设计具有重要意义。
1 电力大数据中心整体框架
对于国家电网公司4 个数据中心与外部数据源多源异构大数据,通过验证层、服务层、特征分析层与数据源层创建电力大数据智能化高效分析挖掘技术框架。电力大数据在整体技术框架中,利用基于内存计算数据分析、数据特征分析等技术,通过传统电力数据分析转变到高性能交互式分析,最后构成电力大数据并行化分析服务体系,利用超短期母线负荷预测验证技术的效果[2],图1 为总体技术框架。
图1 总体技术框架
数据层能够对电力数据来源进行描述,主要包括气象、移动、社交等外部数据以及国家电网数据中心半结构化、结构化与地理信息空间数据。
特征分析层能够对提取数据的特征方法、数据并行化分析框架和数据模型创建的方法进行描述。
服务层能够通过服务接口和架构创建分布式的服务体系。
应用层利用超短期母线负荷的预测,通过调用相应接口对负荷大数据实时分析[3]。
2 数据挖掘的流程
数据挖掘指的是通过数据分析工具、通过海量数据发现数据与模型的关系的建模过程,利用模型与数据关系能够对业务发展趋势进行预测,从而寻找数据之间的关系,并且发现业务忽略因素,对全新业务强点进行拓展。
跨行业数据挖掘标准流程GRIS-DM 指的是各个行业数据挖掘标准过程化、综合性的展现,属于能够利用不断完善、实践的动态化过程,其中包括数据理论、商业理解、创建模型等阶段[4],图2 为跨行业数据挖掘的标准流程。
图2 跨行业数据挖掘的标准流程
3 框架的具体设计
3.1 电力市场需求模块
图3 为电力市场需求分析的功能结构,市场管理能够通过各个渠道得出市场信息的分析、分类和统计,跟踪分析指标情况及时发现问题,从而利用相关策略进行解决。通过潜力分析得到潜在拓展项目,制定措施,对拓展项目效果进行分析,对良好市场拓展效果进行保证。通过市场分析得到市场发展的规律,利用各预测模型得出预测结果,以此为市场拓展、电网的运行提供参考依据[5-6]。图4 为电力市场需求的分析过程。
图3 电力市场需求分析的功能结构
图4 电力市场需求的分析过程
3.2 客户分析
电力大数据智能分析的核心就是实现客户分析,能够对客户类型与需求进行掌握,通过用电情况、客户性质制定专属的营销方案,提高用电服务。客户分析的功能包括故障保修处理、客户咨询和客户受理等情况分析[7]。图5 为客户分析的功能结构。
图5 客户分析的功能结构
故障保修处理的情况:根据供电单位、时间、故障的类型纬度,对故障保修数量、处理完成率、保修比重、满意率、回访率等进行分析[8]。以下为客户分析代码:
3.3 高性能数据分析
为了满足智能分析挖掘、大数据技术的数据分析需求,文中基于分布式分析框架,对面向内存数据分析优化技术进行分析。首先,对数据传输算法进行优化,利用分析中间结果自动归并结果,划分分析结果,有效节约成本,使分析速度得到提高。另外,以不同业务场景数据源表大小、数据分析情况、中间表大小具有不同的统计信息,基于CBO 对最优执行计划进行选择。在计划任务线执行的过程中,以业务场景查询条件过滤数据源,统一计算数据,提高大数据的运算效率[9],图6 为多源数据过滤和性能优化。
图6 多源数据过滤和性能优化
3.4 服务体系架构的设计
通过算法的分析和统计进行研究,利用主流开源挖掘与计算法库进行开发,从而对数据并行化的分析框架进行分析。算法并行化技术能够促进分析算法与统计算法的并行化,利用迭代计算与内存计算中Spark 的功能,在Spark 中运行统计算法与并行分析算法,实现数据分析挖掘的功能[10]。
通过主节点、数据资源、工作节点等管理器对主节点数据分析的请求进行描述,实现算法并行化任务调用,分析工作节点运行数据。设计的框架能够提供实现数据并行化的分析结构,在需要对不同应用实现数据并行化的功能时,能够对此框架的使用进行统一,不需要重复编写代码。在算法并行化执行过程中,利用向量化技术进行处理,并且利用算法可行化的向量化处理,使其对应Spark 的RDD,通过Spark 并行化框架进行并行化计算[11]。
3.5 数据安全治理
针对越来越严重的大数据安全风险、攻击手段、网络入侵,通过数据审计、销毁、隐私保护等技术的应用,能够使大数据安全技术解决识别过程中存在的问题,从而在全过程监控中对大数据进行收集。
权限管理:利用用户权限对分析结果与原始数据进行控制[12]。
隐私保护:通过隐私保护技术对数据处理,避免对原始数据来源进行识别。
接入安全:在传统安全接入方案中使用数据收集终端、业务应用系统中的网络、主机、访问控制等安全技术实现合法性访问。
存储安全:将同态加密算法应用到存储层中,通过Hadoop 文件对控制列表的执行、读写进行访问和自定义用户组策略控制文件权限[13]。
3.6 在线数据处理
大数据中心数据计算利用内存计算与流计算结合,使时效性数据计算需求得到满足。流计算实时处理需求,实现在线统计分析、预警与过滤等,比如电表数据分析与查询,方便人机交互。在数据计算方面,使用内存计算与流计算技术。传统数据库技术在对海量数据处理的过程中,无法实现良好的水平扩展性,而且现有技术无法使因为磁盘I/O 导致的性能瓶颈问题得到解决,消除磁盘瓶颈和并行计算技术结合,能够实现高实时高响应的计算,使系统并发访问能力得到提高。
4 电力大数据智能化分析实例
文中基于某电力公司,将大数据模型预测和数据分析对用户的用电信息进行收集,结合国民经济、调整产业结构、调整水平创建数据挖掘模型,预测各周期用电负荷曲线、空间分布、负荷时间等,以此提供给电能调配、电网规划等决策支持[14]。图7 为月度负荷的预测界面。
图7 月度负荷的预测界面
电力公司通过用电负荷、电网设备台账等数据和数据挖掘、分布式计算等技术,并与气象信息、产业值相互结合,实现日负荷、月负荷的聚类模型,预测下阶段用电负荷情况。利用未来用电量、负荷曲线、负荷时间、电力需求量、空间分布的预测,提前掌握用户未来的用电需求量,从而保证用户的正常用电,实现电网平稳运行与削峰填谷。利用数据分析能够为公司设备检修、电网规划、电能调配等提供决策,使电力生产转变为客户重点,使企业社会形象与供电服务满意度得到提高[15-16]。
5 结束语
在智能电网不断发展的过程中,积累了大量数据中心、业务系统的数据,严重影响了系统的计算速度、建设模式和分析能力,却为数据分析带来了丰富的条件。文中深入研究了电力大数据智能化高效分析挖掘技术框架,通过假设校验、数据统计的层次提升到并行计算、全数据处理、智能算法等层次分析传统电力数据,分析数据挖掘分析算法的并行化设计,以此提高挖掘电力业务数据的价值。