基于大数据的电力企业财务数据分析系统建设
2021-09-18王森,刘丽
王 森,刘 丽
(云南电网有限责任公司丽江供电局,云南 丽江 674100)
0 引言
伴随着信息技术的进步和大数据时代的到来,电力企业在财务管理的过程中需要处理的数据范围愈加广泛,同时面临着日益加剧的数据庞杂冗余、垃圾数据过多、数据重复录入、信息交流缺乏一致性等难题。此外,在保持数据完整性的同时对数据格式进行转换,更是电力企业在进行财务数据处理时面临的重要挑战。由于电力企业的相关财务数据庞大复杂,且财务处理中往往涉及百余个参数,难以采用传统方式对其加以度量,因此建立统一的、具有高度整合性的信息数据处理系统十分必要。
1 基于大数据的电力企业财务数据分析系统的层次结构
按照数据处理顺序,可以将电力企业的财务大数据分析系统分为3 个层次,分别是数据存储、数据预处理以及构建动态财务共享数据分析中心。其中,数据存储能够保证数据完整保留,数据处理能够确保数据时效性,而动态数据分析体系能够充分挖掘数据价值[1]。三者合为一体,能够让大数据的价值体现得更为完整和贴切。针对来自国家电网大数据中心以及外部数据源的大数据,文章分别从源数据层面、数据存储层面、数据预处理层面以及数据分析层面分析财务数据分析系统的构建工作。在财务数据分析系统的整体技术框架中,主要以NoSQL 以及Hadoop 为基础,对数据进行大数据预处理以及分析,将传统的财务数据转化为全数据并进行高性能的交互式分析,最终完成对财务大数据的分析[2]。具体技术框架如图1 所示。
图1 财务数据分析系统技术框架
2 电力企业财务数据分析系统的建设步骤
2.1 基于NoSQL 进行大数据存储层面管理
面对海量财务信息数据,NoSQL 存储体系能够完整实现对电力企业财务信息的存储以及全方位柔性管理。在数据存储层面主要的储存方式有3 种,分别是NoSQL 数据库、关系型数据库以及HDFS 分布式文件系统[3]。在存储形式的分类上,NoSQL 以非关系型以及分布式数据存储的方式实现海量数据的存储,并以图数据、Key-Value 以及面向文档数据格式进行存储,从而在高速的读写性能以及优越的查询性能之上实现更高弹性的数据扩展能力。
NoSQL 的数据存储系统包括Master-Slave 以及P2P 环形结构两种。其中,Master-Slave 可控性好,且设计结构简单,往往以水平分区为基础实现数据分布。分开Master 节点与Slave节点之间的功能,可以将节点的功能负载减轻,并由Master 节点对Slave 节点进行维护和管理。其缺点是Master 中心的节点容易成为系统中的瓶颈。P2P 的环形结构系统则不存在中心节点,因此各个节点平等,以Hash 数据分布为基础,具有协调性好、便于扩展等优点。P2P 环形结构有着更好的负载均衡性,但设计系统更为复杂,且不利于范围查询,可控性不强。上述两种体系结构差别较大,各具一定的功能局限性。因此,在电力体系中,需要将P2P 的分布式结构以及Master-Slave 的集中式结构的优点相结合构成相应的数据存储体系。常见的组合方式有Master-Slave 与Chord 的结合或是与Content-Addressable Network 的结合,从而确保数据存储能够兼顾全局性和局部性[4-5]。
2.2 基于Hadoop 进行财务数据预处理
Hadoop 是一种开源的大规模分布式计算框架,优点是可靠、高效并且可伸缩,因此被广泛应用在大数据处理领域。技术人员可以以Hadoop 以及现有的电网财务体系为基础,建立新的财务大数据预处理体系模型,结合Hadoop、HBase 以及Hive 在财务数据预处理平台中对数据进行清洗、集成和归约。利用噪声处理,对缺失数据加以填补以及简化数据属性维度的关系来完成财务数据的预处理。这种方式利用Hadoop 平台的特点,对需要进行预处理的任务添加监控与控制节点,每个节点都对应一个需要进行预处理的任务或是任务列表,针对该项任务,启动对应的处理程序以及相关规则。具体的处理程序如图2 所示。
图2 财务大数据预处理体系流程图
2.3 基于Hadoop 建立分析集群对财务大数据进行分析
基于Hadoop 对财务数据加以预处理后,从现有的财务分析体系的局限出发,完善缺点,建立适合现行财务需要的财务分析系统并对财务数据进行分析。大数据分析体系的关注重点在于实现对财务管理过程的监督以及相关财务指标的分析,诸如项目预算分析、成本分析以及风险分析等内容。为了更好地实现财务分析效果,首先可从管理层面对电力企业的财务现状加以调研,分析其中存在的财务管理难点诸如利润报表、管理金额等。其次,在技术层面,结合传统数据库以及新商业智能的优点,对财务管理系统加以整合。针对电力企业的经营特点和财务特点,以大数据思想为基础,对现有数据进行有效的存储和分析,同时利用聚类算法抽取数据特征,挖掘数据价值。具体的财务大数据分析流程如图3 所示。
图3 基于Hadoop 的财务大数据分析流程图
3 针对财务数据分析系统建立评价指标体系
构建电力企业大数据分析系统后,需要对其功能需求加以分类,并选择科学的评价指标对需求等级进行排序,从而便于系统后续的优化。文章选用自组织映射(Self-Organizing Map,SOM)神经网络算法对系统中的数据样本进行划分,具体流程如下。
3.1 网络初始化
利用集合Sj表示有j个输出神经元,并用较小的权重设置输入神经元到输出神经元的连接。当t=0,j个神经元的临近神经元表示为Sj(0);t时刻表示为Sj(t),随着时间的推移,Sj(0)逐渐减小。
3.2 输入向量
从集合中选择输入值,并对输入值进行归一化处理,输入向量用X来表示,并输入:
3.3 计算欧式距离
对所输入的向量以及各个神经元间的权值欧式距离进行计算。计算方式如下:
其中,Wij表示在输入层的i神经元以及映射层中j神经元间的权重。将欧式距离最小的神经元标记为获胜神经元j*,并输出临近的神经元的集合。
3.4 修正权值
参照式(3),对输出神经元以及其附近的权值进行修正。
其中,η为学习率,是常数,且η∈[0,1],随着时间推移,η逐渐趋于0。
3.5 计算输出
输出Ok为:
智能化背景下的电力企业财务管理需要以大数据为基础建立大数据分析系统,对不同数据的需求进行动态评价并及时根据不同类型数据的需求重要程度及时调整权重,这是优化数据分析系统、提升财务管理效率的关键。
4 结语
伴随着智能电网的深入建设与推动,电力企业业务系统和数据中心的数据愈发庞杂,科学的分析能力、快速的计算速度等影响着电力企业的财务管理效率。加强建设电力企业的财务数据分析系统,不仅能够从庞杂的数据中筛查出有效、有用信息,还能帮助电力企业提升财务管理水平,有效规避财务风险。