电网项目计划进度执行偏差数据挖掘方法分析

2022-11-11王昕辰黄河杨汶吴仲麒

电子技术与软件工程 2022年2期

王昕辰黄河杨汶吴仲麒

（1.国网江苏省电力有限公司常州供电分公司江苏省常州市 213000）

（2.江苏迈腾电气科技有限公司江苏省常州市 213000 3.天津天电清源科技有限公司天津市 300000）

在新形势下，国家电网公司在开展规划投资管理工作时，要做到统筹规划，针对电网投资工作加强相应的监管，制定科学合理的电网企业投资管控策略，确保投资工作的精准性，与此同时，要科学合理的进行投资质效评估，确保公司在发展过程中逐渐趋于效益型，对于基层的经营活力要进行科学合理的提升。电网项目在具体执行过程中要对相应的计划进行分解执行，建立科学完善的监测体系，对电网项目进行科学合理的计划和执行，财务成本在入账时要做到密切的跟踪，这样才能够保证投资统计的科学准确，在对经营策略进行调整时，要考虑到相应的优势，建设具有中国特色的能源互联。

1 数据挖掘

数据挖掘能够对隐含的，先前未知的数据进行挖掘，这些数据在获得之后能够建立相应的模型，能够很好的支持决策工作，针对预测性决策提供相应的方法和工具。在对大量数据进行处理时，如果采用比较传统的数据分析技术，那么会面临着相应的局限性，在此过程中，如果运用数据挖掘技术，那么能够很好的对这些局限进行突破，确保在对海量数据进行分析和处理时，能够有有效的手段。近年来比较常用的数据挖掘技术是人工神经网络，这种技术主要是模拟了人脑组织机构，在具体运行过程中能够实现智能化，能够很好的对结构以及智能行为进行模拟，但是在对模糊信息进行处理时，存在着一定的缺点。模糊神经网络在具体应用过程中具有很大的优势，把神经网络系统和模糊系统两者之间的优点进行了很好的结合，在对模糊信息以及样本等进行处理时，能够很好的发挥自身的优势，与此同时，在对非线性问题进行处理时，也能够体现出自身的优越性，因此在进行智能信息处理时有着很大的潜力。模糊神经网络的模糊量是模糊全系数以及输入信号，能够很好的把二者系统的优点进行汇聚，不仅能够联想和识别，还能够对模糊信息进行处理。模糊神经网络在具体应用过程中，能够很好的对模糊逻辑推理系统进行调整，在此过程中主要应用的是神经网络，能够好好的对不同网络结构的特点进行发挥。模糊规则主要是通过权值进行体现的，在此过程中能够好好的对规则进行转化和修改。在对窃电评价这些问题进行解决时，模糊神经网络能够发挥自身的优势。

在对已经完成了工程项目的有关数据进行采集时，要考虑到管理平台的三率管理模式，在此过程中要评估项目数据，包含其完整度以及相应的质量，对于样本库要进行相应的筛选。再说明样本总量和电压等级等信息时，要通过科学合理的计算，对相应的偏差评价指标进行确定和评价，在此过程中还要科学合理的统计和梳理应用统计的方法。

2 数据挖掘方法研究

2.1 信息平台数据的获取

在计划管理信息平台中，对三率管理模块进行科学合理的规划，在对不同电压层级的工程项目信息以及相应的计划等进行收集时，分电压等级收集各电压层级电网工程项目基建信息、里程碑计划、施工进度计划、实际成本信息、项目概算、电网工程项目“三率”百分比及四项费用等电网工程项目信息，这样就能够很好的对电网工程项目的各种信息进行收集，电网工程建设项目以及相应的单位工程要以数据为颗粒度，在对数据频度进行取数时，可以按照月或者是里程碑节点。通过对相应的数据进行统一和处理，能够为后期三率曲线偏差分析提供相应的全套数据。

2.2 数据整合及清洗

在导出的三个偏差数据的基础上，对异常数据的特点进行相应的分析和总结，这是三率数据挖掘过程中的内容，在此过程中包含了缺失值和异常值两项异常数据。

2.2.1 缺失值

数据缺失情况在整理三率数据时是经常存在的，以下是造成数据缺失的主要原因：第一，工程项目在建设过程中，相应的建设投资数据出现了部分缺失的情况。第二，相关数据在填报或者是互联时，出现了丢失或者是漏报的情况。针对数据缺失问题在解决过程中，可以通过删除和插补两种方法，主要删除和插补的内容是存在数据缺失的项目。工程项目在建设过程中所面临的数据缺失程度是比较高的，并且不能够进行科学合理的数据分析，所以在进行三率偏差研究时，需要对没有完成的工程项目进行删除，对建设完成的项目可以进行相应的统计分析，在对缺失的数据进行插补时，要按照就近补齐以及回归预测的标准。

2.2.2 异常值

异常数据在整理三率数据过程中是经常出现的，导致这种情况出现的原因主要有下列几种：第一工程在建设过程中会有4项费用，在具体统计过程中出现了填报或者是口径方面的错误，入账进度百分比出现了问题。第二，三率曲线的起始时间存在一定的差异性，所以在填报项目完工阶段的理论值和实际值的过程中，存在一定的时间差异，因而导致了进度偏差。在对数据异常情况进行解决时，以下为具体的方法：数据异常现象如果是比较明显的，那么可以对数据进行剔除，如果数据偏差是由于非同步填报导致的，那么可以对异常数据进行保留，在对数据进行统计分析时，要说明这种情况。

2.3 箱体图的统计方法研究

在统计学中比较常见的统计数图是箱体图，又可以称为和视图以及箱线图等。对于单变量数据的离散程度，能够通过箱体图进行统计，可以清晰直观的表现数据的离散程度以及分布区间，对于异常数据值也能够表现出来。该实验研究在对不同电压层级以及不同项目分类下的工程项目情况进行统计时，采用的是箱体图，能够很好的反映出项目的工期分布以及滞后情况。

箱体图有多个数值点，包含了最大值以及最小值等。

第三第四分位数的位置是间距框的顶部线条，大部分的数据是比该值小，为Q3。Q1是第1次分数的位置，属于底部线条，有一小部分的数据比这个值小。其中50%的数据为整个4分位间距框所代表的。数据中位数是Q2。距框顶部1.5倍的宽高范围内属于最大值，据框顶底部1.5倍宽高范围内属于最小值，其余的数值为异常值。

该研究在进行过程中，对时间偏差指标进行统计时，主要是考虑到了箱体图开展工程空气偏差指标，所以能够很好的对工程的偏差状态进行展现，与此同时，对于指标所统计的异常值也能够进行很好的识别。在开展箱体图统计工作时，要考虑到项目工程的特点以及启动的时间偏差等，以下为具体的操作步骤：

（1）在对原始数据进行分类时，要考虑到工程项目的电压等级类型等各项参数。如果项目的类型不同，那么在启动时间以及周期方面也具有一定的差异性。

（2）在对项目的工期偏差指标以及启动时间偏差指标进行计算时，要参考相应的单位，一般情况下是以月为单位。

（3）在对不同类型下的项目启动时间以及工期偏差指标进行统计时，可以使用箱体图。

（4）在对异常数据进行剔除时，可以使用箱体图，与此同时也可以进行相应的统计，异常值在清除之后，离散程度以及标准差都会有一定程度的改变，数据会更加的趋于样本的均值。

2.4 偏差分布统计方法研究

在常见的统计报告图中还包括了直方图，这种图能够反映出质量分布情况，主要是由高度不等的条纹以及线段进行表示的。在对质量变化情况进行表示时，常用的一种工具是直方图，数据类型以及数据分布情况，分别用横轴和纵轴表示。产品的质量特性分布以及数据分布，可以通过直方图进行直观的表示，从而帮助判断总体的质量分布。直方图分布图形是有多种类型的，包含了双峰型，正常型以及平顶型等6种，在此过程中，如果不能够得到标准形状的直方图，那么就要对其政府范围进行分析。

3 数据挖掘算法的分析

3.1 聚类分析法

比较科学的一种数据分类法，属于聚类分析法。在分类过程中会考虑到每组对象的不同特点，在此过程中需要科学合理的分析数据特征，然后再进行分类。数据聚类能够很好的对差别进行消除，确保相似点是比较相同的。在进行数据分析时，可以采取集的划分或者是聚类，这样就能够对其中的内在价值进行分析。与传统的算法相比较，聚类分析法具备一定的特殊性。数据挖掘技术随着科学技术的不断发展，而运用了很多经典算法。在模式识别以及数据分析等各个领域中，聚类分析法起到了非常重要的作用。

3.2 体系设计分析

在解决电网项目的问题时，可以应用数据挖掘技术，这样能够得到很多的信息，确保决策体系正常的进行。数据体系有很多数据的动态模式，在对信息进行提取和查找时，可以使用数据挖掘方法，这样能够实现快速的查找和处理，对于项目中隐含的运行规律也能够很好的体现出来。信息的融合也属于数据分析的过程，在此过程中相关人员要考虑到具体的需求。数据挖掘的内容要考虑到具体的需求以及管理方案的进行，保证整个项目在进行过程中是顺利的。原始数据库所储存的都是以往的相关数据，在对决策模型进行建立时，需要对这些数据进行分析和开发。在整个数据系统中能够具备过滤功能，实现分类挖掘，在对原始数据进行分析和处理时，能够实现定性定量分析，在此基础上提供科学合理的管理方案。

3.3 偏差分析

在对数据进行分析和处理时，往往会出现一些与基本规律不符合的数据和元素，这种情况称为偏差。在对数据进行挖掘时，首先要对数据进行整理，在此过程中会对差异数据进行处理，确保所保留的数据都是在正常范围内的。在对偏差进行分析时，要寻找有明显差别的数据，并且要具备一定的研究价值。在对偏差进行分析计算时，可以采用比较法以及统计法等各种方法。

3.4 时序演变分析

持续演变分析，在具体应用过程中与关联规则数据挖掘法有一定的相似之处，但是前者在应用过程中比较重视对数据内部的关联性进行分析，并且会与时间序列进行一定的联系，最终所得到的英国数据关系是具备时间特点的。所以在对数据挖掘模型进行建立时，要注重对事件以及对象行为特征进行研究，这样才能够保证所建立的数据模型是准确的。

在对生物神经系统进行研究时，往往会使用到人工神经网络，该种信息处理方法，能够有效的对生物神经系统结构进行模拟，从而对多个单元结构进行有效的处理，能够实现非线性动力特性网络的处理工作，与此同时具备很好的自适应能力以及联想记忆。自适应能力一般情况下会被称为自学能力。神经元的一个主要特点就是自学习在此基础上能够有效的对模型进行构造，对数据进行有效的学习，在新知识神经网络的作用下，神经元之间的输入输出以及内部状态能够得到很好的调节和改变，确保其具备一定的规律性。人工神经网络法在具体应用过程中不需要有太多的人为介入，能够很好的对信息处理方法的不足之处进行改进和完善。未来在对神经网络的发展进行研究时，主要的研究方向是ANN。

4 经典数据挖掘算法分析

4.1 人工神经网络

人工神经网络主要是构建生物神经网络结构，属于一种新型的计算模型，主要利用的是计算机技术，在此过程中需要对模型进行相应的训练和学习，确保具备良好的数据挖掘技术。聚类以及分类等是比较常见的挖掘形式。在对数据挖掘时，如果使用的是聚类技术，那么会应用到神经网络方法，这样能够有效的对知识进行表示，在此过程中还要对非线性数学模型以及人工智能学习进行相应的考虑和分析。

4.2 遗传算法

数据挖掘过程中比较常用的一种算法是遗传算法其具备一定的有效性，能够实现全局搜索，目前已经被广泛应用到很多领域中，在对数据进行挖掘时，该种算法也得到了很好的应用。在对分类器以及决策数等进行获取时，可以使用遗传算法，这方面的文献也是比较多的，所以可以把遗传算法作为比较重要的研究课题。遗传算法主要模拟的是生物进化的过程，在此过程当中主要包含了下列内容：

（1）对于生命力比较强的个体要有效的进行选择，进而产生新的种群。

（2）对染色体进行交换，实现重组，对部分基因进行合理的运用和选择，最终形成个体。

（3）部分基因可能会出现变异的情况，在此过程中要在二进制编码的基础上实现互换。遗传算法在具体应用过程中，个体编码串的长度以及交叉概率等各项参数是需要选择的运行参数，在此过程中会影响到算法的运行性能。

4.3 粗糙集

在对不确定性的数据进行相应处理时，经常会使用到粗糙集理论，与之相似的还有盖性论以及模糊集等，这些都属于数学工具。粗糙集属于比较新的软计算方法，近年来得到了广泛的应用，其具备很好的有效性，目前在很多科学领域中都得到了很好的应用，目前国际上在对人工智能以及相关领域进行研究和分析时，该种方法是比较热门的研究课题。随着信息产业的不断发展和进步，社会医疗以及社会金融等各个领域都包含了多种信息，并且存储在了数据库中。在使用人工方法对数据库进行处理时，具备很大的难度，所以延伸出了比较新的研究方向。数据发掘包含了数据库中知识的发现，目前在对人工智能领域进行研究时，其实比较活跃的分支，在此过程中比较重要的研究方法是粗糙集，在具体应用过程中会使用到信息表，在此过程中与关系数据模型是比较相似的，这样能够很好的在数据库管理系统中嵌入粗糙集算法。

4.4 决策树

决策树的生成一般情况下会贬值，自上而下的原则。每个事件在自然状态下都有可能会引发多个事件，最终所得到的结果也具备一定的差异性，在对这些决策分支进行画图时，能够形成一棵树，所以称为决策数。目前研究人员比较常用的一种技术就是决策树，这种方法的应用能够很好的实现数据的挖掘，在对数据进行分析时也能够实现科学有效的评估以及预测等各项工作。

4.5 统计分析方法

在对数据进行挖掘时，统计分析也是比较重要的一种方法，该种方法不会受时间和空间的限制，所以得到了很好的应用，在具体应用过程中要进行前期处理以及后期处理。在开展前期处理时，要注重对数据进行准备，选择以及清理，这样能够很好的分析和挖掘数据集合，在对数据进行处理之后，要开展分部检验等操作。

4.6 关联规则

在对数据进行挖掘时，关联规则也是比较重要的一项内容，近年来研究人员对该课题进行了全方位的研究，并且确认其具备一定的使用价值。关联规则挖掘技术在应用过程中包含了一定的过程：首先，需要寻找高频项目组，在此基础上对原始数据进行存储，在此过程中主要应用的是数据挖掘技术。在所有的数据记录中，频率比较高的项目集合属于高频项目组，在此过程中频率比预定的阈值要大。项目结合包含了两个项目，分别为S和T。如果支持度比较大，那么高频项目作为{S,T}。高频k-项目组满足最小支持度，并且包含了K个元素，在此过程中主要是表现为Largek或Frequentk。这种算法在具体应用过程中能够产生Largek+1,能够有效的对高频项目组进行寻找。高频项目组如果是在经过处理之后而得到的，那么会产生关联规则。对高频项目组进行计算才能够产生关联规则。关联规则中所得到的信赖度，一般情况下与最小信赖度是符合的。关联规则在不同的情况下有着不同的分类：

（1）在被处理的变量类别基础上，可以对关联规则进行分类，其中包含了数值型以及布尔型。在对变量值进行处理时，如果属于布尔型关联规则，那么其具备一定的离散性，并且类别是比较明显的，能够有效的对计算机变量之间的关系进行标识。在对数字型信息进行处理和计算时，主要是数值型关联规则，在此过程中可以结合多维关联以及多层关联规则，在此基础上科学合理的分割处理变量，并且能够科学合理的处理原始数据。

（2）关联规则在数据的抽象层次上进行分析时，能够划分为单层型和多层型。在对实际数据进行处理时，如果是单层型关联规则中的变量，那么会把待处理的变量划分为同一层次内，所以不存在多层次性特点，在对多层型的关联规则进行分析和处理时，要考虑到数据的多层特性。

（3）在对关联规则进行分类时，要考虑到数据的维数，把其分为单维和多维。在对单维关联规则进行分析和处理时，往往只考虑到数据的一个维，用户购买的如果是多维关联规则中的商品，那么在开展计算工作时，要考虑到数据的多维。在对数据单属性内部的关系进行处理时，考虑的是单维关联规则。在对各个属性之间的关系进行处理时，考虑的是多维关联规则。

5 应用研究执行偏差数据挖掘的典型应用

某供电公司在对电网项目进行建设时，提取了61个项目，包含了不同类型的项目。电网建设单位工程项目有264个，包含了变电工程，架空输电线路工程以及电缆工程等。

在对获取的数据进行了整理之后，能够对工程项目的建设进度以及投资进度等进行掌握和了解，在此过程中需要对字段数据进行分析，采集9个三率，然后开展分析工作。在对异常数据筛选完成之后，要对数据缺失的项目进行剔除，然后再开展验证和修正工作。清晰处理工作在完成之后，就会形成有效的工程项目，总共有231个。

在对工程工期偏差进行确定时，要事先对数据进行分析，三率系统在建设过程中，受到了实际的建设进度以及理论建设进度之间的影响，而出现了指标结果错误的情况，对于进度数据趋势的项目进行了剔除，总共有21个工程项目出现了数据缺失的情况，剔除工作量完成之后，就能够获得电压等级不同的项目工程工期偏差指标。

在对数据进行精准分析时，要使用数据挖掘方法，在此过程中还需要对工程项目的进度计划执行偏差进行统计，这样才能够有效的实现动态管控，确保工程项目计划进度的执行是符合要求的，工程项目在建设之前，需要科学合理的识别和分析工程项目的实施进度，以及在管控过程中所面临的相关因素，在此基础上能够实现制定科学合理的预防措施，确保在具体施工过程中能够很好的对计划进度偏差进行缩小，确保工程项目在实施过程中，能够实现主动和动态的控制。