一种电力造价异常数据辨识算法
2023-04-29程津周鲲徐志强伍家耀
程津 周鲲 徐志强 伍家耀
摘 要:为了解决现有电力造价异常数据检测算法无法识别清单详情及清单与施工细节不符的问题,提出了一种基于规则匹配的电力造价异常数据辨识算法.利用Kmeans聚类算法实现了清单的初步分类和特征清单的提取,将特征清单的特征词作为清单类别特征.采用规则库对清单详情进行分词,并提取清单特征词,采用多项式贝叶斯算法计算出清单位于当前类别的概率.实验结果表明,所提出算法较传统异常数据检测算法的准确率提高了约10%.
关 键 词:电力造价;规则匹配;规则库;异常数据;异常检测;清单详情;特征词;多项式贝叶斯
中图分类号:TM769 文献标志码:A 文章编号:1000-1646(2023)04-0387-05
電力工程通常投资金额与工程量都较大,且与其他制造业联系密切[1].电力工程造价的管理与监督一直是电力工程建设中的一个重要环节,其可以辅助施工方合理制定工程预算,同时利于实行有效的监管,是贯穿于工程建设的主要工作,对于维持行业秩序意义重大[2-3].由于电力造价文件录入过程中的人为疏忽或造假等原因,电力造价数据库存在大量的异常数据,主要可以分为两个大类:第一类是同类清单单价差异过大的异常;第二类是清单详情与施工细节不符的异常.目前的电力造价异常检测方法可以基于统计学原理,对第一类异常情况进行有效的辨识,但对第二类异常情况的辨识效果欠佳[4-6].为了能够有效辨识与施工细节不符的异常清单,确保电力造价历史数据的真实性,本文提出了一种对清单详情进行综合单价异常检测的电力造价异常数据辨识算法.该算法根据清单分类结果确定最具有代表性的特征清单,提取特征清单详情中的特征词作为异常辨识依据,并利用多项式贝叶斯方法计算某一清单属于某一类别的概率,实现清单异常的辨识.该方法能够有效克服依靠人工主观制定类别特征的弊端,显著提升清单异常辨识的准确性和辨识效率.