基于Apriori关联规则的电能表检定质量影响因素分析*

2017-12-21王增平赵兵李泽坤孙毅李彬

电测与仪表 2017年13期

王增平，赵兵，李泽坤，孙毅，李彬

（1.华北电力大学，北京102206；2.中国电力科学研究院，北京100192）

0 引言

随着电力事业的发展，我国正在建设覆盖全部用户、采集全部用电信息、支持全部电费控制的“全覆盖、全采集”系统，而电能表是电力信息采集系统中的基础组成部分，需具备实时采样、精确计量、可靠运作等技术要求。电能表的质量好坏直接影响用户侧的供电可靠性和安全性，进而影响整个系统的安全、稳定和经济运行。

目前对电能表质量的研究以基于层次分析法建立的评估体系居多，文献［1］利用了层次分析和应用选型决策方法建立了对数学决策模型，讨论了电能表质量因素和相互作用机理，提出了全面判断、分析电能表质量的方法；文献［2］结合层次分析法对各功能分类的测试项目进行分析，建立了电能表软件质量评估体系。也有利用FEMCA失效模式分析对电能表故障进行统计分析的研究，文献［3］通过对单相电能表故障模式及影响分析，总结了各类故障类型并提出了增加可靠性、降低故障率的措施。这些针对电能表质量的研究为本文提供了一部分参考，但是这些方法对电能表运行及故障信息的描述要求较高，在处理海量、描述单一的信息时适用性较差。而本文数据量较大，所以采用了大数据分析的思路，从海量数据中挖掘一部分实用信息进行分析。

而关联规则挖掘是数据挖掘的一种重要方法，能从客观的数据中发掘隐藏的内部联系，提供具有实用价值的信息。该方法在商业营销［4-5］、医学［6］、金融［7］、甚至教学管理［8-9］等领域获得较多应用，但是用于研究电气设备质量影响因素方面较少。文献［10］指出关联规则挖掘在电力系统中的应用前景巨大；文献［11］把关联规则的数据挖掘技术用于电网故障诊断中；文献［12］为电网系统火电机组运行找出了优化目标；文献［13］把关联规则分析用于断路器故障诊断中，找出了断路器故障现象与故障类别之间的关系，为建立诊断系统提供依据。

基于此，本文将尝试着把关联规则挖掘方法应用在电能表检定质量影响因素的分析中，并借助Clementine数据挖掘［14］软件处理海量数据，输出关联因素网络图。

1 电能表数据的准备

1.1 数据的清洗与整理

本文数据取自“宁夏地区的电能表全检综合结论信息”，数据共有63 698条记录，其中有63 450条合格电表数据和248条不合格电表数据。原始数据存在很多问题，诸如：空值、无效值、奇异值等。除此以外，数据中存在众多无关项，譬如：检定台体编号、检定人姓名等，这些对挖掘电能表质量影响因素的关联性没有直接联系，采用信息过滤的方式滤去这些无关项。在很多检定项中，检定结果为空值或者无效值nulls，对于这样缺失比较严重的数据记录，采取直接略去的方式，缺失相对较少的数据记录暂时保留，再结合检定结论加以判断。数据中各个检定项的记录方式为：1—合格，2—不合格，但是存在很多3或03等奇异值，暂时无法判断检定项的检定结果，这样的数据暂时不考虑，无法对其准确地统计分析。

1.2 数据及指标的筛选

根据JJG 596-2012《电子式交流电能表》检定规程，目前具有计时功能的电能表的检定项目有：外观标志及通电检查、基本误差试验、常数试验、起动试验、潜动试验、日计时误差试验、交流耐压试验，其中，外观标志及通电检查和交流耐压试验需满足电能表的通用技术要求，而其他5项检定试验需满足电能表计量性能要求。

经审核，原始数据中对这7个检定项目的记录完整，且只存在较少的nulls值和空值，基于完整度的前提下，将这7项检定试验的结果作为评价电能表检定环节的质量的指标。因需挖掘的对象为质量影响因素，所以抽取的电能表数据记录为不合格电表的数据。其他信息作为噪声干扰信息被过滤掉，不参与建模统计，而把抽取的信息形成关联信息表，对此进行关联因素分析。

1.3 数据离散化

本文采用的Apriori算法属于布尔型关联规则算法，只能处理分类型变量，不能处理数值型变量，因此需要对清洗除噪后的数据再进行处理，数据类型改为离散型，离散化后的数据参考样式如表1所示。

表1 离散化后的内容示意Tab.1 Schematic content after discretization

表1中约定：1代表“合格”，2代表“不合格”，所有检定项目合格与否都可以用此类布尔型方式描述。因研究对象为不合格因素，所以2为真值。

2 Apriori算法在电表检定项中的应用

2.1 算法原理简介

关联规则挖掘算法中最经典的是Apriori算法，它是由R.Agrawal和R.Srikant提出的一种挖掘关联规则频集的算法。该算法采用的是逐层搜索迭代的方式，先产生候选集Ck，然后计算所有k项集的支持度，若支持度满足大于最小支持度阈值要求，则成为频繁k项集Lk，接着在Lk基础上产生候选集Ck+1，然后通过判断最小支持度来确定频繁（k+1）项集Lk+1，以此类推，直到找不到下一个频繁项集为止。由每个频集中的项组成关联规则，分别计算出规则的置信度，若置信度大于最小置信度度阈值，则生成关联规则［15］，同时满足最小支持度和最小置信度要求的规则成为有效规则。因此，Apriori算法分为两步，第一步产生频集，第二步产生关联规则，算法的原理概括如图1所示。

图1 Apriori算法原理简图Fig.1 Schematic diagram of the Apriori theory

2.2 频集的生成

根据以上流程，本文抽取了10条数据记录来示意Apriori算法的应用过程，数据如表2所示。

表2 随机抽取的部分数据Tab.2 Part of a random sample of data

表2中10条记录即为10个事务，记为T1-T10，对7个检定项目因素进行编号，如表3所示。

表3 检定项目编号一览表Tab.3 Number list of verification items

根据表2中的数据，I＝｛a、b、c…｝是能导致电能表检定不合格的因素集合，即项的集合，T＝｛T1、T2、T3…｝是不合格电表的集合，即事务集。每个事务Ti都是项的集合，即Ti⊆I。要生成频集，需设定最小支持度阈值，项支持度的定义为包含某一项集A的所有项目在事务集T中所占的比例，即：

设定最小支持度为40%，频集生成过程如下：

（1）扫描T，对每个候选计数，生成1-项候选集C1，如表4所示。

表4 1-项候选集C1Tab.4 1-item candidate set C1

（2）满足阈值条件的项集组成频繁1-项集L1，如表5所示。

表5 频繁1-项集L1Tab.5 1-item frequency set L1

（3）根据L1产生2-项候选集C2，如表6所示。

表6 2-项候选集C2Tab.6 2-item candidate set C2

（4）满足阈值条件的项集组成频繁2-项集L2，如表7所示。

表7 频繁2-项集L2Tab.7 2-item frequency set L2

（5）根据L2产生3-项候选集C3，如表8所示。

表8 3-项候选集C3Fig.8 3-item candidate set C3

（6）满足阈值条件的项集组成频繁3-项集L3，如表9所示。

表9 频繁3-项集L3Tab.9 3-item frequency set L3

由于L3不能继续构成候选集C4，迭代结束。最终得到的频繁项集为L1、L2、L3。

2.3 关联规则生成

有效规则需同时满足规则最小支持度和最小置信度阈值要求，规则A⇒B的支持度为事务T中包含A∪B的比例，而A⇒B的置信度为事务T中包含A也同时包含B的比例，即：

式中A、B均为包含于T的项集，且A∩B＝Ø。本文中的支持度指的是7项检定试验中若干项不通过导致电能表不合格的概率，而置信度表现为若干项试验未通过导致电表不合格结论的可能性大小。

传统的Apriori算法从频集中生成关联规则，可以找出7个检定项目之间的关系。而本文还可以利用数据中“检定结论＝2”这一项的特殊性，找出检定结论与单个检定项目之间的关联程度。因此，将“检定结论＝2”编号为m，规定最小置信度为80%，生成的规则如表10和表11所示。

表10 关联规则挖掘结果1Tab.10 The first mining results of association rules

以上规则全符合最小置信度阈值要求，全部输出为有效关联规则。

表11 关联规则挖掘结果2Tab.11 The second mining results of association rules

表11中除了ID6、ID19不满足最小置信度阈值要求，其他都满足，可以输出为有效关联规则。

3 结果与分析

3.1 结果生成及优化处理

因数据量较大，借助Clementine数据挖掘［14］软件辅助处理。综合对比不同阈值下多次处理结果的差异，最终设定最小支持度为15%，最小置信度为80%，为了防止关联规则过于复杂，设定前项最大项目数为3。将结果按照支持度大小排序呈现，见表12。

表12 电能表关联规则挖掘结果Tab.12 Mining results of association rules of electric energy meters

为了保证规则的有效性及实用性，需要对以上Clementine生成的规则加以判断、整合、优化。表中出现了很多实例数与支持度相同的规则，判断原因是事务“检定结论＝2”包含的项目数超过了设定的最大项目数，从而生成了多种冗余规则，因此对表12中内容进行整合、优化，结果如表13所示。

表13 电能表检定数据关联规则挖掘整合结果Tab.13 Optimization to the mining results of association rules of electric energy meters

结果分析：（1）规则 ID16、ID17显示，基本误差试验不通过导致电表不合格的支持度最高（48.58%），其次是起动试验不通过（31.58%），电能表检定不合格由这两项引起的案例最多，说明基本误差试验和起动试验的结果很大程度上影响着电能表检定结论；相比之下日计时误差试验（21.05%）、常数试验（20.65%）、潜动试验（17.41%）不合格影响较小，如规则 ID7、ID12、ID15所示；（2）在最小支持度15%的条件下，以上规则的置信度都是100%，这符合常理，只要检定环节中其中一项出现不合格，那电能表的检定结论就是不合格；（3）在不合格电表中，通常会出现几项检定试验均未通过的情况，如规则 ID85、ID87、ID79所示。

3.2 检定质量关联因素分析

为了进一步研究单一检定试验项对检定结论的影响程度，我们适当调整最小支持度阈值，并从Apriori关联规则表中筛选出了一部分典型规则，如表14所示。

表14 检定结论与检定项目的关联规则表Tab.14 Association rules between verification conclusion and items

从表14中的关联规则可以得到以下几点：（1）各影响因素关联度排序：基本误差试验、起动试验、日计时误差试验、常数试验、潜动试验、交流电压试验、外观标志及通电检查；（2）基本误差试验和起动试验的检定结果对电能表检定结论影响最大，因基本误差试验和起动试验不合格导致电能表不合格的情况发生最频繁；（3）外观标志及通电检查与检定不合格支持度很低（4.05%），表明由外观标志通电检查不通过而导致电表不合格的情况很少。

为了直观地对比各影响因素的关联度，通过Clementine辅助生成了检定结论与检定试验影响因素关联图，如图2所示。网状图线条粗细反应链接的强弱，强弱链接区间划分如表15所示。

表15 网状图链接强弱区间表Tab.15 Interval divisions of link strength on the network diagram

图2 检定试验影响关联图Fig.2 Associated factors diagram of verification test

在图2中，粗实线代表强链接，细实线代表中等链接，虚线代表弱连接，左下角突出部分表示的是检定结论与影响因素之间的强弱关系。影响检定结论的强链接因素有4个：日计时误差试验、常数试验、起动试验、基本误差试验；中等链接因素有两个：交流电压试验、潜动试验；外观标志及通电检查试验属于弱链接影响因素。该分析结果与表13中关联规则基本一致。

3.3 检定项目连带关联分析

由3.1节的关联规则 ID79、ID85、ID87可知，当一个电表检定不合格时，可能表现为多种试验均不通过，为了找到检定项目之间的隐含关系，将图2的检定结论这一项滤去，得到了检定试验之间的关联图，如图3所示。

图3 检定项目内部关联图Fig.3 Inner association diagram between verification items

在图3所示的关联网状图中，常数试验、基本误差试验、日计时误差试验这3个因素之间呈现强链接，外观标志及通电检查试验、交流电压试验、以及其余5项因素之间呈现弱链接，其他的链接呈现为中等链接。这说明，常数试验、基本误差试验、日计时误差试验、起动试验、潜动试验这5项中，有若干项不合格同时出现的情况经常发生，尤其是常数试验、基本误差试验、日计时误差试验这3项不合格连带出现的概率较高。

根据对图3的定性分析，从Apriori算法关联规则挖掘结果中筛选了部分关联规则做验证，见表16。

表16中置信度都为100%意为：前项一定会导致后项发生，则在此可以理解为前项后项同时发生。那么，在ID122的规则中，基本误差试验、常数试验、日计时误差试验同时不合格的电表有50例，占总样本的20.24%，与图5中强链接吻合；在ID227的规则中，基本误差试验、常数试验、日计时误差试验、起动试验同时不合格的电表有43例，占总样本的17.41%，对应于“起动试验”与“常数试验、基本误差试验、日计时误差试验”三者之间的中等链接。同理，规则ID134对应“潜动试验”与“常数试验、起动试验、基本误差试验、日计时误差试验”四者之间的中等链接。以此类推，Apriori规则挖掘结果与关联网络图具有一致性。

表16 部分关联规则挖掘结果Tab.16 Part of mining results of association rules

4 结束语

通过对不合格电表的检定项目关联分析，可知：（1）基本误差试验的结果对电能表检定质量影响最大，其次是起动试验；（2）日计时误差试验、常数试验、潜动试验和交流耐压试验的结果对电能表检定质量影响程度一般，但不可忽视；（3）外观标志及通电检查试验影响最小。在诸多检定项中，基本误差试验、常数试验、日计时误差试验这三种同时不通过的概率很高，究其原因是这三项试验都属于检测计量误差类试验，说明计量性能是电表的薄弱环节。厂家应重点提高电表的计量模块质量，提高这三者检定通过率。