APP下载

基于GA-SVM的电能质量扰动分类方法研究

2017-09-21尹志勇陈永光桑博

河北工业大学学报 2017年4期
关键词:识别率适应度分类器

尹志勇,陈永光,桑博

(1.军械工程学院车辆与电气工程系,河北石家庄050003;2.北京跟踪与通信技术研究所,北京100094)

基于GA-SVM的电能质量扰动分类方法研究

尹志勇1,陈永光2,桑博1

(1.军械工程学院车辆与电气工程系,河北石家庄050003;2.北京跟踪与通信技术研究所,北京100094)

电能质量扰动的准确分类,是电能品质改善和治理的重要决策依据.为解决支持向量机(SVM)分类器在多分类问题中的不足,采用模式识别领域中聚类分析的思想,提出了一种基于遗传算法(GA)的SVM决策树多分类电能质量扰动识别方法.该方法首先对参数进行初步最优值筛选,将得到的初步最优值作为遗传算法初始值进行编码,根据设立的适应度函数完成GA中的选择、交叉、变异等操作,进一步搜索最优值,再以最优决策树构建SVM分类器,最终实现SVM的多分类.仿真结果表明,相比未经优化的SVM模型,基于GA算法优化的SVM具有较高的识别精度和抗噪能力.

电能质量扰动;分类;遗传算法;支持向量机

0 引言

电网中的非线性、冲击性和不平衡负荷的投入导致电网电压波形发生畸变、电压波动和三相不平衡等,造成严重的电能质量问题,深入研究影响电能质量的各种因素,实现电能质量扰动的准确分类,是电能品质改善和治理的重要决策依据[1-2].SVM作为模式识别等相关领域的重要分类方法,也开始逐步运用到电能质量扰动分类识别领域中[3-4].文献[5]针对提高SVM识别率,提出了将SVM训练样本集识别率作为遗传算法的适应度函数来优化生成SVM最优分类决策树.文献[6]提出连续利用小波变换与是变换对扰动信号特征值进行提取,先后两次输入SVM分类器进行识别,形成了一套“提取-初分类-再提取-再分类”的分类器设计标准.在现有的诸多经典SVM分类方法中,如一对一分类、一对多分类、有向非循环图支持向量机、决策树支持向量机等,由于存在需要训练的支持向量机个数过多、测试的时间过长等缺点,导致这些方法识别的精度不高,耗时过长,虽然近年来国内外研究人员对此做出了一定的改进[7-10],但也存在识别度降低以及产生的SVM分类器不是最优等问题.

针对上述问题,本文提出了一种基于遗传算法的SVM决策树多分类电能质量扰动识别方法.GA由美国学者Holland在1962年首次提出,该算法以遗传学基本理论与生物进化理论中的“适者生存,优胜劣汰”原则为基础,广泛应用于搜索寻优[11-12].首先GA对优化参数进行编码,根据设立的适应度函数完成GA中的选择、交叉、变异等操作,完成对优秀种群个体的筛选,在保留适应度较好个体的同时,淘汰适应度较差的个体,通过不断迭代,直到选出具有最优适应度值的个体[13].尽管遗传算法在搜索寻优中应用广泛,但仍有一些不足:一是算法的全局搜索能力要高于局部搜索能力,这就导致在后期搜索最优值时会出现搜索时间过长的情况;二是如果在种群进化初期,出现适应度较高的突变个体,会导致种群多样性丧失,出现过早收敛的情况,搜索到的结果可能不是全局最优值.为此,本文提出先对待优化的参数(SVM的惩罚因子与径向基核函数参数)进行初步最优值筛选,然后将得到的初步最优值作为遗传算法初始值进行编码,再通过GA的选择、交叉、变异3步操作完成进一步搜索最优值.仿真结果表明,相比未经优化的SVM模型,基于GA算法优化的SVM具有较高的识别精度和抗噪能力.

1 线性不可分条件下的SVM原理

SVM是一种以统计学习理论为主要思想的智能机器学习算法[14],包括线性分类与非线性分类两种.在实际分类应用中,基本遇到的都是非线性问题,此时线性可分的SVM无法处理,因此,解决非线性问题的思路都是将其通过非线性变换,将原始空间的样本变换到高维的特征空间,然后在高维特征空间中按照类似线性可分的SVM方法寻找分类最优的超平面S,其思想如图1所示.

为了减少在特征空间中对向量点积的计算,Vapnik等学者通过引入符合Mercer条件下核函数的概念来代替向量点积运算[15],即:

图1 原始空间变换到高维空间的映射Fig.1 The mapping from original space transformation to high dimensional space

在引入核函数概念后,计算高维特征空间的对偶问题转化为式(2):

最优分类超平面S的分类函数为:

图2反映了SVM的结构,中间节点的线性组合构成了输出节点,每一个中间节点相应的表示一个支持向量.

图2 SVM结构图Fig.2 The structure diagram of SVM

2 SVM二分类转化为多分类方法

在实际应用中,我们面临的绝大多数问题仍是多分类问题,而SVM作为二分类的主要手段,显然不能满足实际应用,因此必须要对SVM进行改进,达到解决多分类问题的目的.

目前,应用较为广泛的多分类SVM构造方法有一对一、一对多2种[16].一对一分类法通过将每一类训练样本分别与剩余的训练样本一一比对,共形成0.5 K(K-1)个二分类SVM分类器,其中K为训练样本类别数;然后将测试样本通过所有SVM分类器,运用投票法来完成分类操作.一对多分类法是将K个二分类SVM分类器中的第i类训练样本类别标记成1,然后将剩余的样本类别标记为-1,然后将测试样本通过所有SVM分类器,将预测的样本类别号进行归类,并判断所属类别.但这2类分类方法会出现推广误差无界的问题,有时还会造成拒绝分类的情况出现.

为了解决SVM分类器在多分类问题中的缺陷,本文根据模式识别领域中聚类分析的思想,设计了SVM分类树来完成对电能质量扰动信号的识别.SVM分类树的结构如图3所示.

图3 SVM多分类结构图Fig.3 Multi-classification structure diagram of SVM

3 基于GA-SVM的分类器设计

如前所述,GA可能出现后期搜索最优值时搜索时间过长,初期出现适应度较高的突变个体而过早收敛等问题[17].为此,本文提出先对待优化的参数(SVM的惩罚因子C与径向基核函数参数g)进行初步最优值筛选,将得到的初步最优值作为遗传算法初始值进行编码,再通过GA的选择、交叉、变异3步操作完成进一步搜索最优值.

1)交叉验证法(Cross Validation,CV)完成对参数C、g的初步寻优

CV法是一种对分类器性能进行优化的计算方法,其主要操作过程为:首先将全部原始数据平均分成N组;然后将N组中前N-M组作为训练样本,后M组作为测试样本;最后取M组测试样本准确率的平均值作为评价分类器的性能的指标.选取CV验证下测试样本准确率的平均值ηCV为最优化参数C、g的适应度函数,其数学表达如式(5)所示:

为了可以快速寻找最优参数C、g,对其进行离散化的网格搜索,参数C、g都在2-10~210范围内进行搜索,并给定N=3,其寻优参数结果如图4所示.

经过搜索,得到ηCV=97%,C=2,g=0.5.

2)遗传算法再次寻优步骤

GA搜索最优值的具体步骤如下:

①种群初始化设置及各类参数编码:设置种群数为20,最大进化代数为100,交叉操作概率为0.6,变异操作概率为0.1;将初步优化后得到的C、g进行实数编码.

②确立适应度函数:适应度函数仍选取CV验证下测试样本准确率的平均值ηCV.

图4 参数选择结果3d立体图Fig.4 3d diagram of parameter selection result

③选择、交叉、变异3大遗传操作:

选择操作的基本思想是从上一代群体中按照适应度值的情况,以一定的概率选择适应度值较好的个体组成新的种群,适应度较好的个体被遗传到下一代的概率越大,通过采用概率统计理论中轮盘赌的方法完成个体繁衍,设种群中个体j被繁衍到下一代的概率为εi如式(6)所示.

交叉操作是对随机选取的两个不同个体的染色体进行交换,来得到新的优秀个体.在对个体进行实数编码后,采取实数交叉法对第m个染色体rm和第n个染色体rn在第k位进行交叉操作为:

式中,s为[0,1]间的随机数.

变异操作的目的是为了保持种群的多样性,首先随机选取一个种群个体,然后对该个体m的第n个基因rmn进行变异操作,获得更为优秀的个体,具体过程如式(8)所示.

④各类参数解码.得到迭代后的最终优化参数为:C=1.414,g=1.

综合以上分析,基于GA的SVM分类器的工作流程如图5所示,图中数据预处理过程即为交叉验证法对参数C、g的初步寻优过程.

图5 CV-GA-SVM分类器流程图Fig.5 Flow chart of CV-GA-SVM classifier

4 仿真实验分析

为了全面分析该分类方法的实用性,仿真实验主要从以下2个方面进行验证.

1)不同SNR条件下对扰动信号分类识别率的影响

对6类扰动信号随机产生的300组样本,分别叠加SNR为20 dB、30 dB、40 dB的噪声,其中前100组作为分类器训练样本,后200组最为分类器测试样本,其中SVM中选择优化后的径向基核函数,测试样本识别率的统计结果如表1所示.

从表1可知,该方法在识别扰动信号时准确率较高,抗噪性能非常明显,平均识别率在97.08%以上.

2)不同核函数对扰动信号分类识别率的影响

为了比较优化后核函数对SVM分类器性能的影响,将径向基核函数与其他常用核函数进行比较,在无噪声污染的条件下对六类扰动信号随机产生的300组样本,其中前100组作为分类器训练样本,后200组最为分类器测试样本,以六类电能质量扰动信号的平均识别率作为评价指标,统计结果如表2所示.

根据分类结果可知:①优化后径向基核函数:共出现15个错误样本,其中1组电压暂降样本,6组电压冲击样本,8组电压脉冲样本,平均识别率98.75%;②线性核函数:共出现28个错误样本,其中2组电压暂升,4组电压暂降,2组电压中断,8组电压冲击,12组电压脉冲,平均识别率97.67%;③阶多项式核函数:共出现23个错误样本,其中2组电压暂升,3组电压暂降,1组电压中断,7组电压冲击,10组电压脉冲,平均识别率98.08%;④Sigmoid核函数:共出现22个错误样本,其中1组电压暂升,4组电压暂降,8组电压冲击,9组电压脉冲,平均识别率98.17%.从各类核函数统计结果来看,识别率较低的扰动类型主要为电压冲击与电压脉冲,原因是电压冲击往往是由别的扰动产生时才出现的,其特征值被其他扰动信号特征值覆盖,因此会经常出现误判.

表1 不同信噪比下的测试结果Tab.1 Test results under different SNR

表2 测试结果Tab.2 Test results

5 结论

1)提出了一种基于遗传算法的SVM决策树多分类电能质量扰动识别方法.该方法首先对SVM的惩罚因子与径向基核函数进行初步最优值筛选,将得到的结果作为遗传算法初始值进行编码,再通过GA的选择、交叉、变异3步操作完成进一步搜索最优值,最终获得了最优参数,基于此,构建了SVM分类器,并设计了分类流程.

2)对所提出的分类方法进行了实验验证.采用离散小波对电能质量扰动信号分解,构建了分类器所用的特征向量集,从不同噪声强度和不同核函数的选择两个方面对GA-SVM分类方法进行了验证,结果表明,基于GA算法优化的SVM具有较高的识别精度和抗噪能力,适应能力较强,为电能质量监测的实际工程应用提供了依据.

[1]邢颖,李宝树.非线性负荷对电网电压和电流的影响[J].电气应用,2007,26(8):25-28.

[2]刘金宁,赵锦成,刘洪文.装备电能质量仿真和试验系统研究[J].移动电源与车辆,2012(4):28-32.

[3]Karthikeyan M,Malathi V.Wavelet support vector machine approach for classification of power quality disturbances[J].International Journal of Recent Trends in Engineering,2009,1(3):290-293.

[4]占勇.基于支持向量机的电能质量分析和负荷建模研究[D].上海:上海交通大学,2007.

[5]王一,杨俊安,刘辉.一种基于遗传算法的SVM决策树多分类方法[J].信号处理,2010,26(10):1495-1499.

[6]韩刚,张建文,禇鑫,等.多特征组合及优化SVM的电能质量扰动识别[J].电力系统及其自动化学报,2015,27(8):71-76.

[7]秦业,袁海文,袁海斌,等.基于优化最小二乘支持向量机的电能质量扰动分类[J].电工技术学报,2012,27(8):209-214.

[8]张俊才,张静.使用粒子群算法进行特征选择及对支持向量机参数的优化[J].微电子学与计算机,2012,29(7):138-141.

[9]H.Eristi,Y.Demir.Automatic classification of power quality events and disturbances using wavelet transform and support vector machines[J].IET Gener Transaction Distribution,2012,6(10):968-976.

[10]战兵.基于支持向量机的制造系统静态复杂性综合模型研究[J].军械工程学院学报,2014,26(4):14-18.

[11]Vasconcelos J A,Ramirez J A,Takahashi R H C,et al.Improvements in Genetic Algorithms[J].IEEE Trans Magnetics,2001,37:3414-3417.

[12]Gu W j,Zhang R c,Zhao H c.On fuzzy sliding mode guidance based on self-adaptive genetic annealing algorithm.IEEE Trans on SMC.2008,3(11):257-2581.

[13]程亚平,李志刚,张强.多目标遗传算法在感应加热电气参数优化中的应用[J].河北工业大学学报,2015,44(1):1-5.

[14]Cristianini N,Shawe-Taylor J.An Introduction to Support Vector Machines and Other Kernal-based Learning Methods[M].Cambridge:Cambridge U-niversity Press,2000.

[15]CHAPELLE O,HAFFNER P,VAPNIK V N.Support Vector Machines for Histogram-based Image Classification[J].IEEE Transactions on Neural Networks,1999,10(5):1055-1064.

[16]余辉,赵晖.支持向量机多类分类算法新研究[J].计算机工程与应用,2008,44(7):185-189.

[17]GAAFAR L K,MASOUD S A.Genetic algorithms and simulated annealing for scheduling in agile manufacturing[J].International Journal of Production Research.2005,43(14):189-216.

[责任编辑 杨屹]

Research on Power Quality Disturbance Classification Based on GA-SVM

YIN Zhi-yong1,CHEN Yong-guang2,SANG Bo1
(1.Department of Vehicle and Electric Engineering,Ordnance Engineering College,Hebei Shijiazhuang 050003,China;2. Institute of Tracking and Telecommunications technology,Beijing 100094,China)

The accurate classification of power quality is an important basis for the improvement and management.In order to solve the lack of support vector machine(SVM)classifier in multi classification problem,this paper proposes a new power quality disturbance classification method based on genetic algorithm(GA)and SVM with the cluster analysis in pattern recognition.Firstly,the method is used to select the optimal parameters,and then the results are encoded as the initial values of the genetic algorithm.According to the fitness function,the selection,crossover and mutation operations of GA are completed,and the optimal values are searched further.Finally the optimal decision tree is used to construct the SVM multi classifier.The simulation results show that the optimized SVM based on GA has higher recognition accuracy and anti noise ability than the non-optimized SVM model.

power quality disturbance;classification;genetic algorithm;support vector machine

TM76

A

1007-2373(2017)04-0075-05

10.14081/j.cnki.hgdxb.2017.04.013

2017-03-02

国家自然科学基金(51307184)

尹志勇(1979-),男,讲师,博士,jamy067@163.com.

猜你喜欢

识别率适应度分类器
改进的自适应复制、交叉和突变遗传算法
基于类图像处理与向量化的大数据脚本攻击智能检测
基于真耳分析的助听器配戴者言语可懂度指数与言语识别率的关系
提升高速公路MTC二次抓拍车牌识别率方案研究
BP-GA光照分类器在车道线识别中的应用
加权空-谱与最近邻分类器相结合的高光谱图像分类
结合模糊(C+P)均值聚类和SP-V-支持向量机的TSK分类器
高速公路机电日常维护中车牌识别率分析系统的应用
基于空调导风板成型工艺的Kriging模型适应度研究
基于LLE降维和BP_Adaboost分类器的GIS局部放电模式识别