基于改进OCSVM的智能变电站数据流异常检测方法研究
2022-03-22闫梦秋杨轶俊
闫梦秋,杨轶俊,赵 舫
基于改进OCSVM的智能变电站数据流异常检测方法研究
闫梦秋1,杨轶俊2,赵 舫3
(1.深圳供电局有限公司,广东 深圳 518000;2.南方电网深圳数字电网研究院有限公司,广东 深圳 518000;3.浙江大学电气工程学院,浙江 杭州 310027)
目前智能变电站的数据流异常检测对准确性和实时性要求较高,采用简单阈值的检测方法已无法满足要求。针对这一问题,基于智能变电站体系架构,提出了一种将改进的密度聚类算法和改进的单类支持向量机算法相结合用于智能变电站异常数据流检测的方法。使用-图优化密度聚类算法对正常数据流样本进行聚类,形成样本簇。使用改进的粒子群算法优化单类支持向量机算法建立相应的检测模型,对异常数据流进行检测。通过仿真与传统检测方法进行对比分析,验证了所提方法的有效性。结果表明,与传统OCSVM方法相比,所提异常检测方法将常规数据流样本拆分为多个OCSVM模型,可以更紧密地包裹正常样本,检测效果较为理想,检测准确率高于99%,可以满足异常数据检测对准确性和实时性的要求。
智能变电站;通信网络异常;数据流;密度聚类算法;单类支持向量机算法
0 引言
随着我国电网的不断建设和发展,智能电网已成为电网的发展方向[1]。智能变电站作为智能电网建设的重要基础,当变电站发生故障或受到网络攻击时,网络中大量异常信息会导致网络拥塞,造成正常信息传输超时和丢失,使智能变电站设备无法正常运行[2]。因此,研究智能变电站通信网络数据流异常检测方法具有重要的现实意义。
目前,国内外许多学者对智能变电站通信网络异常检测方法进行研究,并取得了一定的成果。文献[3]提出了一种结合差分序列分布和信息物理系统的智能变电站数据异常检测方法。仿真结果表明,该方法不仅能有效识别由物理故障或信息设备恶意入侵引起的异常数据,而且比常规方法具有更高的准确性和可靠性。文献[4]提出了一种通过时-频混合特性对变电站异常流量进行检测。结果表明,与传统的异常检测方法相比,该方法的误检率和误报率都有显著改善。文献[5]提出了一种通过FARIMA模型对智能变电站流量进行检测。结果表明,与传统方法相比,该方法在可靠性和安全性方面都有一定的提高,FARIMA 模型具有更高的拟合精度和预测效果。文献[6]提出了一种基于差分序列方差的异常流量检测方法。结果表明,该检测方法可以在一定程度上补充阈值检测的不足,有效降低检测时延。但是,上述方法在流量阈值范围内对异常数据检测能力不足,数据越少,检测模型的性能越差,适应度有待进一步加强。
在此基础上,文中出了一种将改进的密度聚类(Density Based Spatial Clustering of Applications with Noise, DBSCAN)算法和改进的单类支持向量机(One-Class Support Vector Machine, OCSVM)相结合用于智能变电站通信网络数据流异常检测。首先通过改进的DBSCAN算法进行聚类形成样本簇,然后通过改进的OCSVM建立相应的模型来检测异常数据流。通过仿真对所提方法的优越性进行了验证。
1 系统概述
随着IEC61850标准的发展,智能变电站所有设备都支持该标准[7]。根据功能逻辑,全站设备可分为三层(过程层、间隔层、站控层)和两层组网模式(过程层网络和站控层网络)。层内和层间的数据传输支持使用高速以太网、MMS、GOOSE 和 SV 消息进行数字信息交换。系统结构如图1所示。
图1 系统结构
(1) 过程层主要由智能设备、智能终端、智能组件等组成。
(2) 间隔层主要由继电保护装置、测控装置等辅助装置组成[8]。
(3) 站控层主要由自动化系统、控制系统和通信系统等组成。
2 数据流异常检测
文中提出了一种改进的密度聚类算法,对数据流样本进行聚类,形成样本簇,并使用改进的单类支持向量机算法建立相应的模型,检测异常数据流。图2所示数据流异常检测流程。
图2 数据流异常检测流程
Fig. 2 Data flow anomaly detection process
在训练过程中,模型首先对样本数据进行预处理,然后用改进的密度聚类算法对处理后的样本进行聚类,并将样本集划分为簇1~C,每个簇都建立相应模型。
在异常检测过程中,检测模型首先对数据流样本进行周期性检测,确定样本的消息类型。然后对待测样本进行预处理,使用-最近邻算法确定最近的聚类。最后使用模型判断样本是否存在异常[9]。
2.1 样本聚类
定义⑥(簇和噪声)从数据集中选择任意点,搜索数据集中所有满足和条件的点,密度可达点形成簇[14]。不属于任何簇的对象被标记为噪声点。
对于固定参数输入,DBSCAN 只能找到一个级别的类[15]。
2.2 异常检测模型
单分类支持向量机算法是支持向量机在单分类中的一种改进,在小样本中分类效果和泛化能力非常好。采用核函数法解决了数据的线性不可分问题,避免了直接计算高维空间映射的问题[17]。
OCSVM通过最大化采样点到原点的距离来构建超平面。超平面两侧到原点的数据归为一类,超平面外层的数据归为另一类[18]。
式(3)为凸二次规划问题,为求解模型,通过拉格朗日乘数法建立拉格朗日函数方程,如式(4)所示。
当使用 OCSVM 方法检测新样本时,决策函数通过核函数转换为式(6)所示[21]。
为解决粒子群算法易陷入局部最优问题,使用混沌模型初始化粒子群算法,提高粒子群算法的多样性[23]。采用动态惯性权重和学习因子提高搜索效果。
(1) 粒子群初始化的改进
(2) 粒子群惯性权重的改进
惯性权重越高,全局搜索越容易。惯性权重越小,局部搜索越容易。随着迭代次数的增加,问题的细节也会增加,固定值在解析过程中存在很多缺陷。因此,引入了可变惯性权重,如式(8)所示。
(3) 粒子群学习因子的改进
文中在搜索初期加强全局搜索功能,后期加强局部搜索能力,提高了全局最优解的精度,具体如式(9)所示。
式中:1max、2max和1min、2min分别为最大和最小学习因子;为粒子当前的迭代次数。
基于改进粒子群算法优化的OCSVM模型步骤如下:
步骤1) 对参数进行初始化,设置粒子位置和速度范围、最大迭代次数等参数;
步骤2) 根据混沌模型对位置和速度进行初始化;
步骤3) 将每个粒子的位置参数(P,P)作为对应的OCSVM参数(v,γ),将属于单个聚类的输入样本集组合起来求解OCSVM模型;
步骤4) 得到每个粒子的OCSVM模型后,计算其分类精度作为粒子当前的适应度;
步骤5) 如果迭代次数或收敛状态满足终止条件,则将最优拟合粒子位置参数作为OCSVM参数求解最终的OCSVM模型。
模型构建过程如图 4 所示。
图4 模型建立流程
3 仿真结果分析
3.1 仿真参数
为了验证文中方法的优越性和有效性,使用联想PC作为仿真设备,使用Windows 1064位旗舰操作系统、Intel i52450m CPU、2.5 GHz频率、8 GB内存[25]。使用OPNET仿真软件模拟智能变电站的通信行为并提取数据流样本。基于数据流样本,利用Matlab仿真软件对异常检测模型的相关参数进行分析。
文中采用检测率(True Negative Rate,TNR)作为通信异常检测方法的评价指标,如式(10)所示。
常规样本训练集由10 min内采集的数据流样本建立,常规样本测试集由1 h内采集样本建立。表 1 为正常数据流设置。表2为异常数据设置。
表1 正常数据设置
异常数据流的设置如表2所示。
表2 异常数据设置
3.2 仿真分析
为了验证文中方法的优越性,与流量监测(Flow Rate Monitoring, FRM)方法和单一OCSVM模型进行对比分析。图5所示不同异常检测方法对异常数据流样本特征1的检测率。
共有3 434个异常样本,对报文类型进行随机选择,该报文伪装成SV、GOOSE、MMS、SNTP的异常样本数分别为900、833、830、871。使用FRM方法时,异常数据流样本的报文长(50字节,4 000包)没有超过SV报文阈值,所以无法检测到伪装成SV的异常数据流样本。使用OCSVM和文中方法可以检测到异常数据流样本,因为异常数据流样本的长度明显超过了SV报文的整个范围(200~300字节)。
图5 不同检测方法检测效果(特征1)
图6为不同异常检测方法对特征2的检测率。总共有3 561个异常样本。报文采用随机选择,伪装成SV、GOOSE、MMS和SNTP的异常样本数量分别为902、853、939和867。
图6 不同检测方法检测效果(特征2)
该类异常样本的报文(260字节,8 000包),位于200~300字节之间。部分异常样本被映射到SV报文,因此OCSVM方法无法完成检测。文中方法可以检测到这个异常,这是因为异常样本的流特征明显偏离了两个聚类的各自范围。
图7为不种异常检测方法对特征3的检测率,共3 545个异常样本。报文采用随机选择,伪装成SV、GOOSE、MMS、SNTP消息的异常样本数量依次为922、813、919、891。
图7 不同检测方法检测效果(特征3)
异常样本(320 字节,10 包)的流量特征接近常规 MMS 和 GOOSE 消息样本的范围。如果异常样本的消息类型是GOOSE消息,则偏离了每个GOOSE消息簇的流量特征,通过文中方法进行检测更容易。
非法访问包括小流量访问请求(特性4)和大流量数据读取(特性5)。特征4有3 595个异常样本。随机选择消息类型后,伪装成SV、GOOSE、MMS、SNTP的异常样本数分别为888、915、909、883,特征5的异常样本数为3 590个。伪装成SV、GOOSE、MMS和SNTP的异常样本数量分别为929、840、903和918。图8和图9为不同异常检测方法对两个异常数据流样本的检测效果。
图8 不同检测方法检测效果(特征4)
图9 不同检测方法检测效果(特征5)
从图7—图9可以看出,样本特征编号为3、4、5的异常样本流量特征与常规SNTP和MMS消息的数据流样本流量特征部分重叠。在这种情况下,与传统的OCSVM方法相比,文中提出的异常检测方法将常规数据流样本拆分为多个OCSVM模型,可以更紧密地包裹正常样本,提高检测效果。
从上面的分析可以看出,除了文中方法外,都通过检测范围进行判断。文中方法将样本划分为多簇,并为每个集群构建一个 OCSVM 模型,提高了异常检测的准确性。
4 结论
文中结合改进的密度聚类算法和改进的单类支持向量机算法对智能变电站异常数据流进行检测。改进的密度聚类算法对正常数据流样本进行聚类,并利用改进的单类支持向量机算法建立相应的模型检测异常数据流。结果表明,与传统的异常检测算法相比,该方法具有显著的检测效果,检测准确率超过99%。鉴于目前的实验设备和数据规模,文中提出的异常数据流检测方法还处于起步阶段,后期会不断完善模型,提高检测效率和准确率,适应不断变化的应用环境。
[1] 张旭泽, 郑永康, 康小宁, 等. 智能变电站继电保护系统所面临的若干问题[J]. 电力系统保护与控制, 2018, 46(6): 90-96.
ZHANG Xuze, ZHENG Yongkang, KANG Xiaoning, et al. Some problems faced by relay protection system of intelligent substation[J]. Power System Protection and Control, 2018, 46(6): 90-96.
[2] 李姚旺, 苗世洪, 刘君瑶, 等. 考虑需求响应不确定性的光伏微电网储能系统优化配置[J]. 电力系统保护与控制, 2018, 46(20): 69-77.
LI Yaowang, MIAO Shihong, LIU Junyao, et al. Optimal configuration of photovoltaic microgrid energy storage system considering demand response uncertainty[J]. Power System Protection and Control, 2018, 46(20): 69-77.
[3] 李远松, 高博, 须琳, 等. 基于差分序列方差与CPS融合的数字变电站数据异常检测方法[J]. 电网与清洁能源, 2021, 37(2): 30-41.
LI Yuansong, GAO Bo, XU Lin, et al. Digital substation data anomaly detection method based on difference sequence variance and CPS fusion[J]. Power System and Clean Energy, 2021, 37(2): 30-41.
[4] 杨挺, 侯昱丞, 赵黎媛, 等. 基于时-频域混合特征的变电站通信网异常流量检测方法[J]. 电力系统自动化, 2020, 44(16): 173-180.
YANG Ting, HOU Yucheng, ZHAO Liyuan, et al. Method for detecting abnormal traffic in substation communication network based on mixed characteristics of time-frequency domain[J]. Automation of Electric Power Systems, 2020, 44(16): 173-180.
[5] 郝唯杰, 杨强, 李炜. 基于FARIMA模型智能变电站通信流量异常分析[J]. 电力系统自动化, 2019, 43(1): 30-41.
HAO Weijie, YANG Qiang, LI Wei. Analysis of abnormal communication flow in smart substation based on FARIMA model[J]. Automation of Electric Power Systems, 2019, 43(1): 30-41.
[6] 张嘉誉, 章坚民, 杨才明. 基于信息物理融合的智能变电站过程层网络异常流量检测[J]. 电力系统自动化, 2019, 43(14): 30-41.
ZHANG Jiayu, ZHANG Jianmin, YANG Caiming. Intelligent substation process layer network abnormal flow detection based on cyber-physical integration[J]. Automation of Electric Power Systems, 2019, 43(14): 30-41.
[7] 戴志辉, 黄敏, 苏怀波. 基于 MMC 的环状直流配网在不同接地方式下的故障特性分析[J]. 电力系统保护与控制, 2019, 47(1): 1-10.
DAI Zhihui, HUANG Min, SU Huaibo. Fault characteristics analysis of circular DC distribution network under different grounding modes based on MMC[J]. Power System Protection and Control, 2019, 47(1): 1-10.
[8] 黄文婧, 李华强, 杨植雅, 等. 基于模糊聚类排序及状态均匀性的电网安全性风险评估[J].电测与仪表, 2018, 55(9): 21-26.
HUANG Wenjing, LI Huaqiang, YANG Zhiya, et al. Power grid security risk assessment based on fuzzy clustering ranking and state uniformity[J]. Electrical Measurement & Instrumentation, 2018, 55(9): 21-26.
[9] 叶波. 基于负载均衡度的云计算任务调度算法[J]. 东北电力大学学报, 2019, 39(1): 88-95.
YE Bo. Cloud computing task scheduling algorithm based on load balancing degree[J]. Journal of Northeast Electric Power University, 2019, 39(1): 88-95.
[10] 谢黎, 周华良, 于同伟, 等. 一种智能变电站新型双网冗余设备及实现[J]. 电力系统保护与控制, 2019, 47(11): 151-156.
XIE Li, ZHOU Hualiang, YU Tongwei, et al. A new dual network redundant equipment and its implementation for intelligent substation[J]. Power System Protection and Control, 2019, 47(11): 151-156.
[11] 陈磊, 何慧雯, 王磊, 等. 基于限流器与断路器协调的混合直流输电系统故障隔离方法[J]. 电力系统保护与控制, 2020, 48(19): 119-127.
CHEN Lei, HE Huiwen, WANG Lei, et al. Fault isolation method for hybrid HVDC system based on coordination of current limiter and circuit breaker[J]. Power System Protection and Control, 2020, 48(19): 119-127.
[12] MOSES V, HATHERLEY R, BISHOP Ö T. Bioinformatic characterization of type-specific sequence and structural features in auxiliary activity family 9 proteins[J]. Biotechnology for Biofuels, 2016, 9(1): 88-94.
[13] HOU Kaiyuan, SHAO Guanghui, WANG Haiming, et al. Research on practical power system stability analysis algorithm based on modified SVM[J]. Protection and Control of Modern Power Systems, 2018, 3(2): 119-125.
[14] PATEL G K, DABHI V K, PRAJAPATI H B. Clustering using a combination of particle swarm optimization and K-means[J]. Journal of Intelligent Systems, 2017, 12(3): 457-469.
[15] GAUTAM J V, PRAJAPATI H B, DABHI V K, et al. Empirical study of job scheduling algorithms in Hadoop MapReduce[J]. Cybernetics and Information Technologies, 2017, 21(1): 146-163.
[16] CAETANO C E F, LIMA A B, PAULINO J O S, et al. A conductor arrangement that overcomes the effective length issue in transmission line grounding[J]. Electric Power Systems Research, 2018, 46(5): 159-162.
[17] HU Jianjiang, FICHTNER M, BARICCO M. Preparation of Li-Mg-N-H hydrogen storage materials for an auxiliary power unit[J]. International Journal of Hydrogen Energy, 2017, 42(27): 17144-17148.
[18] JIA Zhiwei, WANG Lijun, ZHANG Jinchuan, et al. High efficiency, low power-consumption DFB quantum cascade lasers without lateral regrowth[J]. Nanoscale Research Letters, 2017, 12(1): 88-95.
[19] 张婕, 曾国辉, 赵晋斌, 等. 基于改进冒泡排序的模块化多电平换流器电容电压均衡策略[J]. 电力系统保护与控制, 2020, 48(6): 92-99.
ZHANG Jie, ZENG Guohui, ZHAO Jinbin, et al. Capacitor voltage equalization strategy for modular multilevel converter based on improved bubble sorting[J]. Power System Protection and Control, 2020, 48(6): 92-99.
[20] 吴凯峰, 刘万涛, 李彦虎, 等. 基于云计算的电力大数据分析技术与应用[J]. 中国电力, 2015, 48(2): 111-116.
WU Kaifeng, LIU Wantao, LI Yanhu, et al. Cloud computing-based large power data analysis technology and application[J]. Electric Power, 2015, 48(2): 111-116.
[21] 王利平, 庞晓艳, 朱雨, 等. 基于物联网和移动互联的二次设备运维技术研究与应用[J]. 中国电力, 2019, 52(3): 177-184.
WANG Liping, PANG Xiaoyan, ZHU Yu, et al. Research and application of secondary equipment operation and maintenance technology based on internet of things and mobile interconnection[J]. Electric Power, 2019, 52(3): 177-184.
[22] 盛津芳, 滕潇雨, 李伟民, 等. 移动边缘计算中基于改进拍卖模型的计算卸载策略[J]. 计算机应用研究, 2020, 37(6): 1688-1692.
SHENG Jinfang, TENG Xiaoyu, LI Weimin, et al. Computing offload strategy based on improved auction model in mobile edge computing[J]. Computer Application Research, 2020, 37(6): 1688-1692.
[23] 王德文, 刘晓萌. 基于虚拟机动态迁移的电力仿真云计算平台资源调度策略[J]. 计算机科学, 2015, 39(12): 97-105.
WANG Dewen, LIU Xiaomeng. Resource scheduling strategy of power simulation cloud computing platform based on virtual machine dynamic migration[J]. Computer Science, 2015, 39(12): 97-105.
[24] 魏赟, 陈元元. 基于改进蚁群算法的云计算任务调度模型[J]. 计算机工程, 2015, 41(2): 12-16.
WEI Yun, CHEN Yuanyuan. Cloud computing task scheduling model based on improved ant colony algorithm[J]. Computer Engineering, 2015, 41(2): 12-16.
[25] 张浩. 云计算环境下的电力任务节能调度方法研究[J].电力系统保护与控制, 2021, 49(13): 128-134.
ZHANG Hao. Research on power task energy saving scheduling method in cloud computing environment[J]. Power System Protection and Control, 2021, 49(13): 128-134.
A data stream anomaly detection method based on an improved OCSVM smart substation
YAN Mengqiu1, YANG Yijun2, ZHAO Fang3
(1. Shenzhen Power Supply Co., Ltd., Shenzhen 518000, China; 2.China Southern Power Grid Shenzhen Digital Grid Research Institute Co., Ltd., Shenzhen 518000, China; 3. College of Electrical Engineering, Zhejiang University, Hangzhou 310027, China)
At present, data flow anomaly detection for an intelligent substation requires high accuracy and real-time, and the detection method of a simple threshold cannot meet the requirements. To solve this problem, based on the architecture of an intelligent substation, a method combining an improved density clustering algorithm and an improved single class support vector machine algorithm for abnormal data flow detection in intelligent substation is proposed. The-graph optimized density clustering algorithm is used to cluster normal data stream samples to form sample clusters. An improved particle swarm optimization algorithm is used to optimize the single class support vector machine algorithm, and the corresponding detection model is established to detect abnormal data flow. The effectiveness of the proposed method is verified by comparing the simulation with the traditional detection method. The results show that compared with the traditional OCSVM method, the proposed anomaly detection method divides the conventional data stream samples into multiple OCSVM models, which can wrap the normal samples more closely. The detection effect is ideal, and the detection accuracy is higher than 99%, which can meet the requirements of accuracy and real-time for anomaly data detection.
This work is supported by the Science and Technology Project of China Southern Power Grid Co., Ltd. (No. 0002200000072652).
intelligent substation; abnormal communication network; data flow; density clustering algorithm; one-class support vector machine algorithm
10.19783/j.cnki.pspc.210946
南方电网公司科技项目资助(0002200000072652);国家重点研发计划资助(2017YFB0903100)
2021-07-22;
2021-11-11
闫梦秋(1993—),女,本科,研究方向为信息系统运维;E-mail:yanmengqiu0829@163.com
杨轶俊(1985—),男,博士研究生,研究方向为信息系统建设;
赵 舫(1962—),男,博士,副教授,主要从事变压器保护、线路保护、电网规划、系统优化方面的研究。
(编辑 张爱琴)