基于旋转门算法的安全网关控制信息采集策略
2018-12-25王爽陆月明
王爽,陆月明
基于旋转门算法的安全网关控制信息采集策略
王爽1,2,陆月明1,2
(1. 北京邮电大学网络空间安全学院,北京 1000876; 2. 可信分布式计算与服务教育部重点实验室,北京 100876)
安全网关控制信息采集是天地一体化网络中的一种重要安全感知技术,传统的等时间间隔采集策略存在网络带宽浪费、数据大量冗余、采集节点数据采集量过大、传输次数过多等问题,针对这些问题,提出了一种基于旋转门算法的安全网关控制信息采集策略,该策略通过改进的旋转门算法分析判断安全网关控制信息(如网关流量、CPU利用率等)的变化幅度,自适应调整安全网关控制信息采集间隔。实验结果表明,该策略与传统等时间间隔采集策略相比,能在保证数据准确率的情况下,减少数据采集次数和数据传输次数,有效降低网络开销,提高数据采集效率。
数据采集;旋转门算法;网关监测;自适应变频
1 引言
随着地面互联网、移动通信网络和空间网络的融合[1],天地一体化网络架构逐渐形成。在此网络架构下,移动互联网、物联网、云计算等技术迅速发展,带来了技术和经济发展,同时也产生了更加复杂的网络安全问题。针对网络安全问题,天地一体化网络中安全网关联动防护控制需要感知攻击来源,并且需要实现网关负载均衡分布,因此产生对通信资源、网关负载、威胁等进行量化感知的需求,而传统等时间间隔感知时间间隔难以设置标准,时间间隔设置过长,容易丢失重要数据,降低数据准确率;时间间隔设置过短,造成网络带宽浪费、数据大量冗余、采集量过大等问题[2]。因此,在实际应用中采用等时间间隔采集策略,虽然实现简单,但由于数据动态变化的特性,单位时间内的平均数据获取信息量较少。因此,如何设计出既保证数据准确率,又可以降低网络消耗的高效数据采集策略是当前网关信息感知亟待解决的重要问题。针对采集策略问题,自适应变频采集技术受到广泛关注,自适应指的是针对采集数据的动态变化特性,动态调整采集时间间隔,因而自适应变频采集的核心问题是如何判断采集数据的变化幅度。
针对判断采集数据变化幅度的问题,国内外做了大量基于线性回归模型的相关研究改进。宋欣等[3]提出了一种基于分段线性回归的无线传感器网络分布式数据采集压缩优化策略,通过应用线性回归分析方法构建感知数据模型,并且节点只传输回归模型的参数信息,传输网络消耗较小,但当采集时间间隔较大时,该方法的误差绝对值也较大,无法保证数据准确性;王玲等[4]提出了一种基于时间相关性的网络数据压缩与优化算法,该算法的线性回归策略能够实时判断数据变化幅度,动态调整采集时间间隔,并实时修正回归模型。Padhy等[5]在收集与冰川相关的环境数据时,提出了基于有限窗口线性回归模型预测未来数据,通过判断预测数据范围动态调整采集时间间隔。Gupta等[6]提出了一种基于指数双平滑新的自适应采样技术,采用不规则数据序列预测,结合变化检测来降低采样率,以保持数据保真度,可以在资源受限的传感器节点上容易地实现预测。但后3种改进算法模型比较复杂,应用在网关采集数据时实现较为困难。
针对线性回归模型算法实现较为复杂,在安全网关控制信息采集中应用可行性不高的问题,考虑使用旋转门算法进行数据变化趋势的判断。Bristol[7]提出了旋转门算法(SDT, swing door trending algorithm),该算法实现了存储压缩数据,并且提供搜索还原历史数据,可以有效地存储和分析实际的过程历史数据作为趋势记录,并用于评估工作。Feng等[8]提出了根据强制存储限制(FSRL, forced storage-recording limit)和压缩区间长度(CIL, compression interval length)动态调整旋转门算法的压缩阈值,该改进算法的问题在于当FSRL取值较大时算法不能正常工作,而在实际应用中FSRL往往很大。Gang等[9]对旋转门压缩算法和Douglas-Peucker算法进行了比较总结,提出了一种优化的采用“搜索最远可行点”策略的实时数据有损压缩算法及其在一定约束条件下的一种变形算法,该算法在压缩率、整体误差和效率方面有一定提高。Liu等[10]针对数控机床数据实时采集需求和消耗大量存储单元的问题,提出了一种改进的旋转门压缩算法来压缩海量数据。可根据数据的波动趋势动态调整其容差。但后2种算法在安全网关的控制信息采集中对数据实时性有一定影响。
上述工作对网关数据自适应变频采集策略的研究起了一定的推动作用,但在网关数据采集效率、成本,数据准确性,历史数据查询是否容易,方案实施难易程度等方面存在部分局限和问题。而旋转门算法应用在网关数据采集时实现相对容易,能在保证数据准确率的情况下,降低数据采集和传输次数,有效降低网络开销,提高数据采集效率,通过线性插值还原查询历史数据也很容易。
本文提出的基于改进旋转门算法的安全网关控制信息采集策略,针对旋转门算法应用在安全网关控制信息采集中存在的问题,对算法提出了改进,并通过实验进行了可行性及性能验证。
2 天地一体化网络安全网关控制信息采集系统框架
天地一体网络有天基骨干网络、地基骨干网络、卫星接入网络等,覆盖全球,互联地面互联网络和移动通信网络,设置了多个可以进行接入控制、网络隔离控制、网间互联控制的关口站。然而,关口站单点极易成为网络攻击的对象,并且难以防范分布式DDoS攻击、跨域攻击扩散等。所以需要联合多个安全控制网关,进行联动防护,提高防护能力,减少网络受攻击的范围。通过在终端、服务器中内嵌感知组件,在安全网关中内嵌感知器获取采集数据,实现管理系统的全网威胁态势感知、攻击检测,最终能够及时下发策略至安全网关,及早阻断攻击,避免攻击扩散,因此安全网关威胁感知尤为重要。考虑网关数据采集效率、准确性、方案可行性,本文提出采用基于改进旋转门算法的安全网关控制信息采集策略。在关口站等处设立中间代理服务器,负责采集关口站安全网关控制信息并上报至管理系统汇集,以及接收管理系统的下发策略并分发至各个网关。
图1 系统流程
基于改进旋转门算法的安全网关控制信息采集系统流程如图1所示,主要流程包括安全网关向中间代理传输发布安全控制信息、系统向中间代理传输订阅消息,其中包含3个组成参与者。
1) 安全网关,作为整个感知采集系统中的信息发布者,其上部署着网关的感知采集程序负责采集通信状态、设备性能等安全控制信息,其中,某些海量性能数据利用基于改进旋转门算法的自适应变频采集策略进行动态自适应采集,并且进行数据消冗压缩,安全网关可以通过连接中间代理服务器发布消息。
2) 中间代理,代理服务器作为网关与汇集模块之间传递消息数据的核心,可以实现处理大量网关客户端的并发连接。代理服务器主要负责接收网关的消息并进行网络中数据分集,将分集后消息发送给订阅的系统。
3) 互联安全控制系统/联动防护控制系统汇集模块、最终所有数据传递的终点,作为整个感知采集系统中的信息订阅者,实现最终数据的汇集处理,并将在传输过程中压缩的数据进行数据重建处理。
3 安全网关控制信息采集策略
3.1 策略概述
自适应变频采集策略主要根据采集数据变化幅度动态调整采集时间间隔,当数据变化平缓时增大采集时间间隔,节省资源消耗;当数据变化剧烈时减小采集时间间隔,保证采集数据准确无丢失。利用旋转门算法进行数据压缩时发现,当能被套住的数据越多,即压缩数据段越长,数据的变化越平缓;而当数据不能被套住,即压缩数据段越短,数据变化越剧烈。因此可以利用旋转门算法判断数据变化幅度,利用判断结果采用乘法减小加法增大的方法动态调整采集时间间隔,保证数据变化剧烈时能快速缩小采集间隔,避免丢失重要数据,并将网关处采集的安全控制信息数据消冗压缩后传输,最终在系统处进行压缩数据恢复重建。
3.2 旋转门算法
旋转门算法[8]是一种比较快速的线性拟合算法,算法原理如图2所示,该算法根据数据点构建多个高度固定为压缩阈值两倍的平行四边形去套历史数据点,在不能套住时将前一个数据点存储。图2中以点各自上下距离为的4个点构建平行四边形,历史数据点在此平行四边形中,继续压缩;同理构成两处的平行四边形,历史数据点在此平行四边形中,继续压缩;同样处理点;而在点处构建的平行四边形并不能套住点,因此存储点构成一段压缩段,连接,显然与上对应点的误差控制在之内,因此点能由线性插值得到误差小于的解压值。
算法实质是将一系列连续数据点代替为一条由起点和终点确定的直线,从而实现将海量数据压缩为直线趋势的压缩段,并能保证数据还原的误差在压缩阈值之内。该算法最后得到的每段压缩段需要记录每段时间间隔长度、起点数据和终点数据,并且前一段的终点数据为下一段的起点数据。旋转门即为不断扩张的平行四边形,平行四边形的高度定为压缩阈值的2倍,在每次扩张时检查平行四边形是否能把所有数据点套在其内部,若能把所有数据点套住则说明目前数据变化平稳,若有数据点未被套住,则说明数据变化剧烈需要进行压缩存储操作。
具体算法实现时,只需要比较不断扩张的两扇门的斜率即可判断数据是否被套住,若上面的旋转门斜率小于下面旋转门斜率则表示数据能被套住,否则不能套住。
图2 旋转门算法原理
定义上旋转门斜率为
定义下旋转门斜率为
其中,[][]为压缩段的开始和结束数据点,包括时间和数据值这2个属性。
若>,压缩存储此数据点并发布数据点到中间代理服务器,增大采集时间间隔并开始新的采集压缩;否则减小采集时间间隔。
3.3 旋转门算法改进
旋转门算法在安全网关控制信息采集中存在一些问题:1) 如何确定一个合适的压缩阈值;2) 采集失误或者网关异常产生异常数据点的影响,采集值过大或者过小的数据点会影响算法的整个压缩解压过程,造成数据变化趋势判断失误,并且增加了压缩段,增多了数据传输次数,影响后续数据重建,增大数据还原的误差值。
针对上述2个问题,本文提出了旋转门算法的2个改进。
针对问题1)的改进为:定义压缩阈值
针对问题2)的改进为:定义变化值
3.4 采集间隔动态调整算法
以下是本文提出的基于改进旋转门算法的安全网关控制信息采集间隔动态调整算法。
定义3 当采集数据在被套住的范围内时判断数据变化平缓,加法增大采集时间间隔。
定义4 当采集数据在超出旋转门套住的范围时判断数据变化剧烈,乘法减小采集时间间隔。
这样加法增大、乘法减小动态调整数据采集间隔,既能够迅速减小采集时间间隔并且避免在数据变化剧烈时丢失重要数据,也能够在数据变化平缓时有效增大采集间隔,减小网络带宽浪费,同时避免异常点对算法的影响。
3.5 数据重建算法
数据重建即将压缩数据传输到系统后,系统进行数据处理还原成原始数据,即解压数据。SDT压缩算法为线性压缩,重建算法对应线性压缩,即线性插值,保证了数据还原重建误差绝对值不超过压缩阈值。
1) 定义1,2,3,…,S为压缩存储数据,其中每个压缩数据有时间和数据值这2个属性。
2) 定义[]为[],[1]压缩段的还原数据,那么[],[1]压缩段斜率为
则
3.6 算法实现
为了清楚地描述本文的自适应变频采集算法,需要做出以下定义,如表1所示。
表1 符号定义
算法流程如下(如图3所示)。1) 进行相关参数的初始化;2) 采集数据D,计算此时的上下旋转门斜率及变化值;3) 判断是否是异常点,若是则直接压缩存储D,间隔不变继续采集数据;4) 判断上下旋转门斜率大小,得出数据变化幅度,然后动态调整采集时间间隔。在实际应用中,网关采集的数据只需压缩段的起始点和终点,在系统处可以根据压缩段还原出原始数据,这样减小了传输开销,降低了网络流量。
图3 算法流程
4 实验及性能分析
4.1 实验分析
本文提出的基于改进旋转门算法的安全网关控制信息采集策略主要针对安全网关控制信息数据采集时间间隔的动态控制和数据的还原处理,网络拓扑对策略的影响不大,所以可以先对一台网关利用本文提出的采集策略进行实验仿真,简单清楚地分析本策略的性能。图4仿真实验数据来自实验室单台网关的利用本文提出的基于改进旋转门算法的安全网关控制信息采集策略(图中sdt采集)和传统的等时间间隔采集(图中原始采集)得到的某24 h CPU利用率,基于改进旋转门算法的安全网关控制信息采集策略相关参数设置如表2所示,而等时间间隔每60 s采集一次。
表2 实验参数设置
采集的实验结果如图4所示。当数据变化平缓时采集数据点和存储点较稀疏,从而节省资源消耗;当数据变化剧烈时采集数据点和存储点较密集,保证了采集数据准确无丢失。
本文提出了对旋转门算法的改进,改进了对异常大小数据点的处理和确定压缩阈值的大小,可以看到在本文的应用场景中,在采集数据量相同的情况下,改进后可以减少数据的采集次数和传输次数,如表3所示。
表3 改进前后性能对比
等时间间隔采集数据100个时,需要的采集次数与传输次数均为100次。由表3可知,在采集数据量相同的情况下,改进前的数据采集次数为65次,减少35%,数据传输次数为38次,减少了62%;改进后的数据采集次数为50次,减少了50%,数据传输次数为30次,减少了70%。
由实验结果可知,改进后的采集传输效率有一定程度提高,对于异常大小数据点的处理确实能够避免它对算法的影响。
图4 采集实验结果
4.2 性能分析
4.2.1 实验环境及参数设置
通过搭建真实实验环境测试本文提出的基于改进旋转门算法的安全网关控制信息采集策略的可行性和性能。在3台网关上部署动态自适应采集感知程序,并发布数据到中间代理服务器,中间代理服务器将数据推送给订阅的汇集系统。3个网关以及代理服务器、系统汇集模块的连接关系如图5所示。
其中,网关1采用传统等时间间隔采集方法,时间间隔每60 s采集一次。网关2采用基于旋转门算法的自适应数据采集方法,网关3采用本文的基于改进旋转门算法的自适应数据采集方法,连续采集24 h网关的CPU利用率。通过误差分析、单位时间数据采集量、单位时间数据传输量3个方面对本文提出的数据采集策略的性能进行验证分析。
网关1采用传统等时间间隔采集方法,时间间隔=60 s。
网关2采用基于旋转门算法的自适应数据采集方法,相关参数设置如表4所示。
表4 改进前算法参数设置
网关3采用本文的基于改进旋转门算法的自适应数据采集策略,相关参数除了新增参数之外与网关2一样,具体设置如表5所示。
表5 改进后算法参数设置
图5 实验环境
图6 误差分析
4.2.2 误差分析
不同采集策略下的误差分析如图6所示,实验数据选取了网关1、2、3的100个数据点,误差值为最后系统还原重建网关2、3数据与网关1等时间间隔采集的数据误差的绝对值。
由图6可知,由于排除了异常点对压缩算法的影响和确定了合适的压缩阈值,基于旋转门算法的自适应数据采集策略的误差绝对值最大为5,而基于改进旋转门算法的自适应数据采集策略的误差绝对值最大为4,并且改进后的误差有一定程度减小。
4.2.3 采集量分析
不同采集策略下的单位时间数据采集量分析如图7所示,实验数据选取了网关2、3的4个时间段每小时的数据采集量。
图7 采集量分析
由图7可知,由于排除了异常点对压缩算法的影响,减少了异常采集数据次数,采用基于改进旋转门算法的自适应数据采集策略,单位时间内数据采集量优于未改进的。
4.2.4 传输量分析
不同采集策略下的单位时间数据传输量分析如图8所示,实验数据选取了网关2、3的4个时间段每小时的数据采集量。
图8 传输量分析
由图8可知,由于排除了异常点对压缩算法的影响,减少了压缩段数量,采用基于改进旋转门算法的自适应数据采集策略,单位时间内数据传输量优于未改进的。
5 结束语
针对网关节点数据采集和传输存在的问题,本文把用于数据压缩的旋转门算法应用到安全网关控制信息采集场景中,并对它存在的问题进行了改进,提出了基于改进旋转门算法的安全网关控制信息采集策略;改进了对异常大小数据点的处理和确定压缩阈值的大小方法。最终通过实验验证可以看到,在本文的应用场景中,在采集数据量相同的情况下,改进后可以减少数据的采集次数和传输次数,能够有效降低网络开销,提高数据采集效率。
[1] 李贺武, 吴茜, 徐恪, 等. 天地一体化网络研究进展与趋势[J]. 科技导报, 2016, 34(14): 95-106.
LI H W, WU Q, XU K, et al. Progress and tendency of space and earth integrated network[J]. Science & Technology Review, 2016, 34(14): 95-106.
[2] 宋欣. 面向无线传感器网络的分布式数据收集关键技术研究[D]. 沈阳: 东北大学, 2012.
SONG X. Research on key technologies for distributed data gathering in wireless sensor networks[D]. Shenyang: Northeastern University, 2012.
[3] 宋欣, 王翠荣. 基于线性回归的无线传感器网络分布式数据采集优化策略[J]. 计算机学报, 2012, 35(3): 568-580
SONG X, WANG C R, et al. Linear regression based distributed data gathing optimization strategy for wireless sensor networks[J]. Chinese Journal of Computers,2012,35(3):568-580.
[4] 王玲, 石为人, 石欣, 等. 基于时间相关性的无线传感器网络数据压缩与优化算法[J]. 计算机应用, 2013, 33(12): 3453-3456
WANG L, SHI W R, et al. Data compression and optimization algorithm for wireless sensor network based on temporal correlation[J]. Journal of Computer Applications, 2013, 33(12): 3453-3456
[5] PADHY, PARITOSH, RAJDEEP K, et al. A utility-based sensing and communication model for a glacial sensor network[C]//The 5th Int Conf on Autonomous Agents and Multi-Agent Systems. 2006: 1353-1360
[6] GUPTA M, SHUM L V, BODANESE E, et al. Design and evaluation of an adaptive sampling strategy for a wireless air pollution sensor network[C]//Local Computer Networks IEEE, 2011. 1003- 1010.
[7] BRISTOL E H. Swinging door trending: Adaptive trend recording[C]//ISA National Conference Proceedings. 1990:749-753.
[8] FENG X D, CHENG C L, LIU C L, et al. An improved process data compression algorithm[C]//The 4th World Congress on Intelligent Control and Automation (Cat. No.02EX527), 2002: 2190-2193.
[9] GANG G, LI L. An optimized algorithm for lossy compression of real-time data[C]//2010 IEEE International Conference on Intelligent Computing and Intelligent Systems. 2010: 187-191.
[10] LIU J S, DONG Y U, YI H U, et al. Application of improved SDT Algorithm in CNC Machine Monitoring Field[C]//2017 10th International Conference on Intelligent Computation Technology and Automation (ICICTA). 2017: 16-20.
Information acquisition strategy for security gate-ways based on swing door trending algorithm
WANG Shuang1,2, LU Yueming1,2
1. School of Cyber Security, Beijing University of Posts and Telecommunications, Beijing 100876, China 2. Key Laboratory of Trustworthy Distributed Computing and Service, Ministry of Education, Beijing 100876, China
Acquisition the control information of security gateway is an important security awareness method in the space and earth integrated network, but the traditional equal interval time data method acquisition has problems, such as waste of network bandwidth, a large amount of data redundancy, excessive data collection of acquisition node and excessive transmission times. In order to solve these problems, a data acquisition strategy based on improved swing door trending algorithm was proposed, which analyzed and improved swing door trending algorithm to determine the control information of security gateway such as the rangeability of gateway traffic and CPU utilization, and to adjust the data acquisition interval adaptively. The experimental results show that compared with the traditional equal interval time data method acquisition, under the condition of ensuring the data accuracy, the proposed strategy can lower the times of data acquisition and transmission, effectively reduce network overhead and improve data acquisition efficiency.
data acquisition, swing door trending algorithm, gateway monitoring, self-adaptive frequency conversion
TP393.08
A
10.11959/j.issn.2096-109x.2018079
王爽(1994-),女,四川巴中人,北京邮电大学硕士生,主要研究方向为分布式计算与信息安全。
陆月明(1969-),男,江苏苏州人,北京邮电大学教授、博士生导师,主要研究方向为分布式计算、信息安全。
2018-08-09;
2018-09-26
陆月明,yml@bupt.edu.cn
国家重点研发计划基金资助项目(No.2016YFB0800302)
The National Key R & D Program of China(No.2016YFB0800302)