基于GA-SVM的机场数据中心信息安全风险评估
2015-11-02樊重俊冉祥来
谢 浩, 樊重俊, 李 岩, 冉祥来
(1上海理工大学管理学院,上海200093;2上海机场(集团)有限公司,上海201106)
0 引言
随着信息科技的高速发展,机场的信息化建设也逐渐向智慧机场转变。为了促进智慧机场的建设,数据中心不可或缺。数据中心将机场数据进行集中分析和处理,极大提升了机场核心竞争力和服务水平。同时也将信息安全风险集中到了机场数据中心。各种利用数据中心安全弱点的新型攻击被入侵者使用,数据中心安全逐渐成为人们关注的焦点。
信息安全风险评估是解决机场数据中心信息安全问题的前提和基础。国内外学者提出多种信息安全风险评估方法,主要有:美国Pittsburgh大学教授Saaty提出层次分析法,对复杂问题进行分解和排序并找出风险较大的影响因子,但不能对问题做出整体评价[1];兰继斌等根据信息安全评估中的大量指标存在模糊性,引进了模糊综合评价对信息安全进行评估,该法有效的解决了在评估中存在的主观性及难以量化的问题[2];方阳、顾孟钧把改进的DS证据合成法则引进信息网络安全进行评估中,该方法消除了评判过程中的不确定性[3];张磊等将灰色评估模型与算法和层次分析法相结合对信息安全进行评估[4],该方法能成功反映参数的模糊性和不确定性;党德鹏等把支持向量机引入到信息安全风险评估中,但其依据经验选取参数,存在很大的不确定性[5]。
机场数据中心信息安全风险评估实质是一种小样本、非线性、复杂的分类问题[6],而基于支持向量机的机场数据中心信息安全风险评估模型对小样本、非线性的测试环境具有较好的适应能力和分类准确率。SVM模型的成功与否很大程度上取决于参数的选择,依据经验选取参数的方法经常不能获得满意的效果,而遗传算法具有很强的全局优化能力,适合较为复杂的优化问题。因此,本文将遗传算法和SVM相结合,通过遗传算法来寻找SVM的最优参数,从而提高SVM的分类准确率。除此之外,SVM一般仅适用于二分类问题,而机场数据中心信息安全包含三个等级,本文通过一定的研究将SVM拓展到三分类问题上并获得了相对满意的分类效果。
2 GA-SVM模型
在有限样本的情况下,支持向量机(SVM)具有较好的适应性,能在有限样本的情况下获得最优解。通过二次寻优得到全局最优点,有效避免了神经网络中局部极值的问题[9]。对于非线性分类问题,引入核函数将其映射到高维特征空间构造分类判别函数,巧妙解决了维数问题。
支持向量机具体原理可用图1说明:圆点和四角形分别代表两类样本。其中,H线表示两类不同样本点的分界线,H1和H2为与分界线平行且距离样本点最近的直线(H评分H1与H2之间的距离),H1和H2之间的距离称为分类间隔。支持向量机的分类原理就是通过最大化分类间隔来寻找最优的分界线。
图1 SVM分类原理
当数据集线性不可分时,引入松弛变量 ξi,i=1,2,…N(ξi≥0)和惩罚参数C(C>0)。此时最优化问题转化为:
利用拉格朗日乘子法求解上述问题,可得:
其中αi和ri为拉格朗日乘子,固定α对ω,b,ξ分别求偏导后可将上式化简为:
遇到非线性的分类问题时,支持向量机通过非线性变换将原问题转化为求解一个在高维特征空间中的线性分类问题。通过引入核函数K( xi,xj)来代替高维空间的内机运算〈xi,xj〉。只要核函数 K( xi,xj)能够满足Mercer的条件,这样即可避免维数灾难。求出αi、ω和b,最终即可求得分类函数f(x)=sgn{ωx+b}。
SVM算法起初是为二分类问题设计,而机场数据中心信息安全分为“较低、中等、较高”三个等级,由此需要构建合适的三分类的支持向量机模型。构建三分类器的方法有两种:一种是直接求解法,即求解时根据输入向量特征,直接将问题分为三种类别,一次解决三分类问题。这种方法虽然容易理解,但计算复杂度非常高且实用性不大。第二种方法即捆绑法,现将两个等级捆绑在一起,将三分类问题变为二分类问题。首先解决该二分类问题,后将捆绑的一类再次进行分类,通过多次二分类来解决多分类问题[8]。后者解决问题的准确率和效率都相对高于前者。因此,本文选择通过组合两次二分类问题将SVM拓展到三分类问题上。
同时,从上述建模的过程可以看出:SVM的分类的效果与其参数的选取之间具有较大的关联性。通常情况下依据经验选取参数的方法经常不能获得满意的效果,而遗传算法是一种基于生物遗传和进化机制的自适应概率优化算法,能够通过全局搜索求得最优解。本文采用遗传算法来优化SVM参数,并将其应用到机场数据中心信息安全风险评估中,由此提高其机场数据中心信息安全风险评估的准确性。
2 基于GA-SVM的机场数据中心信息安全风险评估
2.1 风险识别与分析
机场数据中心的信息安全除了保证信息的完整性和保密性,同时延伸到了信息的真实性、可靠性、可用性和抗抵赖性,其内涵涉及到了机场数据中心的方方面面。机场数据中心信息安全问题的本质为:数据资源存在一定的价值和脆弱性,脆弱性是引发问题的内在原因,而其面临的危险则是引发安全问题的外在因素。信息安全风险评估就是对数据中心可能面临的威胁、系统潜在的缺陷、可能引发相应的损失以及数据中心现有的安全防护措施进行综合评估,即在一定周期内对不确定事件发生的概率及其可能引发的损失进行定性和定量的评估。
数据中心信息安全风险评估可以从四个方面进行分析:威胁识别;系统脆弱性识别;资产价值识别;安全措施识别[9]。威胁识别属于外部因素,系统脆弱性、数据中心资产价值以及相应的安全措施隶属于内部因素。通过分析机场数据中心面临的威胁、存在的价值和脆弱性及现有的安全防护措施,得出具体的机场数据中心信息安全风险评估指标。根据具体指标评估值,判定出机场数据中心的安全等级。具体指标如图2所示:
图2 机场数据中心信息安全风险评估指标
2.2 模型的建立与实现
基于GA-SVM机场数据中信息安全风险评估模型的算法实现步骤如下:
Step1数据的收集。通过对机场数据中心进行调研,对其关于上述十四个指标的历史数据进行收集,组织专家对其各指标进行评估打分并确定其所处的信息安全等级。依据专家评估结果值作为样本数据集。一共收集了32组数据,将其中前25组数据作为训练样本,最后7组作为测试样本。数据具体如表1所示(其中“1”代表信息安全等级“较低”,“2”代表“中等”,“3”代表“较高”):
表1 机场数据中心信息安全风险指评估标值
Step2选择SVM模型,确定核函数类型。本文采用参数较少且使用率较高的RBF函数作为核函数。
Step3利用遗传算法优化SVM的惩罚参数C和g。使用遗传算法时,选取最大进化代数取值为100;种群最大数量默认为20;交叉概率默认为0.4;变异概率默认为0.01;参数C的变化范围为[0.1,10];参数 g的变化范围为[0.01,100]。
Step5利用优化过的参数和训练样本数据集建立GA-SVM多分类模型。首先将“中等、较高”绑做一类,选出“较低”的一类,而后对“中等、较高”在此使用分类,把“中等”和“较高”分出来。
Step6运行GA-SVM分类模型。并将运行结果与实际结果对比得出分类准确率。
2.3 实验结果对比分析
本文在Core(TM)i5 CPU、2G内存,操作系统为Windows7的环境下采用MatlabR2011a编程实现。经过GA算法择优,得到惩罚参数C=2.305,RBF核函数参数g=0.7746。此时准确率达到100%。
为了更加易于比较,本文还分别采用相同训练集和测试集对该算法、基于Pso算法优化支持向量机参数以及未进行参数优化的支持向量机算法进行比较,运行十次,其平均结果如表2所示:
表2 模型测试结果对比
从上表中可以明显看出:GA-SVM在保证了较高的分类准确率的同时训练时间相对Pso-SVM较少。由于SVM直接选用固定的C和g参数不需要经过迭代寻优,所以训练时间相对较少,但是其分类准确率相对较低,且需根据经验选取C和g存在很大的偶然性。
3 结语
本文通过将遗传算法引入到支持向量机中,并将支持向量机两分类模型拓展为三分类模型,建立基于GA-SVM的机场数据中信息安全风险评估模型,为日后机场数据中心安全、平稳的运行提供更加可靠、高效的决策额支持。很多文献对于支持向量机参数的选择时都依据经验选用固定值,本文通过遗传算法对支持向量机的参数C和g进行优化,建立了基于GA-SVM三分类问题的机场数据中心信息安全风险评估模型。通过机场数据中心信息安全相关数据的测验,取得了较满意的测验结果。同时本文还具有一定的发展空间,比如指标的取值很大程度上都取决于专家评估结果,在以后的改进中可以进一步优化选取指标;模型还可进一步优化,将三分类问题拓展到多分类问题上,并减少运行时间,这样才能为机场数据中心的管理者提供更加准确及时的决策支持。
[1] Satty T L.The Analytic Hierarchy Process[M].New York,USA:McGraw - Hill,1980.
[2] 兰继斌,徐扬,霍良安.模糊层次分析法权重研究[J].系统工程理论与实践,2006,26(9):107-112.
[3] 方阳.基于层次分析法和 D_S证据理论的电信网网络安全风险评估模型的研究与应用[D].北京:北京邮电大学,2010.
[4] 张磊,向德全,胥杰.军用信息系统安全效能灰色评估模型和算法[J].空军工程大学学报:自然科学版,2007,8(1):77-80.
[5] 党德鹏,孟真.基于支持向量机的信息安全风险评估[J].华中科技大学学报:自然科学版,2010,38(3):46-49.
[6] 李绍中.支持向量机的智能信息安全风险评估模型[J].计算机应用与软件,2013(8):330-333.
[7] 刘志强,吕学,张利.基于多分类 GA—SVM的高速公路AID模型[J].系统工程理论与实践,2013,33(8):2110-2115.
[8] 连可,陈世杰,周建明.基于遗传算法的SVM多分类决策树优化算法研究[J].控制与决策,2009,24(1):7-12.
[9] 陈健,吉久明,孙济庆.基于单威胁分析的高校综合信息安全风险评估方法研究[J].情报杂志,2013,32(2):169-172.