基于异质网络的邮件蠕虫病毒传播模型
2016-02-23项春霞蒋国平夏玲玲
项春霞,蒋国平,夏玲玲,宋 波
(1.南京邮电大学 计算机学院,江苏 南京 210003;2.南京邮电大学 自动化学院,江苏 南京 210003)
基于异质网络的邮件蠕虫病毒传播模型
项春霞1,蒋国平2,夏玲玲1,宋 波1
(1.南京邮电大学 计算机学院,江苏 南京 210003;2.南京邮电大学 自动化学院,江苏 南京 210003)
文中根据现实生活中邮件蠕虫病毒发生后个体不同的行为机制,以及安装杀毒软件的概率和杀毒软件的查杀能力随时间变化的事实,结合邮件网络的结构特性,提出了一种改进的基于异质网络的邮件蠕虫病毒SEIR(Susceptible-Exposed-Infected-Removed)传播模型。结合邮件蠕虫病毒的传播特点,利用相互作用的马尔可夫链方法推导出相应的SEIR模型的动力学方程组,表征邮件蠕虫病毒的传播过程。通过蒙特卡罗方法对SEIR模型传播动力学过程进行实验仿真,探索影响邮件蠕虫病毒传播的基本因素。仿真结果表明,改进的邮件蠕虫病毒SEIR传播模型更加符合真实邮件网络上的蠕虫病毒传播过程,且快速地提高杀毒软件的安装概率以及杀毒软件的查杀能力能够有效地抑制邮件蠕虫病毒的传播。
邮件蠕虫病毒;个体差异性;交互马尔可夫链方法;杀毒软件
1 概 述
电子邮件作为人们日常通讯的主要方式之一,它的安全问题也越来越受到人们的高度重视。邮件网络兼具了大众网络和人际网络的特点,为突发事件的大规模传播提供了一个较为便捷的平台[1],但同时也给邮件病毒带来了可乘之机,使得邮件病毒成为了电子邮件通讯中的一大隐患。近年来大量的垃圾邮件病毒主要是由邮件蠕虫引起的[2],这些蠕虫病毒给电子邮件网络的安全造成了很大的影响。
蠕虫病毒是一种比较常见的计算机病毒,蠕虫病毒可以独立运行,并且能把一个包含自身所有功能的版本传播到另一个计算机系统上[3]。它的两个主要特征是:可以从一台主机移动到另一台主机上;可以自我复制。在邮件系统中,用户点击了带有蠕虫病毒的邮件之后,该蠕虫病毒就会感染这台主机,并找到计算机中包含的所有的邮件地址,然后将一个包含自身所有功能的版本发送给这些找到的邮件地址[4]。
研究人员认为,未来邮件蠕虫病毒的爆发速度会更快,其遍布的范围会更广,破坏性更强。因此对邮件蠕虫病毒传播的研究与防治已经成为了网络安全领域的一个研究热点。同时,复杂网络理论与技术的迅速发展为研究电子邮件病毒传播问题提供了新的研究方法[5]。借助复杂网络传播动力学理论及方法,研究发生在电子邮件网络上的蠕虫病毒传播问题,有助于更好地预防和控制邮件通讯网络上的病毒传播,为进一步研究电子邮件网络舆情分析及预警技术奠定坚实的理论基础。
近年来,已经有很多学者对邮件病毒的传播进行了研究,并提出了很多适用于邮件网络特征的邮件病毒传播模型。Liu等[6]提出了无标度网络中邮件病毒的SIS(Susceptible-Infected-Susceptible)传播模型,通过对模型的求解,得到反病毒软件出现前感染密度的一个稳定状态,并通过实验证明传播率和网络平均度是邮件病毒蔓延的关键性因素;关于SIS模型的研究还有很多,吕剑等[7]以元胞自动机理论为基础对SIS理论进行了改进并进行了仿真实验;梁志罡在文献[8]中提出了改进的基于无标度网络拓扑结构的SIR(Susceptible-Infected-Removed)邮件病毒模型。
早在1991年,Anderson和May[9]通过考察多种传染性疾病的传播特征之后,在以往的SIR流行病传播模型中考虑加入节点的潜伏状态E(Exposed),并提出了疾病传播的SEIR(Susceptible-Exposed-Infected-Removed)模型,该模型也经常被用于邮件病毒传播的建模中。袁华等[10]对传统的SEIR疾病传播模型进行了扩展和修正,提出了更符合邮件网络的E-SEIR(Email-Susceptible-Exposed-Infected-Removed)模型,并通过实验结果证明用户之间的信息交流成组密度会影响邮件病毒的扩散速度;技术支持和安全培训的效率会影响邮件病毒爆发的规模;用户的收信时间以及多数用户的预免疫能够同时影响邮件病毒扩散的速度和邮件病毒爆发的规模。Jin等[11]在SEIR邮件病毒传播模型中,考虑用户的警觉性和移除时间两个因素,通过实验证明这两个因素对于邮件病毒的传播有很大的影响。Deng等[12]运用平均场方法建立邮件病毒的时滞微分方程模型,研究邮件病毒在有向网络中的震荡传播行为,给出影响邮件病毒最终传播规模的两个重要参数:决定吸引子存在性的子图间的传播概率和影响吸引子振幅的有效传播率。
尽管上述经典的邮件病毒SEIR模型能够较好地刻画邮件病毒的传播过程,但是依然存在以下几点不足:
(1)在经典的SEIR模型中,度不相同的节点打开可疑邮件的概率是相同的,而在现实生活中,通常邮件通讯录中好友数越多的用户,对于邮件病毒的了解也是越多的,则对于邮件病毒的防范意识也越强,用户打开可疑邮件的概率就会越小[13]。
(2)在经典的SEIR模型中,节点安装杀毒软件的概率是不变的,而实际情况是当邮件病毒出现后,随着用户对邮件病毒危害性以及杀毒软件安全性认识的增多,杀毒软件宣传力度及知名度的扩大,用户安装杀毒软件的概率会变大。而且,在杀毒软件出现的初始时刻,网络中用户安装杀毒软件的概率还会因为该时刻感染用户所占比率的不同而不同。
(3)杀毒软件的杀毒性能并不是一成不变的,随着对邮件病毒认识的越来越深刻,以及技术的越来越成熟,杀毒软件的查杀能力也会越来越强。而在以往的SEIR模型中,没有考虑到这一点,从而不能真实描述杀毒软件出现以后,邮件病毒的传播特性。
此外,现有的邮件病毒传播模型大都是基于均质邮件网络的,基于异质邮件网络的病毒传播模型较少,而真实网络中节点之间的连接选择并不是均等的,它们之间存在明显的差异性,邮件网络中也存在这种差异性。Zou等[14]的研究表明,邮件通讯网络的拓扑结构更接近于无标度网络,他们通过观察发现,邮件通讯网络呈现一种胖尾分布,同时也包含一些小世界特性。Newman等[4]搜集了一所大学的所有电子邮件地址薄数据,并证明了该所大学的电子邮件地址薄服从指数分布。因此研究异质邮件网络上的邮件病毒传播模型,符合现实生活中电子邮件网络度分布服从无标度的拓扑特性。
文中鉴于上述邮件病毒传播模型的不足,结合实际电子邮件网络的无标度特性,考虑异质网络上个体的行为差异性引起的不同用户打开可疑邮件的概率不同,用户安装杀毒软件的概率是时变的,以及杀毒软件查杀能力的时变性,提出一种改进的基于异质邮件网络的邮件病毒SEIR传播模型。
2 改进的SEIR传播模型
文中根据现实生活中电子邮件用户通常仅有一个常用邮箱账户的实际情况,忽略一个用户存在多个常用邮箱的特殊情况,借助复杂网络理论知识,将邮件网络中的每个邮件用户或对应的邮件地址抽象成节点,用户与邮件通讯录中其他用户的通信关系看成是边。同时将邮件用户之间的通信关系看作是无向的,即如果用户A的邮件通讯录中存在用户B的邮箱地址,那么用户B的通讯录中也存在用户A的邮箱地址,用户A和B之间的通信关系是无向的,可以互相发送邮件。将邮件网络的拓扑结构[15]用无向图G(V,E)表示,其中∀υ∈V,节点υ表示节点即邮件用户,V是整个电子邮件网络中节点的集合。∀e(μ,υ)∈E,其中μ,υ∈V,e(μ,υ)表示节点μ和υ之间的连边,即用户μ和υ的通信关系或是通信链路,E是电子邮件网络中所有边的集合。
此外,邮件病毒在网络中传播有其自身的特点,传播过程分为两步:
(1)邮件病毒将自己伪装成正常文件以附件的形式进入到邮件网络中,用户点击该附件,则执行病毒程序,使该计算机系统被病毒感染。
(2)用户点击带有邮件病毒的附件之后,邮件病毒会自我复制产生副本,并扫描用户的电子邮件通讯录,将自己的副本发送给通讯录中的联系人。
根据上述邮件病毒的传播特点,将邮件病毒的传播过程总结如下:首先病毒制造者将病毒以附件的形式添加到邮件中,产生一个附件携带病毒的邮件,通常病毒是一个类似于安装文件,文件名以.exe结尾的可执行程序。然后病毒制造者将带病毒的邮件转发给邮件通讯录中的某一用户,此时收到携带病毒邮件的用户节点处于潜伏状态。在现实的电子邮件网络中,邮件用户通常将收到的含有.exe格式附件的邮件认定为可疑邮件。处于潜伏态的用户自己并不确定收到的可疑邮件一定是携带病毒的,仅认为是可疑邮件因为附件是以.exe结尾的文件,则潜伏节点有可能打开或者删除该可疑邮件。如果潜伏节点打开了可疑邮件,那么该节点就由潜伏状态转变为感染状态,同时病毒会自动扫描该节点的通讯录,并自我复制,向通讯录中的每个节点都发送一份带病毒的邮件。如果潜伏节点删除了可疑邮件,那么该节点就由潜伏状态恢复为易感状态。最后,随着病毒传播的范围越来越广,人们正常的通信及生活受到了影响,为了打造健康安全的邮件网络环境,抵御邮件病毒的入侵,杀毒软件应运而生,节点安装杀毒软件后会以一定的概率变为免疫节点。
由于杀毒软件出现前后,邮件病毒的传播机制不同,因此病毒传播过程分为两个阶段:t
(1)在邮件病毒传播过程中,邮件网络中总用户数即网络规模不发生变化。
(2)所有用户检查邮箱的时间间隔相同。
(3)在邮件病毒传播过程中不考虑其他计算机病毒的干扰。
在上述关于模型的假设条件下,结合邮件病毒传播机制,提出了一种改进的基于异质邮件网络的邮件病毒SEIR传播模型。下面利用相互作用的马尔可夫链方法分别推导出传播(t 2.1 病毒传播阶段 在由N个用户组成的电子邮件网络中,每个用户处于以下四种状态之一:Susceptible(S):易感态,即健康态,此时用户邮箱是健康的,有可能会被病毒感染;Exposed(E):潜伏态,此时用户邮箱收到了病毒邮件但是还没有打开;Infected(I):感染态,此时用户邮箱已经中毒在向通讯录中其他用户传播病毒;Removed(R):免疫态,即不会再被该邮件病毒感染的状态。假定在邮件网络中杀毒软件出现之后被保护的一类邮件用户为免疫类节点。因此杀毒软件还没有出现时,病毒处于传播过程的第一阶段,邮件网络中是不存在免疫类节点的,传播过程中只包含处于健康态S、潜伏态E和感染态I的三类用户。此阶段各状态之间的转移过程为: 当t=0时,病毒制造者将带病毒的邮件放入到邮件网络中即认为初始邮件病毒传播源只有一个,可得初始网络中各类状态节点的数量为:S(0)=N-1,E(0)=0,I(0)=1,R(0)=0。其中,N为网络规模即邮件用户或地址总数。 在该模型中,S(t),E(t),I(t),R(t)分别代表t时刻易感染节点、潜伏节点、感染节点以及免疫节点的数量。t 图1 病毒传播阶段(t 易感染节点以λk(t)的概率收到病毒邮件变成潜伏状态,潜伏节点以μk的概率打开病毒邮件变成感染节点,或者以θ的概率删掉病毒邮件恢复为易感染状态,易感染节点不会直接变成感染节点,若潜伏节点打开病毒邮件变成感染节点以后,其状态就保持在感染态不再改变。所以在该阶段最重要的状态为潜伏态E,潜伏节点在整个传播阶段的数量变化分为三个部分: (Sk→Ek)(t,t+Δt)=(1- (Ek→Sk)(t,t+Δt)=ΔtθEk(t) (Ek→Ik)(t,t+Δt)=ΔtμkEk(t) Ek(t,t+Δt)=(Sk→Ek)(t,t+Δt)-(Ek→Sk)(t,t+Δt)-(Ek→Ik)(t,t+Δt) 即: (1) 同样的,可以得到: (2) Ik(t+Δt)=Ik(t)+ΔtμkEk(t) (3) 将式(1)用二项式定理展开得: Ek(t+Δt)-Ek(t)= (4) 当limΔt→0时,舍去公式中的无穷小项,得: (5) 由上述分析列出t 2.2 病毒免疫阶段 当电子邮件网络中出现杀毒软件之后,按照网络中邮件用户是否安装杀毒软件将邮件用户的状态分为两种:安装杀毒软件的用户和未安装杀毒软件的用户。安装杀毒软件的用户会以一定的概率变为免疫状态,而未安装杀毒软件的用户还是按照杀毒软件出现前t 图2 病毒免疫阶段(t≥T)的状态转移图 由上述分析列出t≥T时邮件病毒传播模型的平均场方程如下: 文中主要考虑了用户打开可疑邮件的概率μk,用户安装杀毒软件的概率ρ(t)以及杀毒软件的查杀能力δ(t)对于邮件蠕虫病毒传播的影响,下面将分别对这些参数进行分析。在仿真实验中,邮件网络是用经典的BA无标度网络模型[18]生成算法构造的,网络规模即邮件用户总数为N=5 000,〈k〉=6。同时在仿真过程中为便于更清晰地反映上述因素造成的影响,具体研究某一个因素对于传播过程的影响作用时,其他因素都默认设置为常数。初始网络中假定只有一个病毒传播者,其他都是易感者,文中每个仿真都重复运行了至少200次,每一次运行150步。 3.1 打开可疑邮件的概率μk 在式(5)中,邮件用户删除可疑邮件的概率θ是不变的,而用户打开可疑邮件的概率μk与节点的度相关,不同于以往的邮件病毒传播模型中将打开可疑邮件概率设置为恒定的常数。 图3 打开可疑邮件概率对于传播过程的影响 3.2 杀毒软件的安装概率ρ(t) 由t≥T时病毒传播模型的动力学方程组可以看出,当邮件蠕虫的病毒传播进入免疫阶段时,杀毒软件的安装概率ρ(t)是影响病毒传播的一个重要因素。图4描述了ρ(t)对于邮件病毒传播的影响,仿真实验中令杀毒软件出现的时刻T=12,其余参数设置为μk=0.4,θ=0.2,δ(t)=0.3。 图4 ρ(t)对于邮件病毒传播的影响 3.3 杀毒软件的查杀能力δ(t) 图5描述了杀毒软件的查杀能力δ(t)对于蠕虫病毒传播的影响。杀毒软件出现的时刻T=12,μk=0.4,θ=0.2,ρ(t)=0.5,杀毒软件初始查杀概率δ0=0.3。 图5 杀毒软件的查杀能力δ(t) 对于蠕虫病毒传播的影响 文中的主要工作是在经典的邮件病毒SEIR传播模型基础上,结合现实生活中的个体行为特征,考虑因人而异地打开可疑邮件的概率,随时间增长的用户安装杀毒软件的概率以及杀毒软件推出之后不断打补丁引起的增强的杀毒能力,建立改进的基于无标度特性的邮件网络中蠕虫病毒SEIR传播模型。通过实验仿真分析上述三个因素对于邮件蠕虫病毒传播过程的影响。实验结果充分地验证了改进的SEIR模型的合理性,以及更符合实际生活中蠕虫病毒在邮件网络中的真实演化过程。文中考虑的因素与现有的模型最大的不同之处在于用了一系列更符合实际的时变参数来表征现实中真实存在的个体时变行为。因为现实邮件网络中存在一个用户对应多个邮箱地址的情况,而文中未考虑。在之后的工作中,将继续深入研究现实情况,建立相应的更符合实际的邮件病毒传播模型。此外,对于基于均质网络和异质网络的邮件病毒传播模型的稳定性分析也是要着力关注的研究点。 [1] 孙钦东,孙亚红,管晓宏,等.动态短信通信复杂网络演化模型研究[J].西安交通大学学报,2009,43(6):5-9. [2] 王长广,王方伟,张运凯,等.一种无尺度网络上垃圾邮件蠕虫的传播模型[J].计算机科学,2007,34(2):68-70. [3] 吴 祺.邮件蠕虫病毒机理研究[J].计算机科学,2002,29(4):116-118. [4]NewmanM,ForrestS,BalthropJ.Emailnetworksandthespreadofcomputerviruses[J].PhysicalReviewE,2002,66(3):035101. [5] 吕金虎,王红春,何克清.复杂动力网络及其在软件工程中的应用[J].计算机研究与发展,2008,45(12):2052-2059. [6]LiuJun,DengQinghua,XuPeihua,etal.Emailvirusspreadingmodelinthescale-freenetwork[C]//Procof2010IEEEinternationalconferenceonintelligentcomputingandintelligentsystems.Xiamen:IEEE,2010:303-306. [7] 吕 剑,宋玉蓉,蒋国平.自适应网络异步元胞自动机病毒传播模型[J].计算机技术与发展,2012,22(7):132-135. [8] 梁志罡.电子邮件病毒传播模型的研究[J].计算机技术与发展,2011,21(1):158-161. [9]AndersonRM,MayRM.Infectiousdiseasesofhumans:dynamicsandcontrol[M].Oxford,UK:OxfordUniversityPress,1991. [10] 袁 华,陈国青.电子邮件病毒传播仿真模型及影响因素模拟[J].计算机工程与设计,2006,27(11):1914-1916. [11]JinCong,LiuJun,DengQinghua.Anovelemailviruspropagationmodel[C]//Procof2008workshoponpowerelectronicsandintelligenttransportationsystem.Guangzhou:IEEE,2008:56-60. [12]DengQixiang,JiaZhen,XieMengshu,etal.Studyofdirectednetworks-basedemailviruspropagationmodelanditsconcussionattractor[J].ActaPhysicaSincia,2013,62(2):020203. [13]ZhangYanping,SunTingting,ZhaoShu.Anovelmodeltorestrainemailviruspropagation[C]//Procof2012IEEEinternationalconferenceongranularcomputing.Hangzhou:IEEE,2012:645-650. [14]ZouCC,TowsleyD,GongWeibo.Emailviruspropagationmodelingandanalysis[R].Amherst:Univ.ofMassachusetts,2003. [15] 邓清华,金 聪,刘 俊.邮件病毒传播模型及其分析[J].计算机工程与设计,2009,30(12):2865-2867. [16]NekoveeM,MorenoY,BianconiG,etal.Theoryofrumourspreadingincomplexsocialnetworks[J].PhysicaA:StatisticalMechanicsandItsApplications,2007,374(1):457-470. [17] 汪小帆,李 翔,陈关荣.网络科学导论[M].北京:高等教育出版社,2012. [18]BarabásiAL,AlbertR.Emergenceofscalinginrandomnetworks[J].Science,1999,286(5439):509-512. Propagation Model of Email Worm-virus Based on Heterogeneous Networks XIANG Chun-xia1,JIANG Guo-ping2,XIA Ling-ling1,SONG Bo1 (1.School of Computer Science and Technology,Nanjing University of Posts and Telecommunications,Nanjing 210003,China;2.School of Automation,Nanjing University of Posts and Telecommunications,Nanjing 210003,China) Currently,email has become one of the most commonly communication in daily life,while email worm-virus constitutes one of the major Internet security threats and has attracted considerable attention.Therefore,the research on the spreading models of email worm-virus has a great significance in preventing and controlling the propagation of email viruses.The probability of installing antivirus software,and the virus-killing ability of antivirus software are time-varying when the email worm-virus outbreaks.According to the above factors and the different opening probability of suspicious email caused by individual differences,propose an improved email worm-virus spreading SEIR (Susceptible-Exposed-Infected-Removed) model in heterogeneous networks with consideration of the scale-free feature of email networks.Use the Interaction of Markov Chains (IMC) method to derive the dynamical equations of SEIR model,representing the process of email worm-virus propagation.Furthermore,Monte-Carlo method is used to explore the basic factors affecting the propagation of email worm-virus.The simulation results show that the new SEIR model based on heterogeneous networks performs well on describing the real propagation of email worm-virus.In addition,the results of simulation also point out that quick increasing probability of installing antivirus software or improving virus-killing ability of antivirus can effectively restrain the propagation of email worm-virus. email worm-virus;individual differences;interaction of Markov chains;antivirus software 2015-03-14 2015-06-19 时间:2015-11-19 国家自然科学基金资助项目(61374180,61373136);2012年度教育部人文社会科学研究规划基金;江苏省“六大人才高峰”(RLD201212) 项春霞(1989-),女,硕士,研究方向为复杂网络上的传播动力学、网络安全;蒋国平,教授,博士生导师,研究方向为复杂网络上的传播动力学、复杂动态网络的同步和控制、网络的故障诊断以及混沌通信等。 http://www.cnki.net/kcms/detail/61.1450.TP.20151119.1109.026.html TP393.0 A 1673-629X(2016)01-0090-07 10.3969/j.issn.1673-629X.2016.01.0193 仿真实验
4 结束语