APP下载

云计算平台下一种新型反垃圾邮件系统的研究

2013-09-12刘海韬阳洁中南大学信息科学与工程学院湖南长沙410083

关键词:垃圾邮件网络流量改进型

刘海韬,阳洁(中南大学 信息科学与工程学院,湖南 长沙,410083)

电子邮件因其便捷、快速、价格便宜等特点已逐渐成为目前主要的交流方式之一,但垃圾邮件(spam)[1]问题也日益严重。垃圾邮件严重干扰个人的正常信息交流,浪费大量时间和精力,并占用大量的传输和存储资源,造成网络资源的浪费。SMTP(simple mail transfer protocol)[2]中接收方被动接收邮件的缺点是导致垃圾邮件日益泛滥主要原因之一;同时,由于垃圾邮件基于全网发送的特点,传统的反垃圾邮件系统无法进行集中、统一管理,普遍存在成本昂贵和重复建设等问题。因此,面对海量垃圾邮件的威胁,修改SMTP、整合网络资源、整体防御垃圾邮件是很有必要的。Duan等[3]在IM2000(internet mail 2000)协议[4]基础上提出的DMTP可从根本上解决接收方被动接收邮件的问题,但仍存在SMTA(sender mail transfer agent)类别划分模糊化问题。云计算[5]的出现和发展为反垃圾邮件领域提供了新的思路,它可为反垃圾邮件系统提供一体化、可扩展的服务。本文在改进DMTP的基础上,引进云计算垃圾邮件防范机制,设计云计算平台下一种新型反垃圾邮件系统。在该系统中,云端反垃圾邮件机制结合了多种反垃圾邮件技术,如黑白名单[6]、贝叶斯算法[7]、基于关键词和规则[8]等,克服了单一过滤机制存在的精准率低等问题。

1 改进型DMTP

DMTP基于SIRP模式设计,根据SMTA的IP地址将其划分为 3类并进行不同处理:(1) 黑名单,关闭会话连接;(2) 白名单,执行SMTP的邮件发送流程;(3) 灰名单,由接收方根据信封信息(包括邮件编号、发送方以及接收方地址、邮件简要内容等)判断是否接收邮件。由于DMTP仅根据SMTA的IP地址确定发送方类别,存在分类规则粒度过大的缺陷。公共邮件服务器对应的用户群类属不同类别,导致SMTA类别划分模糊化。改进型DMTP进一步细化了分类规则粒度,根据SMTA的IP地址和发送方的邮件地址2个分类条件确定发送方类别。改进型DMTP在DMTP基础上添加1个返回码即254。新定义的返回码含义如表1所示。

表1 改进型DMTP新定义的命令以及返回码Table 1 New reply code defined in improved DMTP

改进型 DMTP中 RMTA(receiver mail transfer agent)处理信息传输请求算法如图1所示。

图1 改进型DMTP中 RMTA处理信息传输请求算法Fig.1 Algorithm for RMTA to handle message delivery requests in improved DMTP

2 云计算平台下一种新型反垃圾邮件系统设计

2.1 系统结构模型

改进型DMTP是一种资源节约型协议,可大幅度降低邮件传输的网络带宽。由于接收方查看信封信息时间不确定,SMTA须处于长期连通状态,才能实时给接收方传送邮件,因此,增加了垃圾邮件的发送成本。云计算[9]是近年来互联网领域兴起的热点,实现了计算在客户间的共享,避免了用户对信息系统的重复建设。本文采用改进型DMTP并引入云计算,设计云计算平台下一种新型反垃圾邮件系统。该系统模型的体系结构如图2所示。

图2 云计算平台下一种新型反垃圾邮件系统结构模型Fig.2 Structure model of a novel anti-spam system under cloud computing platform

从图2可以看出:在该系统中,灰名单类邮件加密上传至云端,由云端分析。RMTA根据云端分析结果,决定是否给用户传送信封信息。这样,本文系统通过引入云计算机制,在减小传统反垃圾邮件系统负荷的基础上,同时也降低了用户时间消耗。

2.2 系统实现

本原型系统的编程环境选择 MyEclipse6.5,主要使用Java编程,中间件全部选取开源项目。整个原型系统的实现主要分为邮件传输、云端反垃圾邮件机制以及系统基于云计算的构建共三大块。

在系统的邮件传输中,选择 JAMES(Java apache mail enterprise server)[10]开源邮件服务器。JAMES性能稳定,可配置性强,实现了 SMTP,POP3和 NNTP等多种邮件相关协议。对于本系统中采用的改进型DMTP,可通过修改JAMES中SMTP协议栈的方式扩充 JAMES所提供的协议。在邮件传输服务中生成信封信息这一块,借鉴了IMAP协议技术。

系统中云端反垃圾邮件机制采用开源邮件过滤器SpamAssassin[11]。SpamAssassin不依赖于操作系统,并已运用到众多商业级的反垃圾邮件系统中。SpamAssassin使用大量、不同类型的规则和权重判断垃圾邮件。

对于系统基于云计算的构建模型,选择EUCALYPTUS(elastic utility computing architecture for linking your programs to useful systems)[12-13]。EUCALYPTUS是目前云计算领域发展快速且成熟的开源软件基础设施之一,主要是用来通过计算集群或工作站群来实现弹性和实用的云计算。

2.3 系统工作流程

采用本文提出的新型反垃圾邮件系统对不同类别的邮件进行差分处理,不仅能够节约系统资源,而且能提升系统的召回率和精准率。本文系统对不同类别邮件的处理流程如图3所示。

图 3(a)所示为黑名单类邮件处理流程示意图,当邮件被判断为黑名单类邮件后,RMTA断开连接;图3(b)所示为白名单类邮件处理流程示意图,当邮件被判断为白名单类邮件后,提取指示SMTA操作的数据包中的参数CSAD值,将附件上传至CSAD存储,文本信息直接发送至RMTA;图3 (c)所示为灰名单类邮件处理流程示意图,当邮件被判断为灰名单类邮件后,附件保留于本地。提取指示SMTA操作的数据包中的参数CPAD值,出于对安全和隐私考虑,对邮件内容进行同态加密[14],上传至 CPAD分析处理。最后,RMTA根据CPAD值读取云端分析结果。图3中指示SMTA操作的数据包中包含的参数如表2所示。

云端反垃圾邮件过滤机制基于免疫原理[15]设计,采取多层过滤方式抵挡垃圾邮件。

(1) 垃圾邮件数据库。该数据库中保存已识别的垃圾邮件密文。云端首先将待检测的邮件密文与垃圾邮件数据库项匹配。若匹配一致,则可确定该邮件为垃圾邮件,直接返回分析结果;否则,邮件需继续检测。

(2) 行为可信度数据库。该数据库中保存发送方的行为可信度指数,若发送方的行为可信度低于接收方设定值,则直接判定该邮件为垃圾邮件;否则,交给集群系统继续检测。实时降低被集群系统检测出的垃圾邮件发送方可信度。

(3) 反垃圾邮件服务器群。综合采用多种不同技术(如蜜罐技术[16]、贝叶斯算法[17]、基于关键词和规则过滤[18]、URL分析[19]等)的过滤引擎组成庞大服务器动态分析平台。

图3 3类邮件处理流程示意图Fig.3 Processes of sending three kinds of emails

表2 邮件操作数据包含的参数Table 2 Parameters contained in data-packet

(4) 结果整合器。整合过滤引擎群的分析结果对邮件进行判断,设定1个阈值,若大于这个阈值,则可判断该邮件为垃圾邮件,结果整合器还需包含对过滤引擎群的管理功能。

3 性能评估与数值实验

这里采用数值实验的方式分别对基于 SMTP,DMTP和改进型DMTP 3类邮件系统的性能进行评估分析,从用户处理时间、网络流量、垃圾邮件发送方获益进行讨论。数值实验环境为Matlab2010a。

3.1 用户处理时间

本文系统基于改进型DMTP并引进了云端反垃圾邮件机制,通过缩小灰名单范围和过滤垃圾邮件信封信息2种方式,在基于DMTP邮件系统的基础上,进一步降低邮件处理时间。假定网络中邮件地址总数为N,每个邮件地址向用户发送1封邮件,其中合法邮件的概率为p。在 DMTP中,SMTA被划分为BMTA,WMTA和GMTA3类(含义见表3),各MTA平均对应a个邮件地址。在改进型DMTP中,SMTA被划分为BMTA和WMTA2类。其中,WMTA的邮件地址又可分为BADD,WADD和GADD3类,

各变量含义见表3。

表3 接收方时间耗费模型所需参数Table 3 Parameters of receiver time-cost model

T定义为邮件处理总时间,基于SMTP邮件系统、基于DMTP邮件系统与本文系统中邮件传输所需邮件处理总时间T分别为:

根据式(1),GADD<GMTAa。设定BMTA对应的邮件地址只发送垃圾邮件。图4所示为3类邮件系统的接收方时间耗费示意图。从图4可见:在3类邮件系统中,有TIDMTP<TDMTP。改进型DMTP可在DMTP基础上进一步降低接收方处理邮件时间。

图4 3类邮件系统的接收方时间耗费比较Fig.4 Comparison of expected receiver time-cost in three kinds of mail systems

3.2 网络流量

本文系统基于改进型DMTP,可从根本上克服基于SMTP邮件系统中接收方被动接收信息的缺点,从而减少了不必要的网络流量。在本文系统中,灰名单首次连接只需传递信封信息。信封信息只包含邮件元数据,约为1 kb。参考表3定义的变量,基于SMTP邮件系统、基于DMTP邮件系统与本文系统中邮件传输所需网络流量L分别为:

图5所示为3类邮件系统的网络流量示意图。从图5可见:在3类邮件系统中,有LIDMTP<LDMTP。改进型DMTP算法可在DMTP算法的基础上进一步节省网络带宽。

3.3 垃圾邮件发送方获益

解决垃圾邮件发送的根本途径为降低垃圾邮件发送者的获益。垃圾邮件发送方获益模型所需参数见表4。本文通过比较垃圾邮件发送方的获益来衡量上述3类反垃圾邮件系统性能。假定垃圾邮件服务器S拥有邮箱地址x个,每个邮箱地址以速度s向N/x邮件地址发送垃圾邮件,每封邮件获益g。网络中用户共同维护实时黑名单列表(RBL),以速度r提取邮件,处理后向RBL发送报告的概率为β。RBL收到的报告值为a后将相应的服务器划入黑名单。服务器被划入黑名单后,立即停止发送,以节约成本。

图5 3类邮件系统的网络流量的比较Fig.5 Comparison of expected network traffic in three kinds of mail systems

表4 垃圾邮件发送方获益模型所需参数Table 4 Notations used in spammer revenue model

R(t)定义为单位时间t内已被提取的垃圾邮件值。云端向 RBL汇报垃圾邮件的概率为 1。基于 DMTP系统与本文系统的R(t)分别为RDMTP(t)和RIDMTP(t),计算公式为:

其中:f(t) 定义为单位时间t内垃圾邮件发送方发送的垃圾邮件数量。基于DMTP邮件系统与本文系统的f(t)分别为fDMTP(t)和fIDMTP(t),

其中:C(t)为单位时间t内垃圾邮件发送方的成本消耗。垃圾邮件发送方需N/r时间将信息发送给所有的接收方,基于 DMTP邮件系统与本文系统分别需(a/β) / (r/x) 和(a/ (p1+(1 -p1) ·β)) /(r· (1 -p1)/x)时间将服务器划入黑名单。基于DMTP邮件系统与本文系统的C(t)分别为CDMTP(t)和CIDMTP(t),

其中:U定义为垃圾邮件发送方获益值,有U=g·f(t) -C(t)。基于SMTP邮件系统、 基于DMTP邮件系统和本文系统的U分别为USMTP,UDMTP和UIDMTP:

比较式(14)~(16)可知:在基于SMTP邮件系统中,垃圾邮件发送方获益取决于服务器发送速度s,s越大,获益就越多;在基于DMTP和本文系统中,垃圾邮件发送方获益取决于接收方提取垃圾邮件的速度r,r越小,服务器处于连通状态的时间越长,获益越少。

图6所示为3类邮件系统的垃圾邮件发送方获益示意图。从图6可见:在3类邮件系统中,有USMTP>UDMTP>UIDMTP。可见:在基于SMTP邮件系统中,垃圾邮件发送方只需N/s时间完成垃圾邮件发送任务获得最大收益;在基于DMTP和本文系统中,服务器需长期处于连通状态,等待接收方提取邮件,从而降低了获益。本文系统结合了云端垃圾邮件过滤机制,可在基于DMTP邮件系统的基础上进一步减小垃圾邮件发送方获益。

图6 3类邮件系统的垃圾邮件发送方获益的比较Fig.6 Comparison of expected spammer revenue in three kinds of mail systems

图7所示为召回率p1对垃圾邮件发送方获益的影响。从图7可见:当0<p1<0.1与0.9<p1<1时,垃圾邮件发送方获益急剧下降;当0.1≤p1≤0.9时,垃圾邮件发送方获益下降幅度较小;当 0.9<p1≤1时,垃圾邮件发送方获益为负值。

图7 召回率p1对垃圾邮件发送方获益的影响(设定t=500 s)Fig.7 Impact of recall rate p1 on spam revenue (t=500 s)

4 结论

(1) 分析了基于IM2000协议扩展的DMTP的不足,提出了改进型DMTP,设计了云计算平台下一种新型反垃圾邮件系统。该系统基于改进型DMTP设计并引进云端反垃圾邮件机制,可解决目前SMTP中接收方被动接收邮件的缺点和传统反垃圾邮件系统无法综合管理,产生的垃圾邮件发送成本低和反垃圾邮件系统重复建设等问题。

(2) 比较了基于SMTP邮件系统、基于DMTP邮件系统与本文所提出的新型反垃圾邮件系统三类系统中的用户处理时间、网络流量与垃圾邮件获益值。仿真实验结果表明:与基于SMTP邮件系统相比,本文系统在减小用户处理时间、网络流量与垃圾邮件发送方的获益值这3个方面都取得很好的效果;对与基于DMTP邮件系统相比,本系统在减小垃圾邮件发送方的获益值方面上取得很好的效果,但在减小用户处理时间与网络流量这2个方面效果不显著。

[1] Gansterer W, Ilger M, Neumayer P, et al. Anti-spam methodsstate-of-the-art[D]. Vienna: Faculty of Computer Science.University of Vienna, 2005: 1-99.

[2] IETF RFC 876, Survey of SMTP implementations[S].

[3] Duan Z H, Dong Y F, kartik G. DMTP: Controlling through message delivery differentiation[J]. Computer Networks, 2007,51(10): 2616-2630.

[4] Bernstein D. Internet mail 2000 (IM2000)[EB/OL].[2012-06-05]. http://cr.yp.to/im2000.html.

[5] Kalagiakos P, Karampelas P. Cloud computing learning[C]//2011 5th International Conference on Application of Information and Communication Technologies (AICT). Baku, 2011: 1-4.

[6] Zhou J Y, Chin W Y, Roman R, et al. An effective multi-layered defense framework against spam[J]. Information Security Technical Report, 2007, 12(3): 179-185.

[7] Vahora S, Hasan M, Lakhani R. Novel approach: Naïve Bayes with vector space model for spam classification[C]//2011 Nirma University International Conference on Engineering. Ahmedabad,Gujarat, 2011: 1-5.

[8] 林丹宁. 反垃圾邮件关键技术研究与实现[D]. 杭州: 浙江大学计算机科学与技术学院, 2007: 15-19.

LIN Danning. Research and implementation of the main method of anti-spam[D]. Hangzhou: Zhejiang University. College of Computer Science and Technology, 2007: 15-19.

[9] Khan I, Rehman H, Anwar Z. Design and deployment of a trusted eucalyptus cloud[C]//2011 IEEE International Conference on Cloud Computing. Washington, DC, 2011:380-387.

[10] The Apache SpamAssassin Project[EB/OL]. [2012-06-05].

http://spamassassin. apache.org/.

[11] James project[EB/OL]. [2012-06-05]. http://james.apache.org/.

[12] Nurmi D, Wolski R, Grzegorczyk C, et al. The eucalyptus open-source cloud-computing system[C]//9th IEEE/ACM International Symposium on Cluster Computing and the Grid.Shanghai, 2009: 124-131.

[13] Waqar A, Raza A, Abbas H. User privacy issues in eucalyptus: A private cloud computing environment[C]//2011 IEEE 10thInternational Conference on Trust, Security and Privacy in Computing and Communications (TrustCom). Changsha, China,2011: 927-932.

[14] Gomathisankaran M, Tyagi A, Namuduri K. HORNS: A homomorphic encryption scheme for cloud computing using residue number system[C]//2011 45th Annual Conference on Information Sciences and Systems. Baltimore MD, 2011:1-5.

[15] 张泽明, 罗文坚, 王煦法. 一种基于人工免疫的多层垃圾邮件过滤算法[J]. 电子学报, 2007, 20(3): 406-414.

ZHANG Zeming, LUO Wenjian, WANG Xufa. A multilevel spam filtering algorithm based on artificial immunity[J]. Chinese Journal of Electronics, 2007, 20(3): 406-414.

[16] LI Hongxia, CHEN Junming, JIN Xin. An outlook on network honey pot[C]//2011 International Conference on Computer Science and Service System. Nanjing, 2011: 1102-1105.

[17] Isaac B, Jap W J, Sutanto J H. Improved Bayesian anti-spam filter implementation and analysis on independent spam corpuses[C]//2009 International Conference on Computer Engineering and Technology. 2009: 326-330.

[18] Almeidal T A, Yamakami A. Content-based spam filtering[C]//2010 International Joint Conference on Neural Networks.Barcelona, 2010: 1-7.

[19] Eleni G, Marios D, Athena S. On the properties of spamadvertised URL addresses[J]. Journal of Network and Computer Applications, 2008, 31(4): 966-985.

猜你喜欢

垃圾邮件网络流量改进型
基于多元高斯分布的网络流量异常识别方法
大数据驱动和分析的舰船通信网络流量智能估计
Cr5改进型支承辊探伤无底波原因分析
从“scientist(科学家)”到“spam(垃圾邮件)”,英语单词的起源出人意料地有趣 精读
改进型自抗扰四旋翼无人机控制系统设计与实现
一种基于SMOTE和随机森林的垃圾邮件检测算法
垃圾邮件会在2020年消失吗
大数据环境下的网络流量非线性预测建模
AVB网络流量整形帧模型端到端延迟计算
一种基于单片机的改进型通信开关电源电路设计