基于行为识别的反垃圾邮件技术探讨
2015-10-21冯晓辉
冯晓辉
【摘要】当前网络技术的发展使得人们的可以通过电子邮件的形式进行交流,这也给人们的交流和沟通,但是在给人们的沟通和交流提供方便的同时也造成了一定的困扰,其中垃圾邮件就是一个非常常见的现象,而当前针对垃圾邮件也已经有了一些识别技术。本文主要分析了基于行为识别的反垃圾邮件技术,以供参考和借鉴。
【关键词】行为识别;反垃圾邮件技术;探讨
计算机是当前办公过程中非常常见的一种设备,同时电子邮件也逐渐成为人们工作生活中的一个重要的工具,它也成为了人们交流和沟通的载体,它给人们创造了一定的便利,同时它也给人们带来了一些烦恼,烦恼的主要来源就是垃圾邮件,而以行为识别为基础为基础的反垃圾邮件技术就成了当前比较重要的一项技术,其应用也越来越广泛。
1、垃圾邮件概述
1.1垃圾邮件的概念
Spam就是将内容完全相同的电子邮件在没有收到收信人同意的情况下就转发给很多人,这些邮件内容很多都是没有实际用途的商业广告,因为在一段时间之内转发了大量的邮件,系统本身就必须要承受非常大的负担,同时收信人还需要在收这些垃圾邮件的时候支付相应的费用。
通常互联网上的垃圾邮件主要分成两个大类,一个是合法的市场营销类商业信函,这样的邮件内容并不涉及非法问题,我们要做的就是要对其进行统一的规范,这样就可以很好的对其行为进行限制和束缚。另外一种是真正的垃圾邮件,这类邮件也被一些人叫做流氓邮件,所以发送这种邮件的人就叫做是违法人员或者是犯罪分子,这些邮件当中充斥着反社会、烦人轮、甚至是色情暴力活动等。
1.2垃圾邮件的危害
发送垃圾邮件的成本是非常低廉的,一般都是通过多种方式进行群发或者是转发,但是对E-mail運营商和使用用户而言,却会造成非常大的损失,其危害主要体现在以下几个方面。
首先是垃圾邮件会队互联网的健康发展起到严重的抑制作用。网络资源是相对有限的,如果网络资源上分布着大量的垃圾邮件的时候,网络的使用效率就受到了非常不利的影响。而对于邮件的服务器而言也如果收到了大量的垃圾邮件会占用服务器的大量空间,如果垃圾邮件得不到有效的控制,用户就会停止使用该邮箱,这样也就迫使服务的提供商必须要停止所有的服务项目,这样一来,企业不仅失去了大量的经济收益,同时也会在一定程度上影响到企业的社会效益。
其次是垃圾邮件影响到了用户自身的利益、如果网络用户每一天都要花费大量的时间去删除垃圾邮件,其有效使用的时间就会相应的减少,同时也严重影响到了人们正常的工作和生活。时间是非常宝贵的,所以浪费时间是十分不明智的,相关调查显示,网民们每天都需要花7分钟的时间对垃圾邮件进行处理,下载垃圾邮件所花费的费用就已经超过了94亿美元。
最后是垃圾邮件污染了社会环境。一些垃圾邮件内容充斥着色情和暴力等各种不利于社会和谐的信息,这样一来,社会环境就会变得更加的混乱。黑客们在使用电子邮件系统发送很多的垃圾邮件的时候会对攻击的目标进行破坏,这样也使得其逐渐处于瘫痪的状态,此外,它还能够成为传播病毒的一个非常重要的途径和载体。
2、基于行为识别的反垃圾邮件技术
2.1反垃圾邮件技术现状
当前比较主流的反垃圾邮件产品所采用的技术是过滤技术,这些技术在当前还是存在着一定的局限,同时在应用的过程中还是使用独立性过强的词语对其进行匹配,这样也使得语言的重要特征—连贯性受到了非常明显的破坏,这样也就无法对邮件的内容和类别进行判断,所以也出现了很多的失误。此外这些技术还是需要很多的匹配运算,其对CPU和内存的影响非常大,所以这也使得处理更加的困难,通过技术人员的分析和计算,对模型也进行了一定的归纳和总结。行为模式当中包含了很多的因素,这样就可以根据这些因素对邮件是否为垃圾邮件进行判别,不用对邮件所有的内容进行三秒,这样就使得邮件判别的效率得到了显著的提升,此外也使得整个过程的准确性有了十分显著的提高。
2.2反垃圾邮件行为的技术原理
SMTP可以有效的对网上的处理机之间的电子邮件进行传输,但是整个协议请求的关键字等都是可以通过一定的手段进行伪造,他们通常可以通过非法的形式传递一些垃圾邮件,这种行为和正常发送邮件的行为是有着明显的差异的。垃圾邮件行为模式识别模型在理论上有着较高的区分性,在实际的的分析中也有一定的道理。所以针对这样的情况,我们完全可以通过一定的方法对正常的邮件和垃圾邮件进行有效的辨别,这样就可以在垃圾邮件发送之前就对异常邮件形式发送拒收请求,这样也就使得邮件一直都能处在可以控制的状态当中,防止了垃圾邮件对网络环境的影响,使得网络邮件无法钻孔子,这样也就形成了反垃圾邮件的模型。
2.3反垃圾邮件系统模块的需求
1)实时性:分类器模块在对邮件处理时,应采取较为高效的算法,尽量使对邮件处理的时延足够小,而不至于出现邮件传输瓶颈,影响邮件系统的使用和功能的减弱。
2)正确率:这是邮件分类器最重要的衡量标准,主要体现在正确分类率和错误分类率。正确分类率是指把正常的邮件归类到正常邮件,Spam归类到Spam情况时占整个判别邮件总数的比率。而错误分类率则是指把正常的邮件归类到Spam,Spam归类到正常邮件情况时占整个判别邮件总数的比率。然而,把少量的Spam归类到正常邮件是可接受的,把正常邮件归类到Spam则是不容许的。
3)易用性:该模块应用在系统中时安装、配置、维护应该简单方便,具有良好的扩展接口。
4)可扩展性:当系统要求增加分类功能时,如对真伪的MAC判断时,该模块能添加相关功能。
5)稳定性:当系统功能的处理能力到达较大负荷时,仍能正常工作,而不会丢弃邮件或邮件正确分类率不会有明显下降。
3、结语
当前,反垃圾邮件的问题已经收到了相关人员的高度关注和重视,同时在国际上也开始以研讨会的形式去探讨这一问题,要想更加彻底的去解决这一问题,就必须要在实际的工作中必须从其产生的原理作为突破口,从而将垃圾邮件彻底的根除,降低垃圾邮件对网络资源的消耗。
参考文献
[1]阚晓初.电子商务安全中的数据加密技术[J].计算机教育,2007(18).
[2]何建昭,梁晓诚,郭红宾.基于行为模式识别的反垃圾邮件技术[J].电脑知识与技术(学术交流),2007(04).
[3]蓝炳伟.SPF技术在邮件服务系统中的应用[J].计算机系统应用,2006(10).