垃圾邮件检测与绕过技术的研究
2021-04-20冯军军李力
冯军军 李力
摘要:随着互联网技术的发展,邮件作为通信和传输文件的方式越来越普遍,伴随着垃圾邮件也出现在工作中。垃圾邮件对企业和用户的危害极大,该文主要讨论垃圾邮件的检测技术和绕过技术。
关键词:垃圾邮件;检测;绕过
中图分类号:TP311 文献标识码:A
文章编号:1009-3044(2021)07-0036-02
Abstract:With the development of Internet technology, mail is becoming more and more popular as a means of communication and file transfer, along with spam also appears in the work.Spam is harmful to enterprises and users. This paper mainly discusses the detection technology and bypass technology of spam.
Key words: spam; detection; bypass
1引言
垃圾邮件是指收件人拒绝接收或者不同意接收但是仍然收到的邮件[1],主要包含商业类、广告类、培训类、推广类、报价类等邮件。这些邮件的关键特征是强制性和批量发送。如2020年护网爆出的案例,就是攻击方通过信息收集获取防守方用户的邮箱,通过群发邮件,引诱用户更新钓鱼flash,从而实现权限获取进而内网渗透获取关键信息。垃圾邮件对企业、用户的危害极大,对其检测进行研究是非常有必要的。
2垃圾电子邮件检测过滤技术
垃圾邮件的检测技术一般分为内容过滤技术、验证校验技术和规则过滤技术。
2.1内容过滤技术
基于内容的垃圾邮件过滤技术,是根据邮件中的内容进行过滤的[2]。通常来说,利用关键字技术或者邮件特征统计技术,与已知的垃圾邮件内容进行匹配,从而判断是否是垃圾邮件。同样,也可以根据检测的垃圾邮件进行特征提取,更新垃圾邮件检索库,从而进行新的研究。常见的基于内容过滤的方法有决策树过滤技术、关键词过滤技术等,近几年来,随着机器学习的发展,朴素贝叶斯过算法、支持向量机算法、多层感知机算法、卷积神经网络算法等也在垃圾邮件识别中应用[3-4]。
2.1.1朴素贝叶斯过滤技术
随着机器学习在大数据技术中的应用,朴素贝叶斯算法广泛应用于智能应用中[5]。在垃圾邮件检测过滤中,通过朴素贝叶斯算法,在不设置任何过滤规则和不分析邮件的含义与内容的前提下,通过可以学习单词、汉字和特殊符号的频率和模式进行学习。学习后,智能化的对用户接收的邮件,进行垃圾邮件和正常邮件识别,判断是否为垃圾邮件。相对于传统的关键字过滤技术,该方法更加方便快捷智能化[6]。并且也会使垃圾邮件的发送者,无法根据何种关键字过滤的,从而进行拦截,提高垃圾邮件的识别率。
2.1.2支持向量机过滤技术
基于支持向量机过滤技术,支持向量机是一种面向二分类任务的机器学习模型,模型结构能够在特征空间上产生最大间隔的超平面。在垃圾邮件过滤中,可以采用支持向量机分类技术,实现垃圾邮件和正常邮件的分类。在垃圾邮件过滤中,通过词袋模型,即如果一个词在文档中出现不止一次,并统计其出现的次数的方法,实现内容学习。利用支持向量机过滤技术,从而实现智能化的垃圾邮件识别,提高识别效率。
2.1.3多层感知机过滤技术
基于多层感知的过滤技术,利用多层感知机模型,在输入层和输出层之间增加隐含层,通过输入邮件的特征,选择合适的权重值,实现邮件的线性分类,从而区分垃圾邮件和正常邮件[7]。垃圾邮件识别中,在输入层输入过滤的关键字,通过多层感知机过滤技术,从而实现牢记邮件识别,提高垃圾邮件拦截率。
2.1.4卷积神经网络过滤技术
基于卷积神经网络过滤技术,根据生物神经系统的特性而提出的一种神经网络模型。在垃圾邮件过滤中,根据輸入的邮件数据的特征提取,通过神经网络模型,获得并输出相应的特征图。然后根据输出的特征图,进行适当抽象的方式去除特征图中不重要的信息,突出有效特征信息的效果,从而实现邮件的分类。
2.2验证查询技术
基于验证查询技术,就是在不侵犯个人隐私的前提下,发现垃圾邮件,从而阻断其发送。该模式下,企业邮箱可以根据其工作方式改变电子邮件系统,个人邮件可以根据现存的邮件缺点进行过滤,从而提高邮件系统的安全性。
2.2.1邮箱地址验证技术
基于邮箱地址验证技术,通过将寄来电子邮件的地址,与系统的黑白名单对比,凡是黑名单中列出垃圾邮件的邮箱,收到的邮件都直接过滤掉,凡是白名单的地址都是合法邮件。通过黑白名单内的邮件地址比对,提高垃圾邮件验证的可靠性,且杜绝大部分垃圾邮件入侵的反垃圾邮件技术。
2.2.2 IP地址验证技术
基于IP地址验证技术,是在建立IP连接后,对邮件的发送地址进行黑名单验证,如果在黑名单中就拒绝接收。如果某IP发送垃圾邮件,可以对其进行标记,如标记的次数多了,就自动加入黑名单中,实现实时更新。同理,如果可以采用白名单技术,对于自己的好友或者企业经常用的IP地址设置白名单,减少检测的次数。但是如果好友或者企业的IP地址被挂马,而进行邮件发送,就无法实现垃圾邮件的过滤。
2.3规则过滤技术
基于规则的垃圾邮件过滤技术,对垃圾邮件的样本进行统计和分析,进行数据建模。该模型中利用垃圾邮件的发送的时间、发送的IP、发送的地址和发送的频率等特征,进行邮件类型和特点的分析,根据分析的情况,制定垃圾邮件的过滤规则,从而根据这些规则构建过滤的评分系统。在垃圾邮件识别过程中,当达到相应的规则库的时候就会有相应的评分显示,根据评分标准,超过临界值,判断为垃圾邮件。该技术对垃圾邮件的过滤具有良好的效率,但是随着垃圾邮件的特征变化,从而也会存在一定的缺陷。
3垃圾电子邮件反检测绕过技术
随着垃圾邮件的检测技术发展,很多垃圾邮件经常采用伪装发送内容、内容加噪、利用圖片代替文字、动态IP等方式,从而避免被过滤。
1)邮件内容伪装技术。该伪装技术指邮件发送的内容和邮件发送的标题等进行伪装。利用计算机技术生成伪装的内容,比如说伪装标题、附件发件人等,来伪装正常的邮件,使收件人无法区分而查看。正文伪装技术利用明显的错别字、多余的回车、换行符和制表符等不影响人的阅读,但是对于机器学习来说却可以破坏基于单词、词组的识别机制,通过随机增加TAB、随机增加回车、大小写混淆、随机增加换行符、随机增加连字符、使用错别字等绕过垃圾邮件检测。
2)利用视觉效果绕过邮件检测[8]。该技术利用视觉效果,通过颜色的反差,将要显示的内容与背景色相反,不显示的内容与背景色一致,从而实现发送垃圾内容。该技术通过一些特殊处理,利用网页代码的设置,从而实现收件人看到垃圾邮件的内容,但是又无法准确识别垃圾邮件,从而实现绕过。
3)利用图片绕过邮件检测。该技术利用图片的方式代替文字,将要发送的内容制作成图片,以附件的形式,发送给收件人,从而避免发垃圾邮件技术的绕过。
4)利用动态的IP地址和发送人地址,绕过垃圾邮件黑名单检测。利用肉鸡、后门的软件等方式,在用户不知道情况下,向目标方发送邮件。通过这种方式,在感染者不知情况下,向其过往的邮件联系地址或者好友地址发送垃圾邮件,从而绕过黑名单检测,实现垃圾邮件绕过。
4结束语
随着互联网的不断发展,垃圾邮件一直是广泛关注的问题。由于其成本比较低,特别是受到商业利益的驱动,其越来越频繁。特别是随意垃圾邮件检测绕过技术的发展,利用邮件内容伪装、利用视觉效果、利用图片和利用动态的IP和地址等方式实现垃圾邮件的绕过技术也在不断发展。同样,在垃圾邮件检测中也随着机器学习的发展,智能化的检测技术也在不断发展。总之,垃圾邮件的发送方式多种多样,形式层出不穷,检测技术不断更新,绕过技术也不断更新,所谓的“道高一尺,魔高一丈”,两种技术是相互促进、相互发展。
参考文献:
[1] 罗婧雯.垃圾邮件过滤技术综述[J].电脑知识与技术,2016,12(14):13-14.
[2] 李敬瑶.反垃圾邮件过滤技术方法的研究[J].福建电脑,2016,32(10):61-62.
[3] 徐丹丹.个性化垃圾邮件过滤的扩展研究[D].南京:南京航空航天大学,2019.
[4] 黄鹤.基于深度学习的垃圾邮件过滤方法研究[D].南京:南京邮电大学,2019.
[5] 袁连海,李湘文,徐晶.基于改进贝叶斯原理的垃圾邮件过滤算法研究[J].计算机与数字工程,2020,48(3):513-516,712.
[6] 彭革.基于朴素贝叶斯算法在垃圾邮件过滤中的研究综述[J].电脑知识与技术,2020,16(14):244-245,247.
[7] 徐娟,卞良.基于SVM的中文垃圾邮件预测系统研究[J].数字技术与应用,2020,38(1):38-39.
[8] 赵俊生,候圣,王鑫宇,等.基于集成学习的图像垃圾邮件过滤方法[J].计算机工程与科学,2020,42(6):1049-1059.
【通联编辑:代影】