基于兴趣认知的垃圾邮件过滤技术研究
2017-02-25湖北工业大学曹丽君
湖北工业大学 曹丽君
基于兴趣认知的垃圾邮件过滤技术研究
湖北工业大学 曹丽君
本文详细介绍了基于兴趣认知的垃圾邮件过滤技术的总体设计,以及初始化处理模块和基于层叠隐马模型的词语切分模块,最后介绍了算法实现和数据库设计。
垃圾邮件;过滤技术;研究
随着信息技术等现代科学技术的发展,邮件已经成为现在人们信息交流必不可少的一部分了。但是垃圾邮件也十分猖獗,并且垃圾邮件的种类也不断翻新。所以要采取更有效的反垃圾邮件技术。
1 研究的意义
1.1 可以有效的阻止垃圾邮件,节省网民的时间和费用
早在1997年,垃圾邮件已经开始泛滥了。2003年全球企业因垃圾邮件引起的损失已超过205亿美元。据调查网民每天需要花费6.5 min来处理无用邮件,单是下载垃圾邮件所花费的上网费与电话费,每年就要花掉全球网民94亿美元。国际著名分析机构Ferris公司的最新分析报告预测,2005年垃圾邮件给全球的生产力造成的损失和其他反垃圾邮件的投资将达到500亿美元。IDC公司预测,到2008年反垃圾邮件软件收入及其服务收入将能够达到17亿美元的规模;届时用户每年在反垃圾邮件上花费132美元。
1.2 可以基于不同兴趣的人过滤不同的邮件
它是一种自适应的、具有统计智能的技术,可以阻止日益变化的垃圾邮件,以前用的技术,如屏蔽过多邮件发送的IP地址,屏蔽指定用户邮箱,已经跟不上现在的垃圾邮件的变化了,只有用具有智能性和具有自学习型的反垃圾邮件系统才能更加有效地抵制垃圾邮件。
2 过滤技术
现在主流的垃圾邮件过滤技术有黑名单技术、白名单技术,实时黑名单技术、内容过滤技术、自定义过滤技术。而这些过滤技术,只能过滤一般性的垃圾邮件,不能因人而异。比如某人兴趣是喜欢体育,那么关于培训和教育类的邮件对他来说就是垃圾邮件,要过滤掉,但是用以上常规的过滤技术是不能识别的,所以本文提出了基于兴趣认知的垃圾邮件过滤技术。
该技术先区分邮件的正文和标题,再对正文进行词语的切分,切分完后再存进数据库,记录字频,再根据贝叶斯来计算概率。系统先根据用户的判断来确定哪些邮件是用户感兴趣的,经过一段时间学习后,再自行判断。
3 垃圾邮件
垃圾邮件是指收件人事先没有提出要求或者同意接收的广告、电子刊物、各种形式的宣传品等宣传性的电子邮件,收件人无法拒收的电子邮件,隐藏发件人身份、地址、标题等信息的电子邮件,含有虚假的信息源、发件人、路由等信息的电子邮件。垃圾邮件一般具有批量发送的特征,在Internet上同时传送多个副本:从内容上看,它们通常是商业广告、宣传资料或者其它一些无关内容。垃圾邮件是 Internet发展的副产品,起源于美国,在英文中有3个称呼:UCE(Unsolicited Commercial Email)、UBE(Unsolicited Bulk Email)和Spain,常用的是Spain。 UCE是专指以商业广告为内容的垃圾邮件,UBE则还包含一些无关内容。
中国互联网协会定义的垃圾邮件有4种:
(1)收件人事先没有提出要求或者同意接收的广告、电子刊物、各种形式的宣传品等宣传性的电子邮件。
(2)收件人无法拒收的电子邮件。
(3)隐藏发件人身份、地址、标题等信息的电子邮件。
(4)含有虚假的信息源发件人、路由等信息的电子邮件。
目前,垃圾邮件的定义被扩大了,除了上述在《中国互联网协会反垃圾邮件规范》中对垃圾邮件定义外,病毒、色情、反动、NULL等等无用的邮件,也被包括在垃圾邮件的定义中。
4 结论
随着Internet的日益普及,电子邮件已成为人们生活中不可缺少的一部分,它不仅为人们的工作和生活带来了极大的便利。而且逐渐成为人们进行信息交流的一种重要手段。然而,垃圾邮件却给广大的网络用户带来了无穷的烦恼,它不仅严重地干扰了用户正常的电子邮件的收发,而且消耗了网络带宽,使用户上网速度减慢,给网络造成极大的危害。自互联网普及以来,电子邮件逐渐成为人们生活中便捷的通信手段之一。然而,随之产生的垃圾邮件像瘟疫一样蔓延,造成极大的危害:占用大量的网络带宽,导致邮件服务器拥塞,降低整个网络的运行效率;侵占收件人信箱空间,耗费收件人的时间、精力和金钱;易被黑客利用,成为攻击工具;窃取用户的网上行踪,侵犯收件人的隐私权;严重影响ISP的服务形象,使服务商的主机名有可能被列入国际垃圾邮件数据库,从而导致该主机不能访问国际网络;妖言惑众、骗人钱财,传播不良内容的垃圾邮件,对现实社会造成了危害。垃圾邮件危害之大、影响之深使得反垃圾邮件行动刻不容缓,因此,对反垃圾邮件技术的研究已经成为影响互联网发展的重要课题之一。
[1]拒垃圾邮件于门外.微电脑世界,2005,(3):112-124.
[2]孟昭兰.普通心理学.北京大学出版社,1994.
[3]曹麒麟.张千里编.垃圾邮件与反垃圾邮件.人民邮电出版社,2003.
2017-09-10)