基于贝叶斯分类的手机短信过滤技术研究
2012-04-02房玲玲
房玲玲
沈阳航空职业技术学院(沈阳 110034)
近年来,人们希望通过各种方式杜绝垃圾短信,垃圾短信过滤研究也就越来越迫切和深入。目前,垃圾短信过滤主要有以下几种过滤技术:黑名单和白名单技术,关键词语的匹配法和贝叶斯推理过滤法。
本文借鉴了在垃圾邮件过滤技术中经常采用的文本过滤技术,并结合分词和贝叶斯分类,实现手机垃圾短信的识别,进而为垃圾短信的过滤服务。
1 研究内容
1.1 手机短信中词的匹配
目前的过滤技术大都是用词库对样本中的词进行匹配,根据匹配程度或进行加权求和,并利用这个和值进行过滤,或含有个别敏感词就过滤该短信,针对不同的反过滤策略,出现了关键词替换表,如拼音替换表,向形字替换表,同音字替换表,如果一种匹配策略失效后,就可以根据这些表进行其它方式的匹配,可能产生对多个表的扫描,虽然使词的匹配具有一定的灵活性,但却是用时间换取了精度,为了减少匹配时间,本文提出了基于Hash技术的匹配算法。
1.2 手机短信词库的智能更新
目前过滤技术大都是以现有的关键词库为依据进行过滤,关键词库的创建或更新主要是靠人工操作实现的,手动添加新词或是用新词替换旧词,所以对不同的反过滤策略的适应能力差,现在常用的过滤方法是Byase,它计算速度快、精确性高,因此可以将单个词本身就看成一个样本,将 Byase的归类思想用于对词库的自动更新,用分析产生的结果作为词的附加属性,这个属性一方面用于以后的词库的更新,一方面用于以后信息样本的分析依据。
1.3 样本的分析
以往的样本分析都是选择能够提供大量信息利于分类的词作为属性,这样作可以降低文本向量的维数,加快分析速度,但是提供信息少的词可能更具有类区别能力,因此用信息量大的词进行归类可能产生局部解,并使分析结果的可信度降低。要提高分析结果的可信度,可以把降维时产生的中间结果作为词的权值,将它与词归类的风险值、词本身的匹配程度一起作为词的属性,这样可以从多角度同时分析样本,提高分析的可信度。
2 关键问题
2.1 确定词的风险系数
对词集进行降维,用提供最多信息的词分析样本的时候,忽略了提供信息少的词可能更具有类区分能力,因此在词库的智能更新时,考虑如何利用Byase过滤思想避免这种风险,使分析更具全面性。
2.2 词的匹配
针对不同反过滤策略维护了若干关键词替换表,处理速度可能下降,因此考虑如何将现有的关键词替换匹配算法与Hash表的查找速度快结合起来,添加词的匹配信息以减化匹配过程。
3 研究方法
3.1 用Hash表进行词汇匹配
哈希表是一种高效的数据结构。它的最大优点就是把数据存储和查找所消耗的时间大大降低,几乎可以看成是常数时间;而代价仅仅是消耗比较多的内存。然而在当前可利用内存越来越多、程序运行时间控制的越来越短的情况下,用空间换时间的做法还是值得的。另外,哈希表编码实现起来比较容易也是它的优点之一。用Hash表存储词库,词的Hash值作为它在表格中的位置信息。词匹配时先计算它的Hash值,如果不与表中该位置的词完全匹配,则进行关键词替换后的模糊匹配,该词用作找到的每个词的模糊匹配信息,以后通过查看模糊匹配信息来加快匹配速度。
3.2 用贝叶斯思想更新手机短信词库
(1)贝叶斯分类并不把一个对象绝对地指派给某一类,而是通过计算得出属于某一类的概率,具有最大概率的类便是该对象所属的类。
(2)一般情况下在贝叶斯分类中所有的属性都潜在的起作用,即并不是一个或几个属性决定分类,而是所有的属性都参与分类。
(3)贝叶斯分类对象的属性可以是离散的,也可以连续的。
用Byase分类中的概率计算方法,计算每个词归到不同类的概率,文献[4]中为解决过滤中误判代价不对等问题提出如下解决方法:只有P(判断为垃圾短信)/P(判断为正常短信)≥阀值C时,才判断短信为垃圾短信。样本训练时可以这样理解这个商值,每个词是等可能地出现在每个类中,样本中人工分类错误率很小可视为零,这样可以认为其出现概率即为归类概率,而将它归属到其它类就会存在一定的风险,故归属其它类的概率 P=样本在该类出现的概率×误判风险,风险值越小则样本出现在其它类的可能性越小。更新词库时,可以将词看成上述描述中的样本,取最小风险值作为词归入到某类的风险,用它作归类时的权重属性。
4 结 论
现在普通使用贝叶斯算法和关键词词库作为过滤依据,词库的创建与更新主要是手动进行,不法分子一旦掌握词库便可以采取不同的反过滤手段,所以过滤系统的适应性差。大多数据过滤系统都用降维方法减少数据量,选取能够提供最多信息的词作为文本向量的分量,但是提供信息少的词更具有类区别能力,为使分析准确率提高,因此不将词集降维,而将降维分析的结果用作词的权值。本研究将贝叶斯分类思想与降维方法相合,提取词的特征属性,以保证分析结果的可信度。
[1]张伟,王子轩.GSM 垃圾短信过滤方案.电信快报:网络与通信,2009.(3):26-28
[2]胡日勒,蔡洁,钟义信.短信过滤系统设计分析.计算机应用研究,2009.25(3):2557-2560.
[3]钟延辉,傅彦,陈安龙,关娜.基于抽样的垃圾短信过滤方法.计算机应用研究.2009.26(3):933-935
[4]李辉,张琦,卢湖川.基于内容的垃圾短信过滤.计算机工程,2008.34(6):154-156