APP下载

基于OCR的图像型垃圾邮件过滤系统研究

2013-09-04

机械工程与自动化 2013年6期
关键词:垃圾邮件邮件算子

秦 伟

(长治职业技术学院,山西 长治 046000)

0 引言

随着互联网的迅速发展,电子邮件以其方便快捷、低成本等优点得到了迅速而广泛的应用,并成为人们日常交流沟通的主要工具之一。与此同时,大量的垃圾邮件的涌现,尤其是近年发展起来的图像型垃圾邮件,不仅给垃圾邮件过滤软件带来了极大的挑战,还给大多数用户和公司带来了不可想象的各种损失。因此,图像型垃圾邮件的过滤显得尤为重要。

1 图像型垃圾邮件过滤策略

目前大多数学者针对图像型垃圾邮件的特点所使用的过滤方法有黑白名单过滤算法、贝叶斯过滤算法、决策树算法和支持向量机(SVM)分类算法。在传统的垃圾邮件检测过滤技术的基础上,对于图像型邮件过滤步骤是:先经过黑白名单过滤算法过滤,然后使用OCR技术(光学字符识别,Optical Character Recognition)提取出图像型邮件中的文本,最后使用支持向量机(SVM)分类算法对邮件进行分类,判断出邮件的类型。

光学字符识别(OCR)技术,通过模式识别的方法将包含有文字的图像文件转化成可以编辑的文本文件。OCR软件对二值化文档图像中文字的提取效果非常理想,但这种效果也仅仅局限于二值化的图像。使用OCR软件提取图像邮件中图像的文字信息,首要任务就是对图像进行处理,检测出图像中的文本区域,然后对其进行二值化。邮件图像文本检测和识别系统整体结构见图1。

2 图像型邮件图像文本检测

对图像型邮件中图像文本进行检测,即对出现在图像中的文字信息进行文本区域定位。首先要对图像进行初级处理,即图像边缘集提取;其次是对图像中可能含有文字信息的文本区域进行融合;最后,对候选文本区域进行验证。

图1 邮件图像文本检测和识别系统整体结构

2.1 图像边缘集提取

2.1.1 求图像边缘

在大量的图像边缘检测算法中,John F.Canny在1986年提出的Canny算子以最优化算法为基础,是迄今为止最有效、应用最为广泛的图像边缘提取算法[1]。本文将采用Canny算子检测邮件图像的垂直和水平方向的边缘。

Canny算子的算法具体步骤如下:用高斯滤波平滑图像,以减少甚至去除图像中的噪声;用一阶微分偏导数有限差分计算图像中每个像素点的梯度值和方向;对图像的梯度幅值进行非极大值抑制;采用双阈值算法来检测并连接边缘,尽量减少伪边缘段的数量。2.1.2 图像边缘细化

通过Canny算子检测之后,我们得到了目标区域的边缘图像,但得到的图像还很粗糙。由于采用Safe point thinning algorithm(SPTA)细化算法[2]对图像进行处理后,得到的图像非常圆润,几乎不会出现图像纹理断裂现象;且该算法的时间复杂度较低,是公认的处理效果非常好的细化算法,因此,采用SPTA边缘细化算法来对经Canny算子处理后的图像进行边缘细化。

SPTA算法一般使用窗口模式,通过对平滑处理之后图像的所有像素进行扫描,并以一定的规则对像素点的邻域进行计算,然后在横向和纵向两个方向上同时检测判断安全点和可能要被删除的像素点,进行图像的细化。

2.2 候选文本区域融合

通过Canny算子[3]对邮件图像进行边缘提取,并用SPTA算法进行边缘细化,得到的图像边缘具有较好的连通性,而且边缘细腻清晰。然而,图像中还存在一些与图像文本类似的具有一定规则的背景物体,在图像边缘集的提取过程中保存了下来。因此,为了更好地提取邮件图像中的关键文字,接下来主要是去除这些具有干扰性的背景区域,即非文本区域。

对图像中非文本区域的去除方法是:首先,将图像区域按颜色视觉特征进行聚类;然后,将那些分布特征较为近似的区域使用小波变换进行图像的分解,以简化后续图像的处理工作;最后,构造出区域能量图像,并通过文字方向上的投影断层检测算法来构建出文字块。

2.3 候选文本区域融合验证

经过图像候选文本区域融合之后,明确了文字的方向,并去除了图像中文字的重叠部分,接下来就是将候选文本区域中的非文本区域与文本区域进行分离。在此,使用支持向量机SVM分类方法[4]来对相应的特征进行分类,以便得到图像中的文本区域。

3 图像型邮件图像文本识别

经过检测算法的处理,筛选出了图像中的文本区域。但是,要使用OCR软件提取出图像中的文字,还需要将图像进行二值化处理。

在对图像进行二值化处理的过程中[5],由于背景图像的影响,很容易引入大量的噪声。因此,为了提高文本的识别率,对二值化得到的图像进行去噪处理是图像识别的另一个重要任务。在众多的图像去噪处理方法中,使用目前盛行的基于小波的方法进行去噪,因为它能很好地保持原始图像中的纹理细节特征,不破坏边缘轮廓。在图像文本的识别过程中,将文字的笔画特征图和图像文本颜色层两种算法相结合,实现组合式过滤模式,可得到质量较高的二值化图像。

4 结束语

通过成熟的OCR技术识别提取出二值化图像中的文本,从而实现图像型垃圾邮件的过滤,效果比较理想。加强对其他邮件过滤技术的学习研究,融合各种技术实现邮件过滤系统是未来的趋势。

[1] 刘伟,张凤荔,程红蓉,等.改进ReliefF算法在图像型垃圾邮件检测中的应用研究[J].计算机应用研究,2009,26(9):3256-3258.

[2] Lin Jia-zhen,Cao Jiu-xin,Cheng Jie.New approach for spam sample collection[J].Journal of Southeast University:Natural Science Edition,2008,38(2):244-248.

[3] Anayat S,Ahmad H F.Using aprobable weight based Bayesian approach for spam filtering[G]//Proceedings of INMIC 2004 8th International Multitopic Conference.[s.l]:[s.n],2004:340-345.

[4] 张长君.邮件服务器中基于地址的一种电子邮件过滤方法[J].大连大学学报,2002,23(2):13-15.

[5] 耿技,万明成,程红蓉,等.基于文本区域特征的图像型垃圾邮件过滤算法[J].计算机应用,2008,28(8):1904-1906.

猜你喜欢

垃圾邮件邮件算子
基于James的院内邮件管理系统的实现
从“scientist(科学家)”到“spam(垃圾邮件)”,英语单词的起源出人意料地有趣 精读
拟微分算子在Hp(ω)上的有界性
一种基于SMOTE和随机森林的垃圾邮件检测算法
来自朋友的邮件
各向异性次Laplace算子和拟p-次Laplace算子的Picone恒等式及其应用
一类Markov模算子半群与相应的算子值Dirichlet型刻画
CMailServer
一封邮件引发的梅赛德斯反弹
Roper-Suffridge延拓算子与Loewner链