APP下载

垃圾图像特征提取与选择的分析

2016-12-16福州大学物理与信息工程学院代立华

电子世界 2016年22期
关键词:互信息特征选择特征提取

福州大学物理与信息工程学院 代立华

垃圾图像特征提取与选择的分析

福州大学物理与信息工程学院 代立华

随着网络垃圾图像的逐渐增多,垃圾图像的判别问题引起了更多人的关注。而想要完成垃圾图像判别,还要依据图像特征。基于这种情况,本文对垃圾图像特征提取与选择方法进行了分析,以期为关注这一话题的人们提供参考。

垃圾图像;特征提取;选择

0 引言

垃圾图像的广泛传播,导致邮件提供商和用户的利益受到了损害。为对垃圾图像进行过滤,国内外学者都对图像分类问题展开了研究。而在图像分类器设计上,还要利用样本特征对样本之间的相似性进行衡量,以便实现垃圾图像与正常图像的准确识别。因此,相关人员还应加强垃圾图像的特征提取和选择问题的分析,以便更好的实现垃圾图像的判别。

1 垃圾图像及其特征

所谓的垃圾图像其实就是包含垃圾信息的图像,如色情图像、广告图像和宗教图像等,其具有不同于正常图像的特征,如文本特征、批量发送特征、干扰与噪声特征等。通常的情况下,垃圾图像发送者都会利用近似复制的方法生成图像,然后进行批量发送。而发送这些垃圾图像的目的,就是为了确保其中含有的大量文字信息能够躲避过滤器的检测[1]。为使文本信息提取的准确性得到降低,垃圾图像中含有大量认为干扰因素,能够使图像特征检测的有效性遭到降低。而这些垃圾图像多是利用计算机生成的,色彩单调、纹理简单,并伴有人工修改痕迹。此外,垃圾图像多采用压缩比较高的图像格式传送,如.png、.jpg等。

2 垃圾图像的特征提取分析

在对垃圾图像进行判别时,需先完成图像样本中具有较好区分性的特征提取。完成特征提取后,图像则会从原始测量空间转换为特征向量空间,可以利用原始特征向量表示。但是,这些向量通常有较高维度,所以还要进行选择,以便通过减少不相关特征提高分类器性能。就目前来看,用于进行垃圾图像特征提取的方法较为简单,只需要从原始测量数据中完成一些属性抽取,就可获得一组基本特征,如颜色特征、文本特征和边缘特征等。

2.1颜色特征的提取

由于颜色是重要图像视觉属性,所以颜色特征目前广泛应用在垃圾图像识别上。在颜色特征提取上,可以采取颜色直方图、颜色饱和度和颜色矩等。利用颜色直方图,需要先完成图像颜色量化,然后对各颜色值出现次数进行统计,以获得特征向量。利用该直方图可以完成图像中颜色全局分布的简单描述,以了解不同色彩在图像所占比例,从而完成难以自动分割的图像特征描述。但是,使用该方法难以进行图像具体区域的描述。提取图像颜色饱和度特征,需要对图像像素中大于某个阈值的像素比例进行计算[2]。对图像颜色矩特征进行提取,则要将图像颜色空间转换为HSV色彩空间,然后计算各色彩通道一阶和二阶中心距。而颜色特征提取具有较强鲁棒性和较高计算效率,能满足过滤系统实时性处理要求,但是难以进行颜色特征相似的图像判别。

2.2文本特征的提取

不同于正常图像,垃圾图像中通常有较多文字,所以可以通过提取文本特征进行图像区分。为此,还要先使用Canny边缘检测算子等文本区域提取算法完成文本区域提取,然后通过实现文本区域分割和文本区域定位实现文本特征提取。而可以提取的文本特征有较多,首先,图文混排图像背景通常较为复杂,垃圾图像背景则相对简单,所以可以通过提取文本区域数量进行图像区分。其次,垃圾图像的文本区域面积通常较大,因此能够通过计算文本区域面积与图像面积比值实现图像区分。再者,采用不同间距或字体大小进行相同数量文字的排版,获得的文本区域面积与文本区域数量不同。而根据文字宽高比固定的特点,则可以通过提取文本区域宽高比对图像嵌入文字的数量进行客观反映。此外,垃圾图像中通常有较多噪声干扰,所以可以通过提取文本区域外围噪声进行图像判别。

2.3边缘特征的提取

完成图像边缘特征的提取,能够使图像中目标的形状得到较好的反映。而垃圾图像中包含大量文字,边缘信息较为丰富。所以在进行垃圾图像特征提取时,可以对图像中灰度发生急剧变化的区域边界进行提取。一方面,可以使用边缘方向直方图对图像边缘点方向进行统计,以实现边缘信息提取[3]。另一方面,也可以利用Sobel边缘检测算子对图像边缘进行提取,然后利用边缘角度自相关图特征进行图像识别。

3 垃圾图像的特征选择分析

垃圾图像特征选择的关键,就在于需要完成效率较高的特征子集搜索算法和合适的特征子集评价准则的选取。就目前来看,可以采用的评价策略包含互信息、均值、标准差和相似度等。

3.1互信息特征的选择

选择互信息,能够用于进行目标属性和评价特征间的紧密程度的评价。通过对图像标签和每个特征的互信息进行计算,然后将得分由高到低排列,就能完成得分最高的24个互信息特征的选择。采取该种特征选择方式,会因特征之间关系复杂而出现错误选择,所以较难获得最优特征组。此外,采取该种特征选择方式将花费较多的特征提取时间,因此通常需要使用基于互信息的时间敏感特征选择算法,以便使特征提取时间代价与特征提取有效性之间的权重得到调节。

3.2均值和标准差特征的选择

在对概率统计中的统计分布程度进行测量时,可使用标准差作为特征分析的主要依据。通过计算样本标准差,则能使样本类内离散程度得到反映。而计算样本均值,则能够使样本类间离散程度得到反映[4]。因此,标准差越大,类间就越好区分。

3.3相似度特征的选择

目前在垃圾图像识别上,也有学者选择了相似度特征进行分类器的构建。具体来讲,就是通过对图像中的文字进行提取,然后将图像特征选择转换为文本特征,并对边缘特征向量间的相似度进行计算。而将计算结果输入分类器,则能够完成垃圾图像的分类识别。

3.4图像特征分析仿真

如下表1所示,对主要几种垃圾图像特征选择方法和分类器算法进行仿真分析可以发现,采取支持向量机分类算法明显能够更好的完成垃圾图像识别。而在采取的分类算法相同的情况下,选择图像相似度特征更具有优势。

表1 垃圾图像特征分析仿真实验结果

4 结论

通过研究可以发现,在垃圾图像判别方面,特征是图像分类的重要依据,所以还应做好图像特征提取和选择。但就目前来看,使用不同图像特征提取和选择方法进行分类器的构建,获得的分类器的效率和性能距离实用化还有一定差距。因此,还应加强有关问题的研究,以便更好的进行垃圾图像处理。

[1]邓蔚,程红蓉,钱伟中等.基于Kolmogorov复杂性的垃圾图像分类模型[J].计算机应用研究,2011,04:1533-1535.

[2]王寿彪,杨桄,丁文东等.SAR图像目标识别特征提取与选择方法研究进展[J].科技情报开发与经济,2011,26:160-164.

[3]刘艳洋,曹玉东,贾旭.基于内容的图像型垃圾邮件过滤技术研究[J].辽宁工业大学学报(自然科学版),2014,02:86-90+95.

[4]杨仁欣,杨燕,原晶晶.高光谱图像的特征提取与特征选择研究[J].广西师范学院学报(自然科学版),2015,02:39-43.

代立华(1987—),男,大学本科,助理工程师,研究方向:图像处理。

猜你喜欢

互信息特征选择特征提取
基于Gazebo仿真环境的ORB特征提取与比对的研究
基于Daubechies(dbN)的飞行器音频特征提取
基于改进互信息和邻接熵的微博新词发现方法
Bagging RCSP脑电特征提取算法
Kmeans 应用与特征选择
基于互信息的贝叶斯网络结构学习
联合互信息水下目标特征选择算法
基于特征选择聚类方法的稀疏TSK模糊系统
基于增量式互信息的图像快速匹配方法
基于MED和循环域解调的多故障特征提取