基于图像识别的网络敏感信息过滤技术
2019-11-30赵旭
文/赵旭
网络时代信息技术飞速发展,各种各样的信息资源呈指数级增长,文化传播方式、社会经济发展方式不断发生改变。人们获取信息越来越方便的同时有害信息也得到了新的载体与传播方式,敏感信息不利于社会稳定与经济发展,尤其是未成年人健康发展的阻碍不断的引起人们的关注。敏感信息是指带有敏感政治倾向(或反执政党倾向)、暴力倾向、不健康色彩的信息,它就有社会危害性、隐秘性和广泛性的特点。网络信息形式多样,敏感信息可以以文字、图像、声音等各种形式存在和传播,如何有效的识别与过滤这些敏感信息具有非常重要的意义。
为构建一个安全健康的网络环境,就要有效的识别并过滤掉敏感信息。敏感信息识别过滤技术有很多,如网络内容分级、URL过滤技术、文本内容过滤技术、多媒体信息过滤技术等等。传统的信息过滤方案如黑名单,关键词匹配和代理服务器端过滤等,很少采取图像识别分析来实现敏感信息的过滤。
1 工作原理与研究现状
比起文字类的敏感信息,图片类的敏感信息相对更加难以识别与过滤,这也是目前网络敏感信息过滤面临的难题。现有的敏感图像过滤方案大多工作原理类似,主要是通过利用浏览器的缓存机制,充分利用各种浏览器缓存到硬盘中的图像进行比对分析计算,将包含有敏感信息的有害网页地址加入黑名单,由此来实现网络敏感信息的过滤。网络敏感信息过滤技术的核心在于图像过滤算法,如何辨别敏感图像的突出特征并将这些突出特征提取出来是亟待解决的问题。
对于敏感图像,最直观和基本的特征就是大片的裸漏皮肤,因此肤色和图像理特征可以用来鉴别图像是否为敏感图像。文章结合Daubeachies小波、归一化中心矩和色彩直方图生成特征向量,由此来实现敏感特征的提取,对敏感图像与正常图像进行分类。还有许多敏感图像特征信息提取方案通过建立肤色模型来队敏感图像进行甄别。
在很多的敏感信息过滤方案中,会在识别到敏感信息后将该网站加入黑名单,但“不健康”图像依旧会显示并且缓存中会留有痕迹,用户可以脱机浏览,杨金锋等人通过浏览器模块与图像过滤模块的协同工作实现了一种新型的给予内容的图像识别与过滤方法,将实时过滤后的网页显示给用户。2001年中科院计算所的段丽娟等人提出一种基于计算机视觉和模式识别的色情图像过滤方法,通过研究人类视觉对图像的分析机理, 提出综合肤色模型检验、支持向量机(SVM) 分类和最近邻方法校验的多层次图像处理框架。
近年来,对于基于图像识别的敏感信息过滤技术已经得到了很好的发展,更多的敏感信息过滤技术也开始注意信息过滤的实时性,不断有新的处理技术被提出,很多技术得到了实践应用,目前比较得到认可的系统性软件有“火眼金睛”、“网络爸爸”、“美萍反黄专家”、“护花使者”、Image-Filter等。目前各种敏感图像识别与信息过滤方法的检出率与误检率并未达到理想状态,依旧需要进一步的探索与讨论。
2 关键问题
基于图像识别的网络敏感信息过滤技术已经得到大量的研究投入,但存在很多问题依旧很难界定,需要不断的努力,如准确性、时效性、可操作性等,在现实实现中,需要合理的权衡三者的比重以实现高检出率与低误检率。
2.1 一个准确性的问题
通过各类肤色模型或者各种人体姿态几何特征的比对可以识别很大一部分,但是将被检测图像与事先收集的材料,即与典型敏感图像及非敏感图像比较的方案进行敏感图像识别并不能覆盖包含所有的敏感图像,如何创建一个全面的数据库集合值得进一步的研究。
2.2 时效性的问题
现有的网络信息过滤系统处理速度较慢,无法满足网络条件下大规模的图片信息实时处理,这就使得网络信息过滤时效性得到了挑战,既要满足敏感图像识别过滤的准确性,又要实现识别过滤的高效率,这对基于图像识别的网络信息过滤算法的时间复杂度提出了严峻挑战。
2.3 可操作性的问题
很多研究者将一系列的方法串联起来形成逐层过滤的敏感图像识别办法,理论上十分严谨也具有很强的说服性,但是经常涉及太多的技术,同时对硬件要求很高,可实施性并不强。
3 展望与总结
信息时代带来了许多便利,但也带了了许多问题,如何甄别网络信息中的敏感图像实现网络信息过滤是一个非常严肃的问题,为了肃清网络垃圾,基于内容的图像过滤技术适合时机的出现了。网络信息过滤技术在文字类的信息过滤上已经接近成熟,但是在图像类敏感信息识别与过滤上需要不断的提升。
对于图像过滤技术进一步的发展,必须要实现准确性、时效性、可操作性三者的有机结合,图片库、皮肤纹理识别等将会是将来着重研究发展的方向。通过各方面的研究与努力,网络环境会越来越健康,带给人们更加美好的体验。