APP下载

针对网络不良信息的字词过滤系统设计

2016-06-17

关键词:模式匹配

庄 彦 未 培

(安徽工商职业学院电子信息系, 合肥 231131)



针对网络不良信息的字词过滤系统设计

庄 彦未 培

(安徽工商职业学院电子信息系, 合肥 231131)

摘要:复杂网络环境中的不良信息处理技术需要不断更新改进。针对大量不良信息难以及时准确予以过滤净化的问题,重新设计一套字词过滤系统。详细介绍该系统中后台数据库维护、随机数据抽取、信息处理、模式匹配、审核过滤等模块的功能,并给出程序实现流程。

关键词:字词过滤; 不良信息; 模式匹配

互联网上的网页具有媒介、互动及传输的作用,浏览者通过网页进行寻找信息、发布信息、下载文件、购物交流等活动。但在互联网环境中,各种信息良莠并存。一些不良信息乘虚而入,大肆传播,严重污染网络传播环境。净化网络环境、剔除网络中的不良信息成为网络管理的重要任务。

目前,基于网页内容过滤系统主要采用分级过滤、多媒体信息过滤、文本内容过滤等技术。分级过滤主要是指根据相应原则提取待过滤信息的不同级别的特征值,然后根据模式匹配算法或其他算法进行匹配,发现不良信息进行剔除或屏蔽。文本过滤一般采用基于文本信息内容理解的过滤方法,通过信息内容识别、判断与分类等环节确定过滤本体是否需要过滤,再通过相关检测控制技术对不良信息呈现出的特征进行过滤。多媒体信息过滤的主要对象是多媒体信息,包括图形、动画、音频、视频等,通过建立过滤索引库,对多媒体信息物理和内容的判断来提高过滤效率。以上几种信息过滤技术各有利弊。从目前网络环境来看,市场上一些信息过滤软件滞后,不能及时准确地过滤不良信息。于是,我们专门设计了一套字词过滤系统,针对网页不良信息进行过滤,以净化网络环境。

1字词过滤系统设计

本字词过滤系统的设计包括5项主要功能模块。图1所示为各功能模块流程图。当后台数据库中存储有需要过滤的不良信息时,随机数据抽取模块对当前网页信息进行提取,再经信息转换处理,经过模式匹配算法筛出过滤信息,并反馈给管理人员。

图1 各功能模块流程图

1.1后台数据库维护

后台数据库维护是指通过数据库来保存网络上出现的一些不当用语,主要有口头禅、骂人的脏话、敏感词语(如法轮大法等)、色情言语等。这些不良信息需要事先存储在后台数据库中,后台数据库的核心工作就是适时维护和更新不良信息。一般采取以下策略实现后台字词库数据的动态更新:

(1)系统自主维护策略。该策略的优点是数据库中的字词维护主要由系统自动完成,不需要太多人工干预,一定程度上减少了人工维护的劳动量,降低了劳动成本。但系统自主维护策略易存在误判,比如有时将合规的字词添加到后台字词库,从而导致系统将一些非不良信息也过滤掉。

(2)人工维护策略。人工维护策略主要是由系统管理员或专门的工作人员定期对数据库中不文明字词进行更新。该策略的优点是对不良信息判断较为准确、字词更新及时,但依靠人工进行数据库字词维护的工作量较大。

在此采用2种策略相结合的方式,及时有效地实现后台字词数据库的信息维护。

图2后台字词数据库维护流程

1.2随机数据抽取

随机数据抽取模块的功能是在系统中将网页上需要比对的数据信息提取出来,等待审核过滤。在字词过滤系统执行过程中,首先要根据一定的数据抽取策略将数据源中的待过滤信息抽取出来。数据抽取策略有多种,系统管理员可以根据需要灵活确定抽取策略。在网页上进行文本数据信息抽取并不复杂,本系统中展现的主要是捕获网页上表单里的内容,比如客户留言板信息、论坛信息、多媒体播放过程中进行的在线交流互动信息等。这些板块在网页上很常见,也是容易出现不良信息的地方,对这些信息的过滤是净化网络环境的重要工作内容。

1.3信息处理

在对所抽取的文本信息进行匹配过滤之前,应该对信息进行数据转换,将数据转换成便于进行比较的模式,此过程称为信息处理。目前采用的文本处理方法有2种:一是中文信息不经转换而直接匹配过滤;二是将中文信息转换成拼音标识符的形式,再进行匹配过滤。在进行数据转换前系统需保证转换的效率和转换后对比的准确率。我国主要使用中文网站,在对中文信息匹配对比时不需要对文字进行处理。对于需要转换成拼音标识符的形式,可用图3所示流程来处理。

图3 拼音转换法处理流程图

1.4模式匹配

模式匹配模块主要通过模式匹配算法对已经抽取好的信息和字词库里的关键词进行匹配,如果匹配出不良信息则对其进行处理。模式匹配算法是用来描述信息比对的过程和方法,其分类方法有多种:根据匹配精度可分为模糊匹配算法和精确匹配算法;根据单次匹配的模式数量可分为单模式和多模式匹配算法。对于文本信息的匹配过滤采用经典的字符串匹配KMP算法较多,其主要优点是充分利用匹配失败后的信息,尽可能地减少匹配次数,从而实现快速匹配。图4所示为KMP算法匹配示意图。

图4 KMP算法匹配示意图

1.5审核过滤

通过模式匹配模块,判断所抽取的文本信息是否含有不合适的词语。若发现不良信息,随即对包含不良信息的文本进行处理。可以责令发布信息的人员予以修改或者直接采取相关技术进行屏蔽,同时还可以通过相关的程序统计出某些不恰当词语的出现频率,进一步完善字词数据库,提高匹配效率。

2字词过滤系统的实现

字词过滤系统的实现是一项非常复杂的工作,在此仅介绍关键模块。首先是不良信息关键词的存储,在本系统中通过后台数据库对关键词进行存储。图5所示为关键词表的表格结构。

图5 关键词表的表格结构

在关键词表中存储了不良词语的序号、内容和类型(类型主要有不文明用语、敏感词语和色情用语等),以便及时修改、更新关键词表中的信息,保证信息过滤的有效性。系统对网页上的信息进行过滤,对网页上提取的信息内容和关键字词库中的关键词进行匹配。如果匹配成功,则表示文本信息中包含相关的不良词语,遂将其提取出来进一步处理。图6所示为字词过滤流程图。

图6 字词过滤流程图

3结语

净化网络信息环境是一项长期的工作,需要各方面的支持,人文素质的提高和强有力的技术支持都必不可少。本字词过滤系统仅能实现文本信息的过滤,因多种外在因素的限制,也还没有完全达到预期效果。同时,网络上的信息丰富多彩,呈现形式多样,还需要我们作更多的研究。保护网络环境,阻止不良信息对网络环境的侵害,为网络用户营造健康向上的网络环境是网络管理技术人员的责任。

参考文献

[1] 段秀红.探讨信息网络中的信息过滤技术[J].中国职工教育, 2012(14):23.

[2] 杨道勉.基于内容的网络分析与网络过滤技术研究[D].兰州:西北师范大学,2006:26-39.

[3] 石岩.一种新的信息过滤技术模型[J].图书馆学刊, 2007(4):45-47.

[4] 周二虎,张水平,谢必昌.信息过滤技术在智能信息推送系统中的应用[J].软件导刊, 2010(1):24-25.

[5] 杨光.基于信息过滤系统的个性化搜索引擎的设计[J].鞍山师范学院学报,2008(6):54-56.

[6] 未培,庄彦.基于分级特征值的信息摘要过滤算法研究[J].长江大学学报(自然科学版) ,2013(10):24-26.

[7] 林建,张帆.网络不良信息过滤研究[J].情报理论与实践,2007(4):534-538.

[8] 余飞.基于模式匹配算法的考生报到结果预测[J].巢湖学院学报, 2012(3): 48-51.

[9] 杨荣,孟进.深度包检测技术中模式匹配算法分析[J].软件导刊, 2014(9): 45-47.

[10] 杜治波,明均仁.网络信息过滤技术研究[J].现代情报, 2008(6): 82-84.

[11] 庄彦.交通路况播报系统设计及其内容过滤方法研究[D].合肥:合肥工业大学,2013:23-26.

Research on Bad Information Filtering System and Its Designing Method

ZHUANGYanWEIPei

(Department of Electron Information, Anhui Business Vocational College, Hefei 231131, China)

Abstract:Bad information processing technology in complicated network environment needs to be constantly updated. The authors designed a new word filtering system in this paper for timely and accurately filtering a lot of bad information, and introduced the function modules in detail, such as the background database management system, random data extraction, information processing, pattern matching, filtering audit and other functions, and finally demonstrated the program realization process.

Key words:words filtering; bad information; pattern matching

收稿日期:2015-09-15

基金项目:安徽高校自然科学研究重点项目“基于分级特征值算法的重复信息过滤研究”(KJ2015A419);安徽省质量工程卓越人才教育培养计划项目“信息类卓越技能型人才计划” (2015ZJJH067)

作者简介:庄彦(1981 — ),女,安徽淮北人,硕士,讲师,研究方向为数据库技术、系统开发。

中图分类号:TP393

文献标识码:A

文章编号:1673-1980(2016)02-0111-03

猜你喜欢

模式匹配
数据库模式的主动在线匹配方法
基于模式匹配的计算机网络入侵防御系统
具有间隙约束的模式匹配的研究进展
OIP-IOS运作与定价模式匹配的因素、机理、机制问题
数据结构中模式匹配算法的教学方法探讨
基于AC_QS多模式匹配算法的优化研究
多源异构数据整合系统在医疗大数据中的应用
基于XML的农产品溯源平台中模式匹配问题的研究
基于散列函数的模式匹配算法
基于LabVIEW的魔方机器人系统设计