校园网络舆情监控系统研究
2015-07-17潘怡谢珍刘志龙
潘怡++谢珍++刘志龙
摘 要:大学生作为网络媒体的主要参与者,在网络舆情的产生中扮演着重要的角色,为了能及时掌握学生的思想动态,积极引导校园舆情,打造和谐健康的校园网络社区舆情环境,创建文明校园,高校建立完善的舆情监控系统是十分必要的。本文基于QS单模式匹配算法和SunWu算法,运用关键字匹配技术,通过对校内各门户网站内容的检测实验,我们能够发现舆情敏感词并进行预警,从而实现对各门户网站的实时监控,为校园网络舆情监控系统的开发提供了合理依据。
关键词:网络舆情;QS单模式匹配算法;SunWu算法;敏感词
中图分类号:G642 文献标识码:B 文章编号:1002-7661(2015)06-003-01
一、引言
随着互联网的兴起,信息的迅速传播,人们的生活方式、人际交往以及思维方式也随之改变。在高校,校园网络作为学生日常学习生活的重要平台,重要性毋庸置疑。学校主页、校内各学院、各部门主页,学校BBS,甚至各个学院BBS,班级网站都是高校学生经常访问的平台。类似于这种公共广场,是大学生自由发表评论、表达意见的网络空间,校园内外的一些重大事件和突发事件通常会以最新最快的速度在这种媒介场所内出现,引发大学生的广泛关注,形成大量的讨论。随着意见的扩散和讨论的深入,讨论的主题往往会逐渐趋向特定的焦点,形成具有一定规模的较为明确的网络舆情。而出于学生思想的积极引导以及校园安全工作的管理,对校园舆情进行有效的监控,是各高校所能采取的合适手段之关键。
关键字匹配算法主要是串匹配。串匹配是利用一个符号序列查找出一个或多个特定符号序列的过程。利用串匹配能在正文文本中寻找所有关键字集合中的关键字,并报告关键字出现的位置。依据在匹配过程中所要匹配的模式串个数,串匹配算法可分为单模式串和多模式串。串匹配技术的发展是与其应用密切相关的。随着计算机信息技术的发展,其应用领域除了早期的文本编辑、全文检索系统、查询系统等,现今已广泛应用到了网络入侵检测系统(NetworkIntrusion Detection System)、内容过滤、生物科学计算以及新闻主题提取等。利用串匹配技术,我和团队自主开发了校园网络舆情监控系统,并通过模拟数据,验证了串匹配技术在舆情监控系统中应用的正确性。
二、算法介绍
QS(Quick Search)算法是利用不良字符跳转表和文本串中未出现在模式串里的字符来匹配紧邻当前匹配窗口的下一个字符,能有效的加快匹配速度。在实际应用中,QS适用于大字符集、模式串较短时的情况。QS算法的空间复杂度为O(σ),其预处理阶段的时间复杂度为O(m+σ),最好情况下QS算法的时间复杂度可以达到O(n/(m+1))。
SunWu算法是基于单模式的BM算法设计出的一种多模式匹配算法。与其它算法不同,SunWu算法使用“块字符”(Block Character)作为基本单位,将其作为进一步匹配的入口和进行跳转的依据。SunWu算法使用长度为B的字符串代替坏字符串,进行最大限度的跳跃,并且使用散列技术和前缀表来减少需要进行实际匹配的次数。此外,SunWu算法不受大小字符集环境的影响,在中文情况下能够表现出比较好的性能,符合中文字
三、结果分析与展示
QS算法和SunWu算法是典型的关键字匹配技术的算法,二者有各自的优点,但也存在着明显的不足。因此,在自主开发的舆情监控系统中,我们将二者相结合运用,通过测试数据分析可知,QS算法和SunWu算法结合使用能大大提高系统的性能和效率。如图3.1所示,在其他条件相同的情况下,模式串的最小长度m=2,模式串数量由500增加到5000时,各算法扫描时间的变化。从表中可以看出,随着模式串数量的增加,各算法的运行时间都有相应增大,QS的运行时间一直低于SunWu算法。当模式串数量小于3000时,QS的运行时间少于SunWu的运行时间。当模式串数量大于3000时,QS的运行时间多于SunWu的运行时间。而二者的结合使用所需的运行时间则处于中间水平。加之,表3.2所示,模式串数量为100,模式串最短长度从2到8时,各种算法在reuters21578语料上消耗的时间。由表可看出,二者结合使用所花的扫描时间始终明显低于其它两种算法。当m=2时,二者结合使用所花的扫描时间低于SunWu算法的1/6,m=8时,二者结合使用所花的扫描时间低于SunWu算法的1/2。随着m的增大,二者结合使用的算法所花的扫描时间呈减少趋势,且差距亦呈减少趋势。
四、总结
本文将单模式串匹配的QS算法和SunWu算法结合使用,取长补短,并将其运用到自主开发的校园网络舆情监控系统中,通过对模拟数据的分析,也验证了QS算法和SunWu算法结合能极大的提高系统性能。这为校园舆情监控系统提供了技术支持,也为校园安全工作管理奠定了基础。