APP下载

基于搜索引擎的校园网站信息监控系统的设计与实现

2011-10-18樊建永刘宏杰田素云

中国教育信息化 2011年8期
关键词:分词网页监控

樊建永,刘宏杰,田素云

(陕西师范大学 计算机科学学院,陕西 西安 710062)

基于搜索引擎的校园网站信息监控系统的设计与实现

樊建永,刘宏杰,田素云

(陕西师范大学 计算机科学学院,陕西 西安 710062)

互联网的发展为知识与信息的传播提供了前所未有的便利,但同时也为不良信息的传播提供了条件。高校作为互联网应用与研究的前沿阵地,信息安全尤为重要。为了防止校园网上非法信息的传播,实现对网上信息内容的主动监管,保护网络信息的安全,本文设计并实现了基于搜索引擎的网站内容监控系统,它主动地扫描校园网网站,获取网站内容信息,利用关键词匹配技术及时发现包含敏感词的网站,并将结果及时提供给网络管理员。通过使用本系统有效地防止了非法信息在校园网中的传播,实现了对校园网站的主动监控与管理。

信息安全;内容监控;校园网络;分词处理;搜索引擎

一、高校信息安全的现状

随着高校信息化建设的快速发展,校园网络已遍及学校的各个部门,一方面校园网站的数量迅速增长,精品课程等网站越来越多,网络已成为师生工作、学习、生活不可缺少的一部分;另一方面学校通过校园网站发布教学安排、学生管理、科研动态诸多方面的信息,学校的各项工作都与其形成密切的关系。然而网站信息安全管理却不容乐观,信息安全形势日趋严峻,由于网站大多是分散式的管理,网站管理人员安全防范意识不强,给计算机病毒和网络黑客以可乘之机,有的部门主页多次受到黑客的攻击,网页上的数据被更改,扰乱了学校正常的工作秩序。学校的电子留言板、公告板方便了师生交流,但同时也为非法言论等信息提供了交流的场所,一些不法分子利用网络传播小道消息,向高校散布有害信息,扰乱校园秩序。有的学生因在平时的学习、生活中受到一些委屈,就随意在网站中发表一些十分偏激的言辞,或对学校老师进行人身攻击,损坏了学校形象,因此网站信息安全监控成为亟待解决的问题。

目前由于缺乏成熟的、针对特定网络应用下的信息内容监控系统,对网站内容的检查都是通过人工来完成的。但是这种方法不能做到实时地监控,并且效率低下,无法适应网络发展的需要。人们迫切需要计算机辅助来进行网络内容的自动监控。

二、校园网络信息内容监控的现状与分析

目前对网络信息内容的监控主要是使用网络安全审计系统,通常部署在校园网络出口,通过对网络出口链路数据的镜像或者分光后从旁路接入审计系统,实时捕获网络数据包,还原并分析数据包的内容,可以实现对敏感关键字、非法URL的监控与过滤。这一类型的监控系统可以及时发现包含有非法词汇的网站,及时屏蔽包含该词汇的网页,使用户免受非法词汇的影响。但这种监控的缺点是它是一种被动的监控模式,只有通过出口访问的内容中包含敏感词汇才能被监控到,并且无法得到非法内容的来源,不能对整体的网络和特定网站中的网页信息进行监控。

基于这种现状,笔者设计实现了一个基于搜索引擎的网站内容监控系统。它主动扫描整个网站,获得网站的网页内容,并对内容进行预处理分析,利用关键词匹配技术对结果进行匹配,及时发现网站中包含的非法词汇,并将结果提供给管理员,方便管理员对网络内容进行监控,还可以与报警系统相关联实现邮件或者短信息报警,使网络管理员在第一时间采取相应的处理措施,及时阻止这些内容的传播。从而实现对网站信息主动、实时的监控。

三、本系统的设计与实现

网站内容监控的过程其实就是对校园网站内容进行搜索、分析、比较的过程。首先要获取被监控网站的网页作为数据源,然后对网页数据内容进行分析预处理,为搜集到的网页建立索引数据库和分词库信息。通过与用户设定的敏感关键字或URL链接信息进行对比匹配,从分词库中查找到包含敏感关键词的网页URL,再通过网页索引在网页信息数据库中查找并返回整个网页的全部内容。通过以上分析与研究,网站信息监控系统主要由以下五个功能模块组成:网站内容采集模块、网页分析预处理模块、自动分词模块、查询匹配模块、结果反馈模块。为了提高搜索运行的效率本系统使用C++多线程设计完成。处理流程如图1所示。

1.网站内容采集模块

采集模块主要完成获取网页内容、分析链接、存储网页信息的功能。采集模块的核心是网页抓取程序,网页抓取的过程是从URL库 (初始为用户指定的URL集合)获得输入,解析URL中标明的Web服务器地址、与服务器建立连接、构造请求消息体并发送给服务器、获取服务器返回的网页信息,最后将获得的网页数据存储在网页信息数据库。我们使用网页抓取程序自动对指定IP范围内的网站进行遍历,主动发现网站信息。网页抓取程序将沿着网页上的链接按照深度优先算法进行网页搜集,然后从本网页中解析出所包含的的URL链接信息,看是否已经被访问过,将未访问的URL加入到URL列表中供网页抓取程序继续搜索,并从URL列表中移除已访问过的URL,最后将URL、IP地址、采集时间、数据长度信息保存到数据库建立网页信息数据库,采集模块结构如图2所示。

2.网页分析预处理模块

网页分析预处理模块主要是为采集模块产生的网页信息数据库建立索引信息,并生成索引网页库。通过使用索引网页库我们就可以在网页信息数据库中快速定位到给定URL所指向的记录。如果不对网页信息数据库建立索引信息,也可以通过顺序查找的方法完成URL到指定记录的过程,但是会消耗大量的I/O,数据量增大的时候不能够满足快速响应的要求,因此网页预处理的第一步就是为原始网页建立索引,实现图1中的索引网页库,从而就能随机存取其所指向的网页,实现快速查询与匹配。我们对URL采用MD5算法生成URL摘要,产生16个字节的唯一标识,然后对URL唯一标识信息进行排序,生成一个有序的URL索引数据库。在查询匹配模块中可以使用二分查找算法在网页索引库中快速查找到相应的网页文档编号,然后再通过文档编号在网页信息数据库中查找到对应的网页。

3.自动分词模块

如果直接在网页数据库中查找与我们所设置的关键字或者文本信息相匹配的网站,查询效率将无法满足我们快速搜索的需要。为了提高关键字与网页数据库中的内容匹配速度,我们需要把整个网页的文本内容字串分隔成词串,将整句切割成小的词汇单元,即分词处理。然后再为分词库建立索引,来提高查询的效率。所以分词是对中文文本进行快速查询匹配的前提。

在本系统中我们采用基于字符串匹配的分词方法,这种方法又称为机械分词方法,使用一部基本的分词词典(常用词词典)进行串匹配分词,它按照一定的策略将待分析的字符串与已设定好的词典中的词条进行匹配,若在词典中找到某个字符串,则匹配成功。在使用逐词匹配算法的同时,我们还使用统计的方法来识别一些新的词,同时将这些新词添加到分词词典中。我们把串匹配和串频统计结合起来,既发挥匹配分词切分速度快、效率高的特点,又利用了统计分词结合上下文识别生词、自动消除歧义的优点。具体的流程为先取网页信息数据库中的HTML源代码,对源代码进行过滤,提取文本内容,然后调用分词程序,对文本内容进行分词处理。将得到的每个词串连同它所在的URL、文件名、浏览量作为一条记录,保存到分词库里,供查询匹配模块使用。

4.查询与匹配模块

该模块主要实现了按照用户设置的关键字在网页信息数据库中查询包含敏感词记录的功能。首先将用户设置的关键词提交给查询代理,查询代理检索分词模块生成的分词索引表和索引网页数据库,并通过多表连接在网页信息数据库中查询返回具体的网页源代码信息,将返回信息提供给结果反馈模块。

5.结果反馈模块

此模块主要负责把前四个阶段建立好的索引网页库、分词库、网页信息数据库进行处理后将结果呈现给用户,实现基于Web的结果显示功能,包括响应用户的查询检索和记录用户的行为。我们使用ASP.NET 2.0进行网络程序设计,用户可以通过网页形式查看监控的结果,返回的结果包括网站的URL、IP地址、敏感关键字的位置等信息。也可以通过配置电子邮件网关将监控结果以电子邮件形式自动发送给管理员,并且可以按照IP地址、关键字等进行结果的查询和统计,同时将用户查询的内容和查询时间等信息记录到日志文件中。结果反馈模块还可以与专用SMS短信息收发平台互联实现短信息报警功能,使网络管理员在第一时间发现敏感信息并及时做出相应的处理。

四、结束语

本系统结合搜索引擎技术,对网站内容的获取、存储、分析、匹配问题都提出了较好的解决方案,通过对指定IP地址范围内或特定的网站内容进行自动扫描、分词、预处理后与事先设定的关键字进行匹配,及时发现违规信息,对网页篡改、不良信息的传播等可以及时报警,实现了网站内容的自动监控与管理。

此系统模块化设计,灵活可扩展,很容易扩展成一个集文字、图像监控于一身的综合监控系统,而自身体系结构无需大的变动。此系统除了在校园网中使用外也很容易推广到其他行业使用,如网络提供商、各企业事业单位以及需要对网络内容进行监控的单位或部门。此外对系统进行升级还可以实现自动搜索网站,及时发现未备案的网站和私自架设的网站信息等功能。☉

[1]Piotr K Arakis.An early warning and attack identification system[C].Dudapest,Hungary:Proceeding of 16th Annual First Conference,2004:35-41.

[2]陈红松,胡长军.网络内容监控与预警系统的设计与实现[J].计算机工程与设计,2009,30(1).

[3]林海霞,原福永,陈金森等.一种改进的主题网络蜘蛛搜索算法[J].计算机工程与应用,2007,43(10):174-176.

[4]梅龙宝.赵毅校园安全管理信息系统设计与实现[J].中国教育信息化,2007(4).

[5]熊馨,康国磊,胡光武等.基于Web Service的分布式网站内容监控系统设计[J].电脑知识与技术,2009(18).

[6]孙红杰,方滨兴,张宏莉.一种新的大规模网络主动预警方法[J].电信科学,2007(1):74-78.

[7]晋耀红.基于语义的文本过滤系统的设计与实现[J].计算机工程与应用,2003,39(17):22-25.

[8]易青松.基于NDIS的网络监控系统的设计与实现[J].计算机工程与设计,2006,27(15):91-98.

(编辑:金冉)

TP393.18

B

1673-8454(2011)15-0034-03

猜你喜欢

分词网页监控
The Great Barrier Reef shows coral comeback
分词在英语教学中的妙用
基于HTML5与CSS3的网页设计技术研究
结巴分词在词云中的应用
结巴分词在词云中的应用
你被监控了吗?
Zabbix在ATS系统集中监控中的应用
基于CSS的网页导航栏的设计
基于HTML5静态网页设计
基于URL和网页类型的网页信息采集研究