基于网页文本获取的高校网络舆情监控
2012-04-29陈洪华张立
陈洪华 张立
摘 要:利用网页文本获取技术,可以建立一种新的网络舆情监控方法。利用该方法,可以很好地实现高校网络舆情信息的采集、存储、分析以及应答处理,以引导学生健康成长。
关键词:文本获取;舆情监控;高校
舆情是“舆论情况”的简称,是指在一定的社会空间内,围绕中介性社会事件的发生、发展和变化,作为主体的民众对作为客体的社会管理者及其政治取向产生和持有的社会政治态度。它是较多群众关于社会中各种现象、问题所表达的信念、态度、意见和情绪等等表现的总和。随着互联网的高速发展,网络媒体作为一种新的信息传播形式,已深入人们的日常生活。在高校里,由于用户的知识层面、对新事物的接受程度以及网络设备的普及率比较高,网友言论活跃已达到前所未有的程度,不论是国内还是国际重大事件,都能马上形成网上舆论。
一、高校网络舆情监控的重要性
负面的网络信息往往比正面的网络信息传播的速度更快、范围更广、影响更大,高校里亦是如此。负面的网络信息散布者往往都会借助网络来更快、更广地表达其错误的观点、传播其错误的思想,并借此产生巨大的社会影响,给当事部门、单位造成巨大的舆论压力。同时,通过网民的相互转载、转发、群聊等,错误的观点、思想往往会被放大、发酵,形成不好的社会影响,乃至影响整个社会的安定生活,使人心惶惶,对整个社会造成重大负面影响。可以这么说,有时网络载体已然成为负面舆情信息的放大器。高校里,由于网友的活跃程度很高,有的大学生甚至有的教职工都会被负面的舆情信息所迷惑并“以讹传讹”,小到影响整个学校的正常教学秩序,大到影响整个地区乃至整个社会的安定团结。正是由于大学生、教职工参与程度极高,高校里的网络舆情监控显得尤为重要。
二、高校网络舆情监控的现状
高校网络舆情信息主要包括学校新闻、通知公告、学生论坛、学生博客、OA办公讨论区以及各留言板等。这些信息往往来源于不同的部门、单位,一般情况下,学校新闻由党委宣传部管理,通知公告由办公室发布,学生论坛、学生博客由学生处监督,OA办公讨论区等由现代教育中心搭建、维护等。由于高校舆情信息来源于不同部门、单位,造成各部门、单位在舆情监管方面“各自为政”,缺乏统一监控,极易造成不良信息的广泛、迅速扩散,进而造成不良社会影响,产生巨大的舆论压力。另外一方面,作为高校决策制定的领导者,想要在某特定时间段内及时掌握本校所有网络舆情信息将变得很难。甚至,个别分管领导还要通过与其他分管领导才能获取相对比较全面的舆情信息。在此情况下,领导者很难及时、准确地应对网络上的突发事件。第三,依照“谁建设、谁监管”原则,各舆情信息发布者都应该对各自所发布的各种信息负有监管职责。可现实情况是,高校里许多单位把网站建设好,把交流平台搭建好后,就陷入“三不管”状态,即“不更新、不维护、不监管”。这时,在防范负面的舆情信息时,做不到“及时关注、时刻警惕”的状态;另外,一旦出现负面的舆情信息时,都找不到源头,出现“扯皮”现象。缺乏统一管理,各家“各自为政”,舆情信息监管不到位、不及时,监管陷入被动,这是目前一些高校所面临的现状。
三、网页文本获取简介
网页文本获取,即通过搜索互联网相关网页,并对网页上的文本内容进行抓取。目前,互联网搜索主要包括“爬行和抓取”“索引”“搜索词处理”以及“排序”四个步骤。即派“蜘蛛”在互联网上发现新网页并抓取文件,然后跟踪该网页文件中的链接,发现更多新网页并获取文件;“蜘蛛”在抓取这些文件后,将其分解、分析,并以巨大表格形式存入数据库。此时,若用户通过搜索引擎进行网页文本搜索,搜索引擎首先对用户搜索词进行判断是否有错别字或拼写错误等处理后,启动查询数据库,返回包含搜索词的页面,并根据排名算法依序呈现。
四、基于网页文本获取的高校网络舆情监控方法介绍
某个高校范围内,能否有个小型系统专门负责网站信息的监管,做到敏感信息“及时关注、时刻警惕”呢?答案是肯定的。本文提出一种基于网页文本获取技术的网络舆情监控方法,可方便、实时地应对高校范围内的网络舆情监控。高校网络舆情信息主要包括学校新闻、通知公告、学生论坛、学生博客、OA办公讨论区以及各留言板等,而包含这些网络舆情信息的网页文本往往部署在高校自己的服务器上。这样,我们就可以直接通过读取服务器上网页文件的方式进行文本判断,而不需通过“蜘蛛”进行爬行获取了。解决了文件获取问题后,文本获取就变得简单多了。但是,可能很多网络舆情信息是写在网站程序的某个数据库中的,服务器上并没有包含该信息的相关html或htm等文件出现。针对这种情况,我们可以对全校所有包含类似于“学校新闻”“通知公告”“学生论坛”等等具有“互动”性质的网站进行梳理,得到其数据库的存储地址并通过读取数据库的形式进行文本获取。一旦确定各数据库的存储地址后,只要不是新增、减少网站或是重新建设网站,我们就可以“一劳永逸”地进行数据库内容的实时监控。在对网页文件或数据库内容进行文本获取时,我们可以设置各种特定的词,通过文本“截取”方式进行过滤,一旦发现网页文件或数据库内容中出现特定的词,即可进行相关预警,并设置显示网页文件位置或数据库名称等。
总结:为维护学校正常的教学、研究秩序,更好地服务师生,促进高校更好、更快地发展,本文针对高校里有可能出现的负面网络舆情信息,提出了基于网页文本获取技术的高校网络舆情监控方法。通过该方法,学校决策制定的领导者,就可以实时掌握第一手资料,做到“未雨绸缪”,即使出现负面网络舆情,也可以及时做到“亡羊补牢”,为阻止或遏制负面信息扩散打下坚实基础,从而为学生营造一个良好的学习环境。
参考文献:
[1]陈洪华,张立.高校网络宣传教育及网站建设管理的几点思考[J].科技信息,2011(34).
[2]徐建华.网络搜索引擎原理、特性分析及未来发展趋势[J].图书情报工作,2000(8).
(1.淮阴工学院党委宣传部,2.淮安信息职业技术学院商学院)