大数据环境下的网络文学舆情控制系统

2016-01-16蔡礼渊

中国市场 2016年2期

关键词：大数据环境网络文学

蔡礼渊

(成都工业学院　信息与计算科学系，四川　成都　611703)

大数据环境下的网络文学舆情控制系统

蔡礼渊

(成都工业学院信息与计算科学系，四川成都611703)

[摘要]文章通过对网络文学现状、舆情控制的必要性；网络文学舆情特征；网络文学舆情监控系统设计三个方面进行探讨，以期人们能够快速、全面地把握信息内容和发展趋势。

[关键词]网络文学;舆情控制;大数据环境

[DOI]10.13939/j.cnki.zgsc.2016.02.206

1网络文学现状，舆情控制的必要性

20 世纪 90 年代中后期,信息时代的来临和网络的普及,互联网、手机、卫星等信息传播工具的出现,极大地丰富了小说的发表和传播渠道,同时也让小说的生产、传播方式发生了很大的变化。特别是对于互联网和手机这样的新媒体,每个人都可以成为小说的生产者和传播者。这时一些别有用心的人利用网络文学传播虚假信息，散布反动言论，欺骗网民、误导舆论。还有一些低级庸俗、淫秽色情、虚假欺诈等舆情信息在网上不断出现，危害网络与信息安全。网络文学舆论对人们意识形态的影响已成为极其重要的因素。

2015 年 7 月 23日，中国互联网络信息中心(CNNIC)在京发布《第 36 次中国互联网络发展状况统计报告》。数据显示，截至2015年6月，我国网民规模达6.68亿，半年共计新增网民1894万人。互联网普及率为48.8%，较2014年年底提升了0.9个百分点。其中将互联网使用于观看网络文学的有28467万户，占总用户数量的42.6%。为了更好地了解舆情关注的热点，让网络文学更好的为民众服务，另外，保护网络文学用户远离舆情信息的侵扰，建设和谐的社会主义国家，政府部门有必要采取有力措施对网络信息进行必要的监控。因此，深入分析研究网络文学舆情监控领域中的信息技术成为一项紧迫而重要的课题。

2网络文学舆情特征

网络文学从一开始就呈现了与传统文学不同的特点。网络文学有以下特点：

文字信息为主。网络文学，与网络新闻、网络视频、网络报纸等不同，网络文学主要以文字为主，几乎没有其他形式的信息表达。传播途径相对固定。网络文学虽然比传统文学传播途径灵活，但是比起其他的网络信息，网络文学的传播相对固定，只有可记录的一些网站和地址可以发布。

3网络文学舆情监控系统设计

根据网络文学舆情监控的特征可设计一个多层次结构的监控体系。可分为数据接入层、信息预处理层、趋势分析层、应用层设计、系统管理。

3.1数据接入层设计

要对网络文学舆情进行监控就要获取网络上的信息，而数据接入层就是完成这项工作的。由于网络文学的性质，文本为主和发布点相对固定决定了数据接入层设计的结构。数据接入层分为采集、传输和储存三个部分。

3.1.1数据的采集

由于网络文学发布点虽然多但是相对固定，所以不需要不间断的到网络各处寻找相关数据。建立网络监控，监控网络节点的发布、更新、修改，一旦发现情况，就对传输程序给以信息。

同时，监控点以外也有可能发布网络文学。可以应用已经成熟的爬虫等算法，对全网、搜索引擎进行概率性搜索。以其结果建立新的监控节点，或提出报警。

3.1.2数据传输

当发现监控节点更新或修改等情况以后，进入数据传输环节。数据传输环节就是将找到的网络文学数据传回服务器。由于这时在网络传输数据有可能遇到网络拥堵、站点暂时无法连接、页面缺失等不同的状况。应对这些情况需要建立循环队列下载、断点续传、设置有效时效等手段来保证下载数据的准确性和有效性。

3.1.3数据存储

当数据采集来了以后就需要将数据进行存储了。

首先要选择存储介质，由于数据量大、难以采集，所以要选择容量大稳定可靠的存储介质。磁盘阵列是个比较好的选择。

其次储存格式，由于几乎所有数据都是文本，所以建立比较简单的储存结构就行了。一般由文件头(Head)和数据(Data)组成。文件头包含网络文学的出处、地址、路径、采集时间等必要信息。数据为网络文学采集下来的原始信息，主要有一个或多个原始网页。

3.2信息预处理

信息采集来了以后就要进行信息处理了。对于一篇是什么意思计算机是不知道的。要让计算机找出那些不合适的文学作品就要教会计算机找到一些敏感的词汇并进行分析和判断。于是信息预处理又分为分词、去噪、加权等操作。

3.2.1分词

当计算机发现“ISIS(The Islamic State of Iraq and Greater Syria)”这个词很容易和恐怖分子联系起来，但是当计算机看见“恐怖分子”时，完全可能理解成“看起来好恐怖，分子真多”，所以如果面对中文信息不采用分词技术，那么会导致信息数据的无法使用。现在比较成熟的分词方法有不少，这里选取基于特征扫描的字符串匹配的分词方法。字符串匹配的分词方法又叫作机械分词方法，它是按照一定的策略将待分析的汉字串与一个“充分大的”机器词典中的词条进行匹配，若在词典中找到某个字符串，则匹配成功(识别出一个词)。这类方法简单、分词效率较高,但汉语语言现象复杂丰富，词典的完备性、规则的一致性等问题使其难以适应开放的大规模文本的分词处理。识别出一个词，根据扫描方向的不同分为正向匹配和逆向匹配。根据不同长度优先匹配的情况，分为最大(最长)匹配和最小(最短)匹配。

3.2.2去噪

网页中的“噪音”是影响基于网页内容的工作的质量的一个重要因素，快速准确的清除网页中的噪音内容是提高这些工作质量的关键技术之一。这里使用了一种网页净化的方法，该方法以一组启发式规则为基础，利用信息检索的技术以及网页的特征，提取网页的主题以及和主题相关的内容，从而达到网页净化的目的。

3.2.3加权

同样的一个词放在不同的环境下，对整篇文章内容的影响是不一样的，对于上面划词确定下来的关键词、敏感词要进行加权才能表现出它的性质。

3.3分析和结论

有了以上的工作以后，我们就可以对数据进行分析并得出结论了。

对数据的分析手段有很多，这里我们采用相似性统计分析的统计学手段对其进行分析。相似性统计分析是在相似性检索的基础上再对检索出来的结果进行的一系列的统计分析操作。相似性检索的算法主要是基于特征词提取和倒排索引技术，具体描述如下：

(1)对资料库中的每篇文档进行自动分词和提取特征词。

(2)对资料库中的文档按特征词建立倒排索引库，建立索引的相关属性，包括词频、位置以及文本长度等。

(3)根据每篇文档中包含特征词的多少、位置、词频、文档的长度等信息来计算库中文档与待检索文档的相关度，相关度超过一定阈值的文档即可作为相关文档处理，并给出相关系数。

4结论

本文论述了大数据环境下的网络文学舆情监控系统的研究与实现。文章首先分析了网络文学舆情监控的必要性，以及目前现状。针对网络文学舆情监控系统的体系结构和主要功能模块进行了设计，为系统各模块的功能、性能及技术实现设计了详细的解决方案。并且，对网络文学舆情监控系统的技术主体技术进行了深入研究。将多种技术有效结合，对复杂的网络文学信息进行多属性、多角度的分析，分别给出直观的分析结果，以便人们能够快速、全面地把握信息内容和发展趋势。

参考文献：

[1]索红光,王玉伟.一种用于文本聚类的改进 k-means 算法[J].山东大学学报：理学版,2008(1):61-64.

[2]唐籍涛.网络舆情监控中新词识别问题的研究[J].计算机技术与发展,2012,22(1).

[3]万小军，等.一种自动分析互联网上热点主题传播过程的方法及系统[P].中国专利：CN101231641A,2008-07-30.

[基金项目]四川省科技厅软科学项目“四川省网络文学产业发展的战略研究”阶段性研究成果(项目编号：2014ZR0173)。

[作者简介]蔡礼渊(1978—)，男，四川成都人，硕士，讲师。研究方向：大数据建模。