网络舆情监测系统关键技术进展
2022-06-21王辉,刘蕾,沈黄金,田鑫宇,朱大洲
王辉,刘蕾,沈黄金,田鑫宇,朱大洲
摘 要: 在网络舆情监测中,面对大量的网络信息,须借助先进的信息技术来实现网络舆情监测的自动化和智能化。对舆情监测系统中的主题爬虫技术、话题跟踪与检测技术、情感分类技术等关键技术的应用现状进行了梳理,可为舆情监测系统开发应用提供参考。
关键词: 舆情监测; 主题爬虫; 话题跟踪与检测; 情感分类
中图分类号:TP181 文献标识码:A 文章编号:1006-8228(2022)06-49-05
Progress in key technologies of network public opinion monitoring system
Wang Hui1, Liu Lei1, Shen Huangjin1, Tian Xinyu1, Zhu Dazhou1,2
(1. Heilongjiang Bayi Agricultural University, Daqing, Heilongjiang 163316, China;
2. Institute of Food and Nutrition Development, Ministry of Agriculture and Rural Affairs)
Abstract: In the monitoring of network public opinion, facing a large amount of network information, it is necessary to use advanced information technology to realize the automation and intelligence of network public opinion monitoring. The application status of key technologies such as topic crawler technology, topic tracking and detection technology, and sentiment classification technology in the public opinion monitoring system is sorted out, which can provide a reference for the development and application of the public opinion monitoring system.
Key words: public opinion monitoring; topic crawler; topic tracking and detection; sentiment classification
0 引言
随着互联网技术高速发展和广泛应用,网络媒体成为重要的信息传播、交流平台,网络媒体逐渐成为反映民意、民情和情感交流的主要窗口,同时也是现代网络舆情传播的重要载体。网络舆情通常由突发的社会公共事件所触发,反映人们对公共事件的认知、态度、情感和倾向性,其主要通过网络新闻、微博、论坛、贴吧和博客博文等网络媒体传播。
对于这种网络舆情,需要使用专业先进舆情信息收集方法,采用目前先进的互联网搜索技术,对新闻媒体、网站、博客、微博、微信公众号和论坛等平台持续监测,第一时间发现并抓取舆情信息,并对其进行数据分析、判断趋势,发出预警,撰写舆情分析报告,配合有关单位及时做出反应,实现对大众的正确引导和科学处置[1]。
网络舆情监测系统早期为舆情分析软件,其功能十分有限,如今各种智能识别技术以及数据分析挖掘技术迅速发展,舆情监测系统也早已告别了人工检测,筛选,分析与预测的阶段,已经发展成了具备完整功能以及先进算法的网络舆情监测系统,其主要涉及网络信息采集技术、话题检测与跟踪技术、文本情感分析技术等技术[2]。而网络舆情监测系统监测分析效果的好坏,与上述关键技术的研究与应用有着很大的关系,这些技术种类繁多,本文重点介绍网络信息采集技术中的主题爬虫、话题检测,以及跟踪技术中的文本聚类和文本分类算法、情感分析技术中的情感分类。希望本文的综述此举对于网络舆情监测系统的研究与实现有着参考意义。
1 主题爬虫
主题爬虫主要由三个关键模块组成:网页分析模块、链接分析模块、爬行模块。与通用爬虫不同的是,主题爬虫在爬行开始前需要就某个主题对样本网页信息进行学习和训练,建立相应主题相似度模型。在启动爬行后,首先从起始URL开始爬行,按照设定的搜索策略来搜索网页,对于所获取的网页,首先進行网页相关性分析,去除与主题不相关的网页;然后对所提取的 URL进行链接相关性分析,设置该URL的优先级并存入URL队列。当满足停止条件时,爬行过程结束。可见,存入网页文本库中的网页都是与主题相关的网页[3]。
在舆情监测系统中,使用主题爬虫可以爬取某一专业领域的舆情信息,此方面的研究与应用较为广泛。杨国俊[4](2009)提出了一种改进的、用于BBS的精确主题爬虫设计方法,该方法是针对BBS的主题特性,而且不需要对连接内容进行分析评估;陈旭[5](2010)在研究基于社会网络的Web舆情系统的过程中,引入基于多网关出口的分布式主题舆情爬虫,此举能有效解决数据的来源问题;张长利[6](2011)提出基于综合价值具有增量特性的主题爬虫,提高了爬全率、爬准率及爬行效率;黄炜[7]等(2012)通过研究网络舆情的特征和演化机制,在主题选择时引入了时间维和空间维,成功实现了获取网络舆情信息的主题爬虫;任海果[8](2012)在设计基于主题事件的舆情分析系统时,提出基于站内搜索的分布式主题爬虫设计方案,并设计了高效、简易的主题爬虫系统;朱丹[9](2015)提出自适应更改抓取时间的抓取控制方法,定制和优化爬虫URL处理链,并且提出了按照新闻标题计算主题相关度的方法;吴强强[10](2016)在进行基于主题爬虫的食品安全网络舆情分析方法研究与监测系统开发中,建立了一种基于HTML代码解析和文字密度相结合的正文抽取方法和一种降维VSM的多参考因素的相似度计算方法;丁晟春[11](2016)针对南海问题,构建了多语种有关于南海的舆情监测基本本体,并且在这些本体的基础上实现了主题爬虫对舆情信息的采集;王杰[12](2017)针对含有对民航构成安全隐患的恐怖威胁信息,采用主题网络爬虫技术获取相关信息,并应用到民航安保微博舆情监测系统的设计中;为了密切关注“三农”网络舆情,郭志杰[13](2018)等人采用主题爬虫技术实现了舆情数据采集功能,在搜索中只对与三农相关的页面进行选择和访问;翁俊河[14]等(2019)提出构建基于大数据挖掘的网络舆情智能分析系统,系统通过使用主题爬虫技术进行舆情数据采集,并采用文本过滤把相似的数据来进行合并;以建设一套广电舆情监测系统,许扬[15]等(2019)利用主题爬虫来获取信息,从而强化网络绿色生态环境治理;曾德伟[1](2020)研发出基于主题爬虫的网络舆情系统,此系统能采集到有关政府关注的网络舆情,降低了非舆情信息的干扰,从而让政府更好的进行网络舆情管理。
2 话题检测与跟踪技术
话题检测与跟踪(TDT)的研究最初由美国国防高级研究计划署(DARPA)发起,TDT 技术的最初应用主要是新闻出版领域,用于新闻流的话题检测和事件跟踪[16]。后来被扩展到互联网上,用于检测和跟踪把话题词作为中心的互联网新闻热点话题以及流行词,因此成为网络舆情分析中的重要技术。对于话题检测与话题跟踪来说,涉及到的算法分别是文本聚类算法和文本分类算法。
2.1 文本聚类算法
文本聚类是将无类别标记的文本信息根据不同的特征,将有着各自特征的文本进行分类,使用相似度计算将具有相同属性或者相似属性的文本聚类在一起,而且文本聚类技术越来越多的应用于文本话题发现中,文本数据信息通过聚类分析,使得话题发现的精度和效率有了很大的提高。
近年来,文本聚类算法在舆情监测方面的应用颇为广泛。李若鹏[17]等提出全新的 DK 聚类算法并且基于DK算法构建中文文本聚类模型,对互联网媒体发布信息进行热点发现研究;高洪杰[18]等改进了k-means聚类算法,对第n+1轮聚类中心的计算只考虑第n轮中与中心比较接近的若干点,提高了聚类结果的稳定性和准确性;黄美璇[19]提出了一种K-means改进算法,对K-means算法中聚类初始值的选择和孤立点的剔除进行了改进,用于开发网络舆情监控系统中主题发现子模块;吴利华[20]提出了一种基于可信关联规则的话题发现算法与跟踪模型,并将其成功应用到实际的舆情项目中;张奇[21]介绍了粒子群算法及一些成熟的改进方法,并将其应用到了KHM聚类的前期优化上,并用此算法进行聚类,实现微博舆情预警系统中的热点话题功能;张蕾[22]设计出一种基于双阈值的Single-Pass算法,此算法是偏移建立中间状态的规范簇类中心向量来减少对输入顺序的依赖性,并将此应用到基于机器学习的网络舆情采集系统;王旭仁[23]等在基于改进聚类算法的网络舆情分析系统研究中,提出了一种对向量空间模型VSM改进后的文本聚类算法STCC,此算法灵活性好,实用性高,适用于大规模文本聚类;赵阳阳[24]在深入研究聚类算法的基础上,提出改进的Birch聚类算法,并将此算法与MapReduce结合,实现了对网络舆情的并行化聚类;涂慧明[25]通过借用VSM向量空间模型和LDA文档主题生成模型优化了K-means聚类的性能,优化了初始中心的确立方法和文本相似度的计算公式,由此提升了聚类的准确率;李保国[26]提出K-均值聚类改进算法,用隐藏长评论-最大距离法选初始点,解决了初始点多为离群点的问题,用方差拐点确定K值,解决了预先设定聚类个数的问题;戴龙龙[27]在研究基于Storm分布式食品安全网络舆情监测方法中,基于自编码神经网络对Single-Pass进行改进,使得聚类精度得到提高;冯靖[28]在进行基于Hadoop的微博舆情分析时,提出LKC算法,填补了K-means算法相对于选取初始聚类中心点的敏感性;陈艳红[29]等在进行网络舆情相似度分析方法研究中,提出一种基于信息熵和密度改进的K-Means聚类算法,能够进行网络热点和危机事件的聚类和识别;叶瑾玫[30]把密度峰值算法(CFSFDP)与K-means算法相融合,完成了微博文本聚类,应用此算法能更好地挖掘微博舆情热点话题;李丰男[31]在进行基于Spark的网络舆情分析方法研究与应用过程中,提出了Single-Pass-SOM组合聚类模型,结合了Single-Pass聚类算法和SOM神经网络的优点,提高了话题聚类的准确率和召回率。
2.2 文本分类算法
文本分类技术是指在事先定义好的某些主题下,根据文本的属性、含义或内容对其进行主题抽取,将大量的文本数据归类到相应的主题中[32]。在机器学习这一领域,分类是在有标注的预定义类别体系下进行,属于有监督的学习问题[33]。
文本分类在国际上的研究历史由来已久,最早开始于20世纪中叶。进入到20世纪末,随着互联网的兴起,文本分类的需求也随之增加,尤其近年在舆情监测中的应用非常广泛。侯松[34]在面向网络舆情态势分析的文本分类研究中,考虑非平衡数据集下類样本分布情况,提出了特征词自动抽样算法AVGSampling;刘继勇[35]在研究网络舆情预警辅助决策支持系统模型中,有效地改进了KNN分类方法并将此用于话题追踪过程中并加入了时间窗策略;吴娱[36]通过对基于朴素贝叶斯的网页文本分类技术进行研究,提出了一种基于粗糙集改进的朴素贝叶斯分类方法,并将该方法运用到舆情分析系统的舆情分类中;张长利[6]在研究面向特定领域的互联网舆情分析技术时,提出了基于无监督聚类的PU文本分类方法,并对已有的PU文本分类算法进行了改进,提高了PU文本分类的准确率;万源[37]通过基于语义统计分析的网络舆情挖掘技术研究,提出了基于类别相关度的局部潜在语义分析的算法LR-LSA并应用于文本分类;姜祖新[38]在研究应用于Web的粮食舆情分析关键技术时,深入研究支持向量机模型参数的选择问题,把蚁群算法和支持向量机算法结合起来,得到了ACO-SVM算法;翟琳琳[39]将改进的简单向量距离算法(Rocchio)和改进的K最近邻居分类算法(KNN)相结合形成新算法,利用该算法对短文本实现分类并应用到舆情监测系统中;李艾林[40]在针对Web舆情分析中藏文的文本分类算法研究中,结合了藏文的词性特点,把朴素贝叶斯算法与支持向量机算法融合起来,形成集成学习分类算法;李慧[41]提出Miniter-means算法,用已聚类的簇生成新聚类簇质心的新方法进行计算并在面向商业舆情的网络智能分析系统上应用;张红军[42]针对互联网舆情分析的迫切需求,提出了一种新的文本分类模型——Featured Possibility(FP)分类模型;冷冰[43]应用Markov逻辑网,提出了把马尔科夫逻辑网作为基础从多源域迁移共性知识达到辅助目标域本文分类的方法;杜昌顺[44]在研究细分领域中舆情情感分析关键技术时,把循环神经网络作为基础,然后引入注意力机制,能够将分类器达到较好的分类效果;张潘頔[45]采用基于CLSTM模型的文本分类方法,将卷积神经网络与长短时记忆网络结合起来,克服了先前文本分类方法中存在无法判断舆情文本主题标签相关性的缺点,解决了文本多义问题。
3 文本情感分类
文本情感分类是依照文本的内容所体现出用户意见的情感极性,把含有相同特定情感倾向的文本归结成为同类[46]。在舆情监测系统中,情感分类必不可少,通过情感的分类判断舆情的褒贬,能够掌握舆情发展的态势。
巨慧慧[47]对网络舆情中的文本倾向性分析技术做了深入研究,根据网络舆情语料特性,选取了文本情感倾向性机器学习中的三种模型方法,经过实验数据对比分析,得到针对网络舆情最优的分析方法-支持向量机方法;张长利[6]对中文文本进行褒、贬情感倾向性分析,提出了三种情感倾向性分析算法:基于规则及情感词提取评价四元组的评价挖掘算法和基于unigram+评价短语特征的机器学习评价挖掘算法,基于字符串核函数的评价挖掘算法,基于规则及聚合模型的句子级到篇章级的中文评价挖掘算法;王铁套[48]提出把语义模式与计算词汇情感倾向性结合起来,由此推断出文本的情感倾向性,此法既考虑词汇情感倾向性,又权衡了语义模式对评论的情感倾向值的影响,可以较为全面分析突发网络舆情的趋势;万源[37]在研究基于语义统计分析的网络舆情挖掘技术时,提出把情感模式和机器学习结合的方法PMML,并将此方法应用在Web评论文本的情感倾向性分类上;高雄[49]在实现基于论坛的舆情分析系统过程中,提出了基于HowNet和依存句法分析的情感倾向处理技术;杨志国[50]在进行基于WEB挖掘和文本分析的动态网络舆情预警研究中,提出把模式匹配与基于属性权重的朴素贝叶斯分类器相结合的情感倾向性分析方法,此法对情感分类的效率有着显著提高;张俊勇[51]完善了计算情感倾向性定量的方法,而不仅仅是定性的分析,可以让情感倾向分析更加准确,此举对于舆情分析方面有着重大意义;王炜[52]在研究针对网络舆情信息的文本语义倾向性分类算法时,应用了基于隐含马尔科夫模型的舆情倾向性分析算法;王林[53]在研究舆情监控方面的情感分析算法时,提出了一种优化Hownet判别方法,搭建阈值确定的新框架,并借助义源信息量衍生义项这一方法来动态更新情感词库;李天柱[54]在实现高校网络舆情分析系统时,在传统的规则和字典方法上,使用Word2vce来扩建情感词典,弥补了情感基础词典在处理新词上困难的缺陷,使得情感分析精度更加提升;李坚[55]进行核舆情情感分析及预警方法研究时,通过RAE模型传递文本特征特性,然后再与Dropout相结合来提高模型泛化性的优势,提出由此改进后的算法,能提高情感分析模型的泛化能力;李亚军[56]在进行基于深度学习的食品安全网络舆情分析时,综合利用LSTM和CNN深度学习技术,提出了网络舆情情感倾向性分类算法 C-LSTM;刘纯嘉[57]在面向高校舆情的中文文本情感倾向性分析时,提出融合汉字形态学特征和HowNet的文本情感分类方法和种基于注意力胶囊网络的文本情感分析方法;岳亚南[58]在研究面向舆情文本的情感倾向性分类时,针对现有深度学习方法词性信息利用不充分问题,提出了一种融合词性和自注意力机制的情感倾向性分类模型。
4 结束语
综上所述,随着现代网络科技的飞速发展,爬虫、话题跟踪与检测、情感分析等技术从各个方面得到了迅猛发展,其中包含的各种算法也克服以前的不足,逐渐完善,性能显著提升。在现有的舆情监测系统中,网络信息爬取技术、话题追踪/检测技术、情感分类技术的应用与研究相对较为广泛且深入,但预测和预警功能研究以及相关应用偏少。在下一阶段需要对此进行逐步深入的研究,应用到网络舆情监测系统中,从而提升网络舆情监测系统的性能。
参考文献(References):
[1] 曾德伟.基于主题爬虫的网络舆情系统研究和实现[D].重庆理工大学,2020
[2] 张军玲.我国网络舆情信息挖掘研究综述[J].情报科学,2016,34(11):167-72
[3] 王桂梅.主题网络爬虫关键技术研究[D],哈尔滨工业大学,2009
[4] 杨国俊.基于BBS的舆情预测算法及应用研究 [D].合肥工业大学,2010
[5] 陈旭.基于社会网络的Web舆情系统的研究与实现[D].电子科技大学,2010
[6] 张长利.面向特定领域的互联网舆情分析技术研究[D].吉林大学,2011
[7] 黄炜,金雅博,胡昌龙.网络舆情主题信息采集研究[J].现代图书情报技术,2012(11):65-71
[8] 任海果.基于主题事件的舆情分析系统的设计与实现[D].北京邮电大学,2012
[9] 朱丹.面向食品安全新闻舆情的主题爬虫的设计与实现[D].中山大学,2015
[10] 吴强强.基于主题爬虫的食品安全网络舆情分析方法研究与监测系统开发 [D]; 北京化工大学, 2016.
[11] 丁晟春,龔思兰,周文杰,等.基于知识库和主题爬虫的南海舆情实时监测研究[J].情报杂志,2016,35(5):32-7
[12] 王杰.基于微博大数据的舆情监测系统的设计与实现[D].中国民航大学,2017
[13] 郭志杰,周世平,顾惊璞,等.基于主题爬虫技术的三农舆情监测管理平台开发与应用[J].农业工程技术,2018,38(15):29-34
[14] 翁俊河,李湘丽,林燕斌,等.基于大数据挖掘的网络舆情智能分析系统关键技术研究[J].通讯世界,2019,26(9):116-8
[15] 许扬,田志广,李帅.涉广电舆情监测系统方案设计[C].proceedings of the第18届全国互联网与音视频广播发展研讨会暨第27届中国数字广播电视与网络发展年会,中国浙江嘉兴,2019
[16] 陆前.英、汉跨语言话题检测与跟踪技术研究 [D].中央民族大学,2013
[17] 李若鹏,李翔,林祥,等.基于DK算法的互联网热点主动发现研究与实现[J].计算机技术与发展,2008(9):1-4
[18] 高洪杰.互联网舆情监测分析系统实现[D].复旦大学,2009
[19] 黄美璇.基于聚类分析的网络舆情监控系统的设计[J].宝鸡文理学院学报(自然科学版),2011,31(4): 40-4
[20] 吴利华.基于论坛的话题发现与跟踪算法研究 [D].北京邮电大学,2013
[21] 张奇.基于PSO-KHM聚类的微博舆情预警系统的研究与实现[D].南京邮电大学,2013
[22] 张蕾.基于机器学习的网络舆情采集技术研究与设计[D].电子科技大学,2014
[23] 王旭仁,李娜,何发镁,等.基于改进聚类算法的网络舆情分析系统研究[J].情报学报,2014,33(5):530-7
[24] 赵阳阳.基于MapReduce的分布式网络舆情聚类方法的研究[D].北京交通大学,2015
[25] 涂慧明.互联网舆情监控系统的关键技术研究与实现[D].东华理工大学,2016
[26] 李保国.基于聚类与LDA的新闻评论主题挖掘研究[D].武汉纺织大学,2016
[27] 戴龙龙.基于Storm分布式食品安全网络舆情监测方法研究[D].北京化工大学,2017
[28] 冯靖.基于Hadoop的微博舆情分析[D].天津理工大学,2018
[29] 陈艳红,向军,刘嵩.高校网络舆情分析的K-Means算法优化研究[J].湖北民族学院学报(自然科学版),2018,36(4):442-7
[30] 叶瑾玫.基于密度峰值融合K-means聚类算法的微博舆情分析[D].江苏科技大学,2020
[31] 李丰男.基于Spark的网络舆情分析方法的研究与应用[D].中国科学院大学(中国科学院沈阳计算技术研究所),2020
[32] 冯志伟.自然语言处理简明教程[M].上海外语教育出版社,2012
[33] 金佳佳.基于深度学习的短文本分类算法研究及应用[D].浙江工业大学,2020
[34] 侯松.面向网络舆情态势分析的文本分类研究 [D].国防科学技术大学,2009
[35] 刘继勇.网络舆情预警辅助决策支持系统模型及关键技术研究[D].石家庄经济学院,2010
[36] 吴娱.网络舆情分析关键技术研究與实现[D.电子科技大学,2011
[37] 万源.基于语义统计分析的网络舆情挖掘技术研究[D].武汉理工大学,2012
[38] 姜祖新.基于Web的粮食舆情分析关键技术研究[D].河南工业大学,2012
[39] 翟琳琳.网络舆情分析中文本分类和聚类的研究[D].中原工学院,2013
[40] 李艾林.面向Web舆情分析的藏文文本分类算法研究[D].西北民族大学,2014
[41] 李慧.面向商业舆情的网络智能分析系统研究与实现[D].电子科技大学,2016
[42] 张红军.面向网络舆情的文本分类系统研究与实现[D].电子科技大学,2017
[43] 冷冰.基于Markov逻辑网的网络舆情文本分类技术研究与实现[D].南京邮电大学,2017
[44] 杜昌顺.面向细分领域的舆情情感分析关键技术研究[D].北京交通大学,2019
[45] 张潘頔.基于内容分析的网络舆情监测系统[D].西安电子科技大学,2020
[46] YU N. Exploring Co-Training Strategies for Opinion Detection[J].Journal of the Association for Information Science And Technology,2014,65(10):2098-110
[47] 巨慧慧.针对网络舆情的情感倾向性研究[D].哈尔滨工业大学,2010
[48] 王铁套,王国营,陈越,等.基于语义模式与词汇情感倾向的舆情态势研究[J].计算机工程与设计, 2012,33(1):74-7
[49] 高雄.基于论坛的舆情分析系统设计与实现 [D].哈尔滨工业大学,2012
[50] 杨志国.基于Web挖掘和文本分析的动态网络舆情预警研究[D].武汉理工大学,2014
[51] 张俊勇.基于本体的网络舆情挖掘研究[D].重庆大学,2014
[52] 王炜.面向网络舆情的文本语义倾向性分类算法研究[D].河北工程大学,2016
[53] 王林,李昀泽.情感倾向分析在舆情监控方面的研究[J].微型机与应用,2017,36(5):11-3,7
[54] 李天柱.高校网络舆情分析系统设计与实现 [D].重庆大学,2018
[55] 李坚.核舆情情感分析及预警方法研究[D].南华大学,2018
[56] 李亚军.基于深度学习的食品安全网络舆情分析[D].天津科技大学,2018
[57] 刘纯嘉.面向高校舆情的中文文本情感倾向性分析[D].江西师范大学,2020
[58] 岳亚南.面向舆情文本的情感倾向性分类研究 [D].重庆邮电大学,2020