APP下载

基于情感分析与LDA模型的网络舆情案例研究

2019-12-18董悦王梦

价值工程 2019年34期
关键词:情感分析文本分析网络舆情

董悦 王梦

摘要:在社会计算视角的指导下,借助自然语言处理中的情感分析和主题建模技术建构食品安全网络舆情的计算模型,并选取网络舆情案例对该计算模型进行了验证性应用。本文首先对该事件的评论文本进行情感极性分析确定用户情绪极性,通过语义网分析提取评论数据中不同网友观念的相互联系,并利用词频分析以及LDA主题模型,最后得出在海量数据面前,传统的舆情研究方法显然已经无能为力,需要在大数据路径技术上介入,并在不断发展中探求情感和主题分类要素在此类研究中的新作用。

Abstract: Under the guidance of social computing perspective, the calculation model of food safety network public opinion is constructed by means of sentiment analysis and topic modeling technology in natural language processing, and the network model public opinion case is selected to verify the application model. This paper first analyzes the emotional polarity of the comment text of the event to determine the user's emotional polarity, and extracts the interconnection of different netizens' ideas in the comment data through Semantic Web analysis, and uses word frequency analysis and LDA theme model to finally concludes that in front of massive data, traditional lyric research methods are obviously powerless, and need to intervene in the big data path technology, and explore the new role of emotion and subject classification elements in such research in the continuous development.

关键词:文本分析;网络舆情;情感分析;主题建模

Key words: text analysis;network public opinion;sentiment analysis;topic modeling

中图分类号:G2                                           文献标识码:A                                  文章编号:1006-4311(2019)34-0169-04

0  引言

最近幾年电子信息通信、云计算、数据存储与共享技术快速发展,“大数据”成为人们关注的焦点,也成为现阶段生活、工作的重点话题。大数据也成为新的流行词汇被广泛关注。

基于食品安全危机问题,采用大数据方法应用下的网络舆情分析,挖掘在具体情境下所透露的社会现象和问题是本次研究的主要意义。与数据相应而生的数据分析方法已经很容易被公众接受,数据分析方法成为研究舆情的核心关键技术。在海量数据面前,准确有效的对网络舆情进行分析,促进相关机构的科学决策和有效沟通,为公众解决实际问题和提供满意的答复是至关重要的,如果缺乏一个统一规范并可操作方案将对网络平台和政府部门的工作带来极大的不便利。因此,在文本处理技术的基础条件下,选取“2018”年非洲猪瘟蔓延至中国”为案例,融合情感分析和主题建模,创建一个合适正确的社会计算模型,分析食品安全网络舆情,为实现标准化、操作化的食品安全网络舆情分析提供借鉴。

对于突发的具有较大影响的食品安全问题通常能快速的引起社会关注而导致网络平台上出现大量带有丰富情感的观点,从而形成丰富的舆请分析语料,运用数据驱动的内容分析技术对这一类的文本进行分析,从而挖掘语料中的情感、关系及主题是许多人研究的重点。在以往的相关研究中,网络舆情分析主要体现在倾向性分析和聚类分析。在倾向性分析中,OConnor等人,遵循语义方法,用情感分析技术,了解网民对重大事件的看法。在聚类分析方法中,谢思发等借助具有优势的Hadoop平台,挖掘微博中的热点词。马彬等采用基于线索树的双层聚类的话题检测方法,对垃圾微博进行过滤,解决了稀疏数据的问题。吴坚、沙晶随机森林树的算法对网络舆情的文本信息进行分类,并比较了基于KNN,SVM,SMO等方法对信息分类的量化性能。

1  主要方法

1.1 网络舆情情感分析

情感分析也可以叫做情感挖掘、倾向性分析、意见挖掘、观点抽取,可以分析人们对服务、产品、组织、问题、事件、主题等实体以及属性的评价、观点、态度、情感。

网络平台上的文本包含了大量观点和情感,传统的针对主题等分析方法可能会浪费其中包含的情绪性、倾向性信息。可以通过情感分析对网络舆情中出现的意见和观点文本进行识别,深入的挖掘并分析带有主观意见和情绪的内容,完成情感计算的过程。

1.2 网络舆情语义网络

根据情感分析的结果可以将文本标注为积极情感和消极情感两个类别,利用这两个类别的文本可以进行语义网络的构建。语义网络是由大量常识概念构成的,是分析社会网络时常用的联系网络。构建一个完整的语义网络主要包括网络节点和有向线段,各个语义之间的从属关系和内在联系通过箭头的方向来表示。观察不同词之间的关系不仅仅只是观察最初的几个单词关系。每个节点之间相互连接的一种组合。对于网络舆情的语义网分析可以分为正面评论的语义网络和负面评论的语义网络两个部分。

1.3 网络舆情LDA模型

主题建模本质是一种快速的非监督机器学习算法,目的是为了发现文本中隐含的主题和各个主题之间的关联变化,主要通过对文本或语料库中的词相似分布规律词集的聚类来实现。

在研究社会网络舆情这一问题时,不能单独的观察情感分析或主题建模的结果,不能将两种方法割裂开来,本文在实际建构网络舆情分析的社会计算模型时,综合使用情感分析、语义网络和主题建模的方法阐述如何科学有效地对食品安全舆情进行分析。

2  建构食品安全网络舆情分析的社会计算模型

大数据背景下网络舆情分析都是从数据收集开始对食品安全网络舆情进行分析的步骤又可以分为对所有网络舆情数据的情感分析、语义网络、主题建模。

3  网络舆情分析案例研究

3.1 数据来源及预处理

2018年8月以来,非洲猪瘟蔓延至中国打乱了国内生猪市场原本正常的流通秩序。本文根据实际情况爬取了2018年12月15日至2019年3月31日搜狐、腾讯和新浪等网站上用户对事件的评论,最终整理了9937条评论文本。对在线用户的评论文本进行情感极性分析确定用户情绪极性。

通过数据预处理,将原始数据中存在的噪声去除,得到高质量、规范化以及可以进行后续分析的有效数据,提高分析的可靠度和精准度。数据去除 “哈哈哈”、“啊啊”、 ”这样存在连续重复的语料。在分词过程中删除空的评论以及数字和英文符号等影响分词的标点。

3.2 情感分析

将数据样本通过分词得到词向矩阵,对评论中出现的高频词进行统计,通过“清华大学李军中文褒贬义词典”对数据中带有主观情感成分的文本进行语义分析,识别该文本的情感倾向。

非洲猪瘟事件中呈现正面情感的评论达到26.1%,呈现负面情感的评论占总数的14.5%,呈现中立情感的评论占总数的59.4%。从整体上看非洲猪瘟事件在各大门户网站上的评论信息还是倾向于正面的。猪瘟事件每日网络情感的平均得分也佐证了这次食品安全事件中网络舆情情感是倾向于正面的,每日网络情感平均值大部分为正数,虽然情感得分也出现了负数,但没有连续的趋势。

图2中可以看出2019年一月的情感平均值为正且波动不大。从二月至三月情感出现较大波动。在三月份有媒体报道三全食品股份有限公司生产的灌汤水饺在湖南湘西、甘肃酒泉两市抽检出疑似非洲猪瘟病毒核酸阳性。非洲猪瘟病毒的灌汤水饺是否会对人体造成危害也成为人们关注的焦点。部分消费者在网上发泄自己的不满情绪,这导致了从三月初开始情感得分的大幅波动。

在以周为时间跨度计算的各情感评论的数量上来看,在疫情发生后的两周(2018_50和2018_51),评论数量达到了高峰,评论的情感倾向以中立为主,其次是正面评论,负面评论最少。之后七周,评论数量迅速减少,在2019年第七周,评论数量出现了反弹,但是以正面评价占比最大,负面评价占比最少。之后各个情感倾向的评论数量呈现下降趋势,网民对非洲猪瘟事件的关注度逐渐归零。

从以上图可以看出政府对于非洲猪瘟事件反应及时,采取的措施较为合理,治理的方法比较得当,效果良好。使网络上正面和中立情感始终占了主流,在疫情持续的时期内,网络舆情稳定可控。

3.3 正负向评论对比及关系研究

经过前文的情感分析,可以标注出哪些是属于积极情感,哪些归属于负面情感,利用这些文本进行语义网络的构建。

从正向评论与负向评论的对比词云图以及各自的语义网络图可以发现,在负面评论中,主要以病毒、感染、猪肉为高频词,并且成为语义网络的核心,大部分评论围绕着病毒的感染,体现出网民对于病毒传播的担忧和恐慌情绪以及对食品安全问题的不满情绪。在正面评论中,主要以政府、企业、部门、食品为高频词,并且成为语义网络的核心,大部分评论围绕着企业责任、政府部门的措施和食品安全问题,一方面体现了网民对于食品安全的重视,对于政府和企业的监督,另一方面也体现出网民对于政府部门各企业处理措施的认可。

3.4 主题模型分析结果

对于网络舆情数据,借助R语言中的主题模型函数包构建猪瘟事件的主题,将主题数确定为23个,进一步探索将23个主题大致组合为6类,将语料库中最为核心的6个主题呈现出来即主要概括了网络上猪瘟事件舆情数据的主要关切。

以这6大主题为线索,可以具体分为以下几个观点:

其一是介绍了这次猪瘟事件基本情况,还包括这一事件会造成的后果以及处理方法等。这一类主题种主要关注的是非洲猪瘟传入中国的基本情况以及网民对如何处理提出的疑问,主要包括处理方式和边防检疫两个方面。公安部在这次灾害发生后,也加强了疫区的勤务部署,维护治安和秩序并呼吁广大人民群众提供打击猪瘟相关犯罪的信息。

其二主要表达了公众对食品安全和政府部门相关工作的关注。各地区政府部门对此事有了积极的响应,高度重视非洲猪瘟防治工作,加强各部门协作联制联防。

其三是主要是公众对猪瘟病毒提出了一些预防措施,具体提出了猪瘟和猪流感的防治问题。2018年年末也有团队研制了今珠多糖注射液并拥有专利权的猪瘟疫苗,用作紧急预防。

其四是各地区猪瘟的情况,希望公众可以理性的应對猪瘟事件。对于2018年8月14日日本在防止“猪瘟”过程呼吁乘客“不要携带猪肉制品”,台湾为防止猪瘟禁止大陆游客参观养猪场等一系列新闻在网络上也引起热议。相关负责人也再次强调:非洲猪瘟病毒虽对猪有致命危险但对人没有危害。

猜你喜欢

情感分析文本分析网络舆情
在线评论情感属性的动态变化
投资者情绪短期对股票市场的影响研究
浅析网络舆情治理
基于社会稳定视角的网络舆情预警机制构建的思考
初中英语听说课教学实践探索