基于文本挖掘技术的社会网络舆情分析框架刍议
2019-09-19钟瑞童
钟瑞童
摘要:通过研究某知名演员偷税漏税事件的舆情走势,给出舆情分析框架,使用Word2vec模型分析人物关系,梳理事件背景,而后使用评论影响力指标筛选具有导向作用的舆论,再通过主题模型提取观点,分析舆情走势,并对不同主题观点下各类人群构成做量化分析。该分析框架有助于决策者迅速精准把握热点事件舆情,了解公众心理,反映社会风气。
关键词:舆情分析;观点挖掘;主题模型;word2vec模型
中图分类号:G206.3 文献标识码:A 文章编号:CN61-1487-(2019)010-0134-04
一、引言
公众人物的一举一动对整个社会有很大的影响,人民群众的看法也反映了整个社会对于公众人物的认知和判斷。某知名演员每年的个人收入高达数亿人民币,在去年该演艺明星被曝出令人咋舌的天价片酬,并且“一阴一阳大小合同”公然偷税漏税等行业内幕也随之浮出水面。自某新闻从业人爆出该明星的阴阳合同之后,各职能部门和媒体就一直没有中断对于该演艺明星的调查。终于,在去年10月3日,该演艺明星偷逃税案件的结果正式公布,引发媒体关注。“央视网”报道税务部门依法查处该明星“阴阳合同”等偷逃税问题。此事一出,各类媒体争相报道,微博、知乎、朋友圈都充斥着各种评论和看法,该演艺明星偷税漏税事件成为引爆社会舆论的焦点。
本研究应用爬虫技术和文本挖掘技术和自然语言处理方法,对该明星偷税漏税事件的社会网络舆情实证分析框架进行研究。
二、文献综述
(一)社会网络舆情
从李津浩在《采写编》2017年第2期发表的文章《从社会公众事件看网络舆情引导》中,可以准确地总结出公众人物的定义、特点及其对舆论的影响。社会公众人物具有公众性、典型性、商业价值、社会影响力的特点,其中最典型的特点是其言行会对社会和公众产生的巨大影响力。如果公众人物的行为举止得当,凭借他们的高知名度,会成为社会发展好的方面的代表,给公众以积极的影响。公众人物如果言行不当,在新媒体这种环境下,极易引发众怒,舆论就会呈现一边倒的声讨批评,产生网络舆情。
在网络舆情的研究方面比较成熟、主流的分析方法主要有网络调查法、基于统计规则的模式识别方法、基于内容挖掘的主题检测方法等。以上几种方法均存在一定的局限性,一些新的方法应运而生。首先,在大数据时代的背景下,数据挖掘的方法已经在更大程度和更广范围应用到网络舆情的分析和研究之中。数据挖掘一般是指从大量的数据中通过算法搜索隐藏于其中信息的过程。其次则是聚类(clustering)分析法,即根据对某种相似程度的度量,按照相似度将数据对象分组成为多个类或簇。聚类分析法已经被广泛应用于很多方面的数据分析研究中。最后则是社会网络分析法(SNA),即通过对个体之间的关系构建模型并进行描述,对这些模型中包含的结构及其对个人和整个群体的影响进行分析。我们可以将大数据应用到日常的舆情管理中,加强对各个网络平台的监管。大数据技术的发展为传统网络舆情的管理拓宽了视野,我们可以运用大数据对网站、微博、微信等网络平台进行监控,对信息数据的传播和动态进行实时分析,以便从瞬息万变的舆情信息中找准重点,合理分配有限的资源,提高舆情管理效率。
(二)潜在狄利克雷(LDA)分布主题模型
隐含狄利克雷分布简称LDA(Latent Dirichlet allocation),首先由Blei,David M.、吴恩达和Jordan, Michael I 于2003年 提出,目前在文本挖掘领域包括文本主题识别、文本分类以及文本相似度计算方面都有应用。LDA是一种典型的词袋模型,即它认为一篇文档是由一组词构成的一个集合,词与词之间没有顺序以及先后的关系。一篇文档可以包含多个主题,文档中每一个词都由其中的一个主题生成。它是一种主题模型,可以将文档集中每篇文档的主题,按照概率分布的形式给出;它是一种无监督学习算法,在训练时不需要手工标注的训练集,需要的仅仅是文档集以及指定主题的数量k即可;此外LDA的另一个优点则是,对于每一个主题均可找出一些词语来描述。本小组在文本挖掘技术层面上在文献的分类筛选中选择了LDA主题模型,LDA主题模型在国内的研究也已经较为成熟。苑东东、赵杰煜、叶绪伦(2018)在《结合深度学习的监督主题模型》中,万子玮(2018)在《基于主题词的微博用户兴趣模型研究》中提出结合深度学习的监督主题模型,利用深度网络强大的非线性拟合能力,建立文档主题分布与标签之间的映射,利用变分期望最大化(EM)和深度网络训练方法,共同完成贝叶斯框架下模型参数的更新,通过改变网络结构和激活函数的类型,用于分类和回归任务。在前人对LDA改进的基础上,将模型应用于微博用户兴趣的深度挖掘中,将模型的先验概率,更换为后验概率确定用户兴趣模型,提高了主题模型的计算效率,并且保证了主题兴趣挖掘的准确度。最后,通过召回率、查准率等评价指标对模型进行评价分析,并分析模型应用于个性化广告推荐中的适用性。
三、该明星偷税漏税事件微博舆情分析
(一)基于Word2vec模型的社会网络人物关系挖掘
1.语料准备
爬取知乎上关于“该明星偷税漏税”问题的回答共2022条。选取知乎上关于“偷税漏税”事件的回答作为word2vec模型的训练语料的原因是,知乎上的回答大部分都是长文本,非常适合word2vec的训练,而且长文本可以将关于“偷税漏税”事件相关的过程来龙去脉阐释清楚,便于word2vec挖掘人物之间的关联度。得到原始文本后,去除无关的网页标签数据,过滤出原始文本。
在语料数据预处理这个过程中,先将原始文本进行中文分词,由于我们最终的目的是要将“偷税漏税”事件相关联的公众人物挖掘出来并分析他们之间的关联度,所以我们注意的一点是对于人名的分词的准确度,构造精确的用户自定义字典。由于word2vec注重于上下文的关联,所以将词频很高的语气词和助词等对上下文关联不起作用的词语去除,构造精确的停用词列表。由于原始文本中有很多的与此事件阐述无关的网址,不能载入word2vec进行训练,所以将其剔除,最后去除所有的标点符号,得到可用于word2vec训练的文档。以下给出语料预处理的具体步骤:
第一步,将所有的回答载入一个文档中。
第二步,定义该明星偷税漏税问题的用户自定义字典,字典列表里包括明星的人名,其中也包含同一个人的多个称呼(如XXX和X老师),此外,还有相关知名影视公司。
第三步定义停用词,将词频较高的助词、语气词等定义为停用词,在分词之后这些词汇将会被过滤掉。
第四步,去除文本中所有的标点符号和网址链接,最终过滤出纯文本并将其分词,准备训练word2vec模型。
2.训练word2vec模型并输出相似度矩阵
将知乎关于“该明星偷税漏税”问题所有的回答作为语料库训练word2vec模型,并挖掘相关人物的向量相似度(即人物相关性),并得到人物关系相似度矩阵。
由于矩阵中每一个人物关系相似度都超过0.9,所以要观察他们之间相对的相似度,要将其标准化。为了防止人物关系相似度矩陣出现负数,用max-min方法对其进行标准化。这种标准化的优点是:标准化后所有的数值都是非负的,并且原数据中最小的数标准化后变为0,最大的数标准化后变为1,可以让我们清晰地观察到关系相似度最高的两个人,还有最不相关的两个人。将人物关系相似度矩阵进行可视化,转化为关系图:
3.人物关系解读与事件梳理
从人物关系图中可以直观地看出,整个事件是以该明星为中心,向外辐射出与“偷税漏税”事件相关的人物,辐射出相关的人物有演艺人物4、新闻从业者1、演艺人物3、演艺人物2、演艺人物1。在图中还可看出,与该明星关联性不大的演艺人物4,在此事件中,他和该明星是有一定的并列关系,因为他们同时被新闻从业者1所批判,因此演艺人物1和演艺人物4的相关性近似于0,说明在此事件中,演艺人物4和1毫不相关,互相不牵连。这个模型最大的特点是能挖掘公众所不熟知的人物关系,比如演艺人物2和3,公众可能认为他们两个与“偷税漏税”事件毫不相关,其实不然,他们和这个事件的核心人物都有着非常大的关联度。这个模型可以使公众有新的了解目标,主动地去搜寻看似不相关的人物的事件,而不是被动的接受媒体传播的信息。
(二)基于主题模型的舆论观点分析
1.引入微博评论影响力指标过滤舆论导向信息
使用Python+Selenium+Chrome编写爬虫程序。截至目前,获取微博话题“#该明星偷税#”“#该明星偷税、漏税#”“#该明星大轰炸戏份9秒#”“#该明星偷税漏税调查结果#”“#该明星陷偷税门#”5个话题下内容无缺失的讨论文本共计2119条,并爬取发布者信息,共计1703条(同一个人可能有多条讨论)。数据库变量类别分别为变量名、用户名、发布时间、转发量、评论量、点赞量、评论内容、性别、所在地、用户类别等。
使用转发、评论与点赞量构造微博评论影响力指标,衡量其言论所起到的舆论导向作用,过滤对舆论影响低的讨论。指标计算方法如下:
从词频图中我们可以清晰看出,作为事件主角的该明星的姓名出现次数遥遥领先其他词汇,总共出现了684次;其次是“偷税漏税”这一行为,总共出现了179次;像“罚款”“国家”“法律”“偷税”“逃税”这一类与国家法治制度相关的词汇出现次数紧随其后,基本都达到90次左右,这也体现了大多数微博用户对于国家基本法律的重视和对该明星违反国家基本法律政策的反对;除此之外,类似“视频”“明星”“大轰炸”“娱乐圈”这类有关娱乐圈电影明星的词汇的出现次数也有很多,基本上都达到了70次左右,说明部分微博用户认为该明星偷税漏税事件与整个娱乐圈风气具有一定的相关联度;最后,类似于“道歉”“补缴”“处罚”“依法”“刑事责任”“封杀”这类词汇的存在表明部分微博用户认为该明星有责任进行道歉以及受到处罚以正娱乐圈的风气。
2.舆论观点挖掘与基于FREX score的模型解读
使用LDA主题模型将1004条讨论聚类,并输出各类观点下的关键词,共得出了7大类关键词主题。
主题1侧重讨论“国家”“法律”“罚款”“有钱”等关键词,体现公众对此次事件的直观感受是比较震撼的,讨论集中在本次涉案金额较多,相关法律和罚款数额等;主题2侧重讨论“轰炸”“流出”“台词”英文版等关键词,体现此事件与电影《大轰炸》非常相关,《大轰炸》的视频流出事件成为讨论的热点;主题3中出现“演艺人物4”和“新闻从业者1”两位当事人,集中在人物关系的讨论上;主题4突出了“知错”“坐牢”等关键词,体现民众对惩罚力度的不满,并扒出某演艺人因偷税坐牢事件与此对比;主题5侧重“逃税”“娱乐圈”“艺人”等关键词,体现此次事件引发公众对娱乐圈逃税普遍现象的热点讨论;主题6出现“国家”“没有”“偷税”“戏子”等关键词,集中讨论“戏子误国”的相关内容;主题7中侧重“税款”“罚款”“税务机关”“部门”“依法”“处罚”等关键词,体现追责问责态度。主题3与主题4具有一定相似度,其讨论内容都集中在人物关系上。其中主题3与主题6的话题影响力较高,反映公众关注事件来龙去脉的讨论与国家发展层面上“娱乐至死”“戏子误国”的讨论。
考虑到某些词汇由于词频太高,导致在每个主题下的排名均靠前,例如“该明星”,排列第一位,但并不能突出显示不同主题的差异,因此引入FREX score同时考虑词语的出现频率和排他性,FREX即“Frequency and Exclusive”,同时考虑了单个词语在不同主题下的条件概率与在总体中的边缘概率。其公式表达如下:
其主体思路为,为使主题模型所得结果更加趋于信息最大化,同时考虑词语的条件概率和边缘概率,为λ赋予不同值,目的是使不同主题体现出差异,且更加可被解释。LDA模型中初始输出的结果即为λ=1时的结果。
调整λ值以获得各类主题下根据FREX score由高到低的排名顺序,发现λ取0.37时各类主题差异较为可区分,且可解释性强,综合对比发现,民众对于该明星事件的观点主要呈下列几种形式:
第一,震惊,惊叹于国家法规的漏洞,涉案金额巨大,同时也激起人们对巨额逃税款的概念的讨论;
第二,悲哀,许多人联想到默默无闻值守岗位的各领域人才,只能赚取微薄的工资,而国家发展依靠各领域人才而非影视明星,“戏子误国”,还有一部分人联想到从前影视明星因偷税漏税坐牢,而如今该明星不用如此,悲哀世道不复从前;
第三,愤怒,其一,该明星在《大轰炸》中仅出场9秒便赚取3000万元薪酬,引发民众对于目前娱乐圈影视明星收入过高的讨论,其二,对该明星强烈谴责,追查到底,绝不姑息。
3.持不同观点的人群差异分析
(1)舆论主题变化趋势
10月3日是评论量呈爆炸性增长的一天,人们纷纷在这一天在微博上发表自己对“偷税漏税”事件的看法,说明当天“偷税漏税”事件被媒体炒得沸沸扬扬,是观察舆论主题所占比例最合适的时机,所以我们将10月3日的评论所属主题汇总进行观察。
10月3日,公众发表了大量的言论,其中第6类主题占比最大,占到总体的21%,其次是第5类主题,占总体的19%。根据各类主题的关键词,我们可以挖掘出,在评论量猛增的第一天,人们主要的舆论导向是该明星触犯了法律,应该向国家和人民道歉,并有一部分的舆论在谈论该明星出演的电影《大轰炸》的上映问题。
在10月3日以后,评论量开始大幅度下降,我们观察10月3日以后的舆论变化趋势:从10月6日到10月18日,公众发表了较少的言论,其中占比最大的主题由刚开始的第6主题转变为了第4主题,第6主题在刚开始占据舆论霸主地位,然后慢慢地淡化了。根据各类主题的关键词,我们可以挖掘出,在评论的第二个阶段,人们主要的舆论导向从该明星触犯了法律,应该向国家和人民道歉,变成了该明星应该坐牢,并且该主题关键词中提到了社会的正能量,说明国民开始力挺某新闻从业人的做法,并且呼吁要保护之。
评论量在10月27日大幅度地增加,而且第一主题的占比最大,所以根据关键词,关键词中提到了娱乐、金钱,而对应着当时正在颁发诺贝尔奖项,我们作出了合理的推断,受众在这一天提出了“娱乐至死”的舆论导向,并呼吁用知识和科技去复兴中华,年轻人不应该沉迷娱乐而不能自拔。
(2)不同主题下的人群属性交叉分析
第一,在不同主题下的人群性别比例。拥有不同的舆论类别的人群中,男女比例大致相同,各占一半左右。但是在第5个类别中,女性比例明显大于男性,根据类别的关键词,可以推断出,在让该明星道歉的问题上和该明星出演的电影《大轰炸》的上映问题上,女性群体的反应是大于男性群体的。
第二,在不同主题下的人群所在省份比例。在各个类别中,北京、山东、江苏、广东这四个地区的人民充当了重要的角色,其中北京、山东和广东这三个地区在七个类别中相差无几。
其中江苏省在第三类和第七类主题中占比比较突出,根据类别的关键词,其中第三类主题的突出关键词:“该明星”“演艺人物4”“纳税”,第七类主题的突出关键词:“阴阳合同”,可以看出江苏省的人民更看重事情的真正原因和来龙去脉。
其中北京和山东与当事人的籍贯相关,江苏无锡是该明星工作室的所在地,事件爆发后,江苏省地税局对该明星工作室展开调查,引发讨论。
第三,在不同主题下的人群影响力比较。第三类主题所属人群的影响力远远大于其他类别,根据类别关键词,可以看出看重事情的真正原因和来龙去脉的人群,普遍具有很大的影响力。
四、讨论
(一)从Word2vec对知乎中关于“该明星偷税漏税看法”的文本梳理发现,涉及该明星事件的公众人物有“新闻从业者1”“演艺人物4”“演艺人物2”“演艺人物3”“演艺人物1”等人。“新闻从业者1”和该明星是本次事件的中心人物,其余“演艺人物”与该明星有并列关系,共同受到“新闻从业者1”抨击。
(二)使用多维标度法可确定事件内隐含7类主题观点。分别为“有关该明星涉案金额多的讨论”“有关该明星电影《大轰炸》的视频及台词流出的讨论”“有关事件人物关系的讨论”“有关某演艺人因偷税坐牢与此事对比”“娱乐圈逃税普遍现象的讨论”“有关‘戏子误国的讨论”“有关税务机关问责的讨论”。其中有关事件人物关系和国家层面上“戏子误国”的话题影响力较大。
(三)10月3日事件爆发,该天公众讨论最多的话题是第五、第六主题,人们的舆论导向是该明星触犯了法律应该向国家和人民道歉,并有一部分的舆论在谈论该明星出演的电影《大轰炸》的上映问题。而后事件討论量逐步降低,从10月6日起,原本占比最高的主题六转变为主题四,在公众讨论的第二个阶段,人们主要的舆论导向从该明星触犯了法律应该向国家和人民道歉,变成了该明星应该坐牢,并且该主题关键词中提到了正能量。10月27日,话题热度突然增长,主题一占比最高,国民在这一天提出了“娱乐至死”的舆论导向,并呼吁人民用知识和科技去复兴中华,年轻人不应该沉迷娱乐。
(四)男性微博用户偏向讨论人物关系,女性微博用户偏向讨论让该明星道歉和电影《大轰炸》的上映问题。其他主题类别下的男女比例均衡。北京、山东、江苏、广东四省微博用户讨论较多,其中北京和山东与当事人的籍贯相关。由此可见,在本话题的讨论中,涉事人与涉事机构所在地域的用户言论对舆论影响较大。
(五)第三类主题所属人群的影响力远远大于其他类别,根据类别关键词,可以看出看重事情的真正原因和来龙去脉的人群,普遍具有很大的影响力。
参考文献:
[1]吴婷.浅谈网络舆论的社会影响[J].新闻传播,2017(7).
[2]時郁婷.论媒介融合对新闻传播的影响研究[J].大众文艺, 2011(7).
[3]李津浩.从社会公众事件看网络舆情引导[J].采写编, 2017(2).
[4]黄宝书,王昊宁.“新闻云系统”与齐鲁台的新闻制播创新[J].南方电视学刊,2011(2).
[5]何佳,周长胜,石显锋.网络舆情监控系统的实现方法[J].郑州大学学报(理学版),2010(1).
[6]苑东东,赵杰煜,叶绪伦.结合深度学习的监督主题模型[J].模式识别与人工智能,2018(8).
[7]万子玮.基于主题词的微博用户兴趣模型研究[D].首都经济贸易大学,2018.
[8]Sievert C,Shirley K E.LDAvis:A method for visualizing and interpreting topics[C]//The Workshop on Interactive Language Learning,2014.
[9]Chuang J,Manning C D,Heer J.Termite:visualization techniques for assessing textual topic models[C]//International Working Conference on Advanced Visual Interfaces.ACM,2012.
[10]Ramage D,Hall D,Nallapati R,et al.Labeled LDA:a supervised topic model for credit attribution in multi-labeled corpora[C]//Conference on Empirical Methods in Natural Language Processing,EMNLP 2009,6-7 August 2009,Singapore,A Meeting of Sigdat,A Special Interest Group of the ACL.DBLP,2009.