机器学习与交叉表分析在新冠肺炎新闻情绪分析中的应用
2021-06-11胡贵芝闫现磊
胡贵芝 闫现磊
摘 要: 為有效支持主流媒体利用情绪资源治理舆情,提出一种基于机器学习与交叉表分析的新闻情绪分析方法。先用Python爬虫技术从微信平台采集新闻数据;再采用多种文本分类方法的对比研究构建最优情绪分类器,实现新闻情绪类型的快速划分;然后用交叉表分析方法评估新闻文本与新闻评论情绪之间的相关性,帮助主流媒体考察舆情治理的效果。以主流媒体在微信平台发布的“新冠肺炎”相关新闻为例,对该方法的可行性和有效性进行了验证。
关键词: 情绪分析; 机器学习; 舆情治理; 微信平台; 新冠肺炎
中图分类号:G202 文献标识码:A 文章编号:1006-8228(2021)05-33-04
Application of machine learning and cross tabulation in news
sentiment analysis of COVID-19
Hu Guizhi, Yan Xianlei
(Institute of Media Convergence, Sichuan Vocational College of Cultural Industries, Chengdu, Sichuan 610213, China)
Abstract: To effectively support mainstream media to use emotional resources to manage public opinion, a sentiment analysis method based on machine learning and cross tabulation is proposed. The raw data is collected from the WeChat platform by using the Python crawler technology, and a comparative study of multiple text classification methods is carried out to construct an optimal sentiment classifier to achieve rapid classification of news sentiment types, then the cross tabulation method is used to evaluate the sentiment correlations between news text and its comment, thereby helping mainstream media to investigate the effect of public opinion governance. Taking the news of COVID-19 published by mainstream media on the WeChat platform as an example, the effectiveness and feasibility of the method are verified.
Key words: sentiment analysis; machine learning; public opinion governance; WeChat platform; COVID-19
0 引言
情绪是社会病灶的显现,情绪分析具有呈现公众心理活动、诱导公众行为、预警公众状态的作用[1]。移动媒体去中心化、圈层化、碎片化的传播特性,促使情绪在现代舆论生态中被彰显[2]。舆情监管部门不仅需要提供准确、清晰的事实信息,更需重视公众对信息的情绪感知,把情绪作为现代舆情治理的新着力点[3]。网络传播情绪与受众情绪之间存在微观意义上的对应性,有学者提出“情绪设置”理论[4],通过对信息载体的情绪设置牵制受众以何种情绪去思考与表达,从而进行情绪引导。2019年12月,“新冠肺炎”爆发,主流媒体把控着信息发布的主导权,肩负舆情引导的职责[5]。通过分析主流媒体关于“新冠肺炎”的新闻文本与评论情绪,探究主流媒体“情绪设置”的效果对于网络舆情治理具有重要意义。
目前,已有学者开展文本情绪分析的研究。早期的文本情绪识别主要依赖于人工方式,即召集人员阅读文本然后手工判断文本的情绪类型。显然,该方式费时费力且难以适用于大样本数据。随着计算机技术的发展,机器学习方法被应用于文本情绪识别中以提高情绪识别的效率[6]。例如,朱晓光[7]采用前馈神经网络与支持向量机作为监督学习模型进行中文微博的情感分类;赫苗苗[8]基于朴素贝叶斯、支持向量机、决策树等算法的对比研究构建最优的情绪分类器,以实现微博情感的高效分类。
然而,虽然目前已有学者将机器学习应用于文本情绪分类,但是依然缺乏分析新闻文本与新闻评论二者情绪之间的对应性,进而难以评估新闻舆情治理的效果,不利于网络舆情环境的健康稳定发展。因此,有必要在识别新闻文本与评论的情绪类型后,进一步分析二者情绪之间的相关性。针对上述问题,本文提出一种基于机器学习与交叉表分析的新闻情绪分析方法,一方面结合多种机器学习分类方法的对比研究保证新闻情绪的识别效率,另一方面通过交叉表分析方法探究新闻文本与新闻评论情绪之间的相关性以有效考察舆情治理的效果。
1 研究方法
1.1 方法流程
本文的研究方法流程如图1所示。研究步骤包括:首先,基于微信平台,抓取主流媒体以“新冠肺炎”为主题的新闻文本数据与相应的评论数据。其次,针对新闻文本数据,提出“新冠肺炎”情绪分类体系,并以此为基础通过人工方式识别新闻文本情绪;而针对新闻评论数据,则采用机器学习算法构建最优的情绪分类器,以此实现新闻评论情绪的快速识别。最后,基于SPSS工具开展新闻文本与新闻评论的情绪交叉性分析,以此考察情绪设置的效果。
1.2 数据采集
数据采集是文本情绪分析的首要步骤,本文基于Scrapy框架,采用Python对微信平台的文章进行采集。主要用到的技术有:利用Filder抓包工具对公众号文章的请求参数进行分析,得到固定参数和变动参数;采取Requests工具对文章的链接发起请求并获得反馈数据;通过Beautifulsoup工具对获取的参数和数据进行解析以判断该文章是否符合要求;使用Mongodb数据库将爬取过程中符合要求的文章进行存储,并转化为Excel格式。
1.3 情绪识别
鉴于新闻文本的数据量一般较小,本研究将采用人工方式识别新闻文本的情绪,而由于新闻评论的数据量较大,故采用机器学习方式识别新闻评论的情绪。
1.3.1 新闻文本情绪识别
在识别新闻文本的情绪之前,需要构建情绪分类体系,从而支持“新冠肺炎”新闻文本的情绪类型标注。艾克曼曾提出包括六种核心情绪的经典情绪分类体系[9],即快乐、悲伤、愤怒、恐惧、厌恶和惊讶。本研究针对“新冠肺炎”新闻包含疫情实况通报性信息,因此增加了“无情绪”这一分类指标。在艾克曼情绪分类基础上,本研究提出由三种情感效价、十七种情绪类型构成的“新冠肺炎”情绪分类体系,见表1。
基于“新冠肺炎”情绪分类体系,采取分组交互式验证的方法标记新闻文本的情绪类型,从而确保人工划分方式的准确性。鉴于“新冠肺炎”情绪分类体系中情感效价与情绪类型具有映射关系,可基于情绪类型识别结果构建产生式规则实现新闻情感效价的自动识别,如“IF{某新闻情绪类型=赞美},Then{该新闻情感效价=正向}”。
1.3.2 新闻评论情绪识别
采用机器学习方式识别新闻评论情绪,包括数据预处理、情绪分类器构建及其应用三大步骤。
⑴ 数据预处理
数据预处理是对粗采数据进行数据标注与特征提取,从而支持情绪分类器的构建与应用,具体过程如下。①数据标注。首先,从所有新闻评论文本中随机挑选约10%至20%的数据作为样本数据;然后,基于“新冠肺炎”情绪分类体系,采取分组交互式验证的方法标记新闻评论样本数据的情绪类型(与新闻文本的情绪标注過程相似)。②特征提取。首先,采用成熟的中文分词工具Jieba对样本与非样本数据进行文本分词,得到每条样本的文本分词列表;然后,基于哈工大停用词库去掉“的”、“地”、“得”等停用词,并且去掉单字与重复词;最后,采用卡方统计方法计算每个分词代表每个情感类的信息量,经过特征降维以后选取前N个信息量最高的词作为该条新闻评论的关键特征。
⑵ 情绪分类器构建
在完成数据预处理以后,便可将样本数据中每条评论的关键特征与情绪类型作为数据输入,采取机器学习方法构建情绪分类器。基于Python中Scikit-learn提供的4种典型分类算法,即LinearSVC(线性支持向量机)、MultinomialNB(朴素贝叶斯)、BernoulliNB(伯努利贝叶斯)、以及LogisticRegression(逻辑回归),通过对比研究将准确率最高的分类器作为最终的情绪分类器。
⑶ 情绪分类器应用
在完成情绪分类器构建以后,便可将“特征提取”处理后的非样本数据导入情绪分类器,从而实现新闻评论情绪类型的快速划分。然后,与新闻文本情感效价识别方法类似,基于新闻评论的情绪类型识别结果,通过产生式规则实现新闻评论情感效价的自动识别。
1.4 情绪相关性分析
在完成新闻文本与新闻评论的情绪识别后,便可借助SPSS工具开展交叉表分析,从而挖掘新闻文本情绪与新闻评论情绪之间的影响关系。交叉表分析是指同时将两个或两个以上有一定联系的变量及其变量值按照一定的顺序交叉排列在一张统计表内,使各变量值成为不同变量的结点,从中分析变量之间的相关关系[10]。
SPSS工具提供了交叉表分析功能,通过[Analyze→Descriptive→Crosstabs],并且选择Phi and Cramer's V可以评估交互分析中两个变量的关系强度。本研究将从粗粒度(情感效价)与细粒度(情绪类型)两方面,基于SPPS工具的交叉表分析功能开展新闻文本与新闻评论的情绪对应度分析,以深入挖掘二者之间的影响关系。
2 实例分析
以2019年12月爆发的“新冠肺炎”为研究对象,采集主流媒体在微信平台发布的相关报道进行新闻情绪分析以考察情绪设置的效果。
2.1 数据采集
本文选择主流媒体微信公众号:人民日报、新华社、央视新闻、中国新闻周刊,在2019年12月8日(首例发病日)至2020年3月19日(疫情拐点)发布的与“新冠肺炎”相关的新闻文本与对应新闻评论作为数据基础,以新冠肺炎、抗疫、疫情等为关键词,基于Scrapy框架,采用Python对相关微信公众号的文章进行采集,共计有效新闻文本2511条、47668条评论,结果见表2。
2.2 情绪识别
2.2.1 新闻文本情绪识别
针对2511条新闻文本,8位标注员采用人工标注方式获得新闻文本的情绪类型,结果如图2所示。
2.2.2 新闻评论情绪识别
针对47668条采集的新闻评论,首先随机挑选6000条新闻评论作为样本数据;然后采用4种机器学习算法(LinearSVC、MultinomialNB、BernoulliNB、LogisticRegression)构建情绪分类器,其准确率依次为76.9%、66.6%、60.8%、71.3%。因此,本研究最终基于LinearSVC算法构建情绪分类器实现新闻评论情绪的识别,结果如图3所示。
2.3 情绪相关性分析
2.3.1 粗粒度分析
基于新闻文本与新闻评论的情感效价识别结果,通过SPSS的Crosstabs开展粗粒度情绪相关性分析,以挖掘新闻文本情感效价与新闻评论情感效价之间的关系。新闻文本情感效价与新闻评论情感效价的交叉表分析结果见表3。
研究发现如下:新闻文本情感效价为正向时,所引发的新闻评论的情感效价以正向为主;新闻文本情感效价为负向或中性时,所引发的新闻评论的情感效价以正向为主。
2.3.2 细粒度分析
为进一步分析新闻文本与新闻评论的情绪类型是否具有相同或同质性关系,开展细粒度情绪相关性分析。基于SPSS的交叉表分析,将每种新闻文本情绪及其诱发占比最高的评论情绪进行总结,得到结果见表4。
由表4可知,正向情感效价的新闻文本情绪,会诱发相同或同质的正向评论情绪,且排行较高的是鼓舞。中性情感效价的新闻文本情绪,主要诱发正向评论情绪,且排行前高的是鼓舞。负向情感效价的新闻文本情绪主要诱发正向评论情绪,且排行较高的是信任。
3 研究结论与分析
根据新闻文本与新闻评论的情绪识别结果以及两者的相关性分析结果可得出如下结论。
⑴ 主流媒体在“新冠疫情”新闻报道中以正向情绪报道为主,并且诱发公众评论以相同或同质的正向情绪为主,两者存在显著的对应性。
究其原因如下:主流媒体作为“新冠疫情”中信息发布主体,肩负疫情实况通报、稳定舆论等传播职责,因此新闻文本正性情绪占比较高,具有现实合理性。此外,徐翔教授认为网络传播情绪与受众情绪之间存在对应性[4],通过对新闻文本“情绪设置”,正向报道将会引导公众以正性情绪进行思考与表达。
⑵ 当新闻文本为中性或负性情绪时,所诱发的新闻评论情绪以正向情绪为主,二者不存在明显对应性。
基于“情绪设置”理论,中性或负性情绪新闻文本将会引发中性或负性的公众情绪,然而研究结果却并不如此,究其原因,其一,主流媒体存在“降噪机制”。 虽然客观中立作为新闻专业的核心价值,但是主流媒体承担发布权威信息、引导社会舆论的功能,设立合理的情绪“降噪机制”,能够促进新闻报道在重大突发性事件中发挥积极作用。其二,危机事件中,受众存在情绪认知偏差。时勘教授发现重大突发性灾难事件中人们存在“台风眼效应”[11],即受众对疫情发展与防控方面的信息把控较好时,伴随疫情逐渐被控制,人们心中产生乐观情绪。换言之,当国家采取有效方式应对危机事件,受众会将新闻报道中携带的负向或中性情绪转化为正向乐观情绪。
4 结束语
本文提出了一种基于机器学习与交叉表分析的新闻情绪分析方法。采用机器学习分类方法实现了新闻情绪类型的快速划分,有利于网络监管机构高效监督新闻传播者与接受者的情绪变化;基于SPSS的交叉表分析方法评估了新闻文本与新闻评论情绪之间的相关性,可以有效帮助主流媒体考察舆情治理的效果。
在未来的工作中,一方面可以进一步对算法进行改进,以提高情绪分类器的准确率;另一方面将相关算法集成到一个应用软件中,以提高方法的实用性。
参考文献(References):
[1] Mart I E. Sentiment analysis in Twitter[J]. InternationalJournal of Computer Science Issues,2018.9(4):372-378
[2] 隋巖,李燕.论群体传播时代个人情绪的社会化传播[J].现代传播(中国传媒大学学报),2012.34(12):10-15
[3] 喻国明.网络舆情治理要素设计与操作关键[J].新闻与写作,2017.1:10-13
[4] 徐翔,阳恬.网络传播中“情绪设置”的同质效应与传导研究[J].中国新闻传播研究,2018.1:144-155
[5] 张婕,刘召霞,刘赢忆,陈向一.新型冠状病毒肺炎疫情下民众信息获取状况与情绪影响[J].暨南大学学报(自然科学与医学版),2020.41(6):527-533
[6] 殷昊.面向微博文本的情绪识别和分类方法研究[D].苏州大学,2018.
[7] 朱晓光,聂培尧,林培光.基于监督学习的微博情感分类方法[J].计算机应用与软件,2015.8:238-242
[8] 郝苗苗,徐秀娟,于红等.基于中文微博的情绪分类与预测算法[J].计算机应用,2018.38(2):89-96
[9] Ekman P, Friesen W V. Constants across Cultures in the Face and Emotion[J]. Journal of Personality and Social Psychology,1971.2:124-129
[10] Wagner, A, Kamakura, et al. Statistical Data Fusion forCross-Tabulation[J].Journal of Marketing Research,1997.34(4):485-498
[11] 时勘,范红霞,贾建民等.我国民众对SARS信息的风险认知及心理行为[J].心理学报,2003.35(4):546-554