大数据舆情技术缺陷与对策分析
2019-12-12汪行东胡志方
汪行东 胡志方
摘要:由于大数据技术的迅速普及,很多城市与媒体积极引入大数据舆情技术辅助舆情监测、管理与应对决策。从统计学角度来看,大数据技术存在着样本截断问题、系统性偏误、情绪衡量偏误、遗漏变量偏误等缺陷,故应积极革新大数据舆情技术,创新舆情信息采集方式,增强舆情分析人员的统计素养和理论素养,避免大数据舆情技术带来舆情误判的风险。
关键词:大数据;舆情;统计
中图分类号:G206.2文献标识码:A文章编号:1672-8122(2019)11-0055-02
随着大数据的发展,对海量的网络信息进行采集、挖掘、分析的技术日趋成熟,这为主流媒体应用大数据综合分析舆论、提高舆论引导力提供了新的可能。各地政府、机构纷纷引入大数据舆情分析技术、建设大数据舆情决策平台,通过互联网海量信息进行挖掘和处理,为敏感、重点舆情的引导工作助力[1, 2],其中典型舆情平台包括百度舆情、新浪舆情、清博舆情等。从本质上讲,大数据技术是统计学的一种应用,通过抓取海量媒介信息,使用统计建模相关的技术,建立包括机器学习在内的统计模型,对舆情的发生、发展和舆论引导过程进行评估,为舆情应对决策、决策评估提供依据。大数据技术虽然具有很多优点,但从统计学的角度出发,缺点也是十分明显的。如何克服其缺陷,完善大数据决策,是本文探讨的关键。
一、从统计层面看大数据舆情技术的主要缺陷
(一)样本截断问题
样本截断(Truncation)问题主要指样本并非随机抽取的,不是从全部个体,而是从其中一部分中获取的观测值,这部分观测值可能会出现都大于或小于某个值,出现“掐头”或“去尾”的问题。大数据舆情获取的信息来源于网络平台,主要集中于网站及自媒体平台的公开意见表达。第一,由于网络、自媒体平台的使用存在一定的门槛,从而天然地排除了很多不会使用网络媒体的年长群体或者经济地位较低,无法负担网络媒体成本的人的意见。第二,虽然网络存在一定的匿名性,但网络意见的表达会受到各种因素的影响,并非所有的意见均呈现在网络空间中。主要表现为:其一,意见表达行为受到主体性格、自信水平的影响,很多人并不愿意在网络上表达自己的主张;其二,意见的表达会受到意见性质的影响,如果主体认为自己的意见会受到反对或招致攻击,往往会选择沉默,形成传播学上所谓的“沉默的螺旋”效应。随着实名制的不断推广,网友在表达与主流意见不同的意见时更趋于减弱自己的声音。第三,网上表达的意见也并非都能采集到。特别是由于自媒体具有一定的社交属性,信息的扩散和意见的表达变得极为便利,但基于人际传播裂变的意见扩散,因涉及隐私问题也是大数据技术所无法采集的。一方面,自媒体特有的社交属性,使得信息的扩散较为方便。基于人际传播的信息扩散和意见表达,是大数据的数据采集无法进入的领域;另一方面,网络上的意见表达仅是网民意见表达行为的一部分,大量的舆情行为发生在线下,这也是无法观察到的。从这个意义上,大数据搜集的是截断数据(Truncated Data),忽略了人际传播中的意见表达和线下行为,将大大影响舆情监测的稳健性(Robust)。
(二)系统性偏误
系统性偏误指与抽样技术无关,不会随着抽样的样本容量扩大而减小的常数项偏误。大数据舆情技术宣称进行全网信息采集,一般不存在样本容量扩大的问题。但在实际操作中,受限于抓取能力和时间成本,大数据舆情平台的数据抓取也局限于微博、微信公众号、新闻客户端、媒体网站等,由于舆情事件具有不同的突发性,是无法预料其会在微博爆发、微信公众号爆发,还是在许久文件未更新的博客中爆发。由于技术能力限制会导致样本产生系统性偏误,进而影响大数据的舆情预警和决策能力。
(三)情绪衡量偏误
舆情中包含了情绪,情绪是舆情研究中必然涉及的对象。要判断网民在舆情事件中的情绪是“支持或反对”某一观点或者“喜欢或不喜欢”某一事物和个体,一般是抽取其评论语句、留言语句中的某一个或某些字词(即特征),判断该词属于哪种情绪(即分类),意即分词技术。国内学者陈浩基于心理学情绪结构理论、情绪分析技术、情绪词库等构建了基本情绪词库和情绪维度词库,获得了快乐、悲伤、愤怒、恐惧和厌恶等五种基本的社会情绪[3]。但实际上,由于情绪的高度复杂性和汉语的语义模糊性,对情绪进行精确地区分的努力,即使是引入强大的机器学习技术,对情绪分词处理仍存在一定的困难。近年新产生的一些情绪词汇,如“白骨精(白领+骨干+精英)、果酱(过奖)”等,由于语言的约定俗成性、新词的不断涌现会给情绪判断带来极大的困难。
(四)遗漏变量偏误
一方面,沉默的螺旋理论认为,人们趋向于表达与主流意见一致的观点;当个人意见与主流意见不一致时,个体会倾向于改变自己的意见或者干脆选择沉默[5];另一方面,群体动力学的研究成果证实群体压力和趋同心理的存在。网络上发表意见的人,隶属于不同小团体进而在舆论领域进行竞争,群体中的个体会表达趋同的意见,进而隐藏个体的不同意见[6]。这两种机制的存在导致个体的意见表达并不能反映个体的真实意见,而在大数据分析中又难以对这两种机制的影响进行剔除,可能会导致对舆情估计的偏大或偏小,也会导致舆情风险评估模型出现遗漏变量偏误(Omitted Variable Bias)。
二、避免大数据舆情技术缺陷的应对方法
技术是一把双刃剑,在带来益处的同时不可避免的具有一定的局限性,警惕大数据舆情技术缺陷,构建更为合理的大数据舆情监测管理机制,是舆情工作发展的重要方向。
首先,革新大数据技术,提升信息采集的范围和分词技术,避免系统性偏误、情绪衡量偏误和遗漏变量偏误。引入更为稳健的计量工具模型,通过机器学习和人工采集等方式及时更新情绪分词,将大大提升舆情分析的准确性。
其次,应破除对大数据技术的盲信盲从,增强舆情分析人员的统计素养。舆情分析人员对统计知识的理解,会方便其对舆情平台呈现出的结果进行判断,更有利于做出正确的决策。
最后,加强舆情相关理论研究和總结,特别是党和政府的各级领导干部关于舆论和新闻传播规律应高度重视,做到先进思想武装人,方能更好地从事党的舆论工作。
三、结语
随着大数据舆情技术的日趋普及,越来越多的党政部门与媒体部门倾向于采用大数据技术来监控社会舆情,为党政部门了解社情民意提供了新的通道。在依赖于新技术的同时,我们也应意识到从统计技术层面而言,大数据舆情技术存在样本截断问题、系统性偏误、情绪衡量偏误、遗漏变量偏误等问题,应从不断革新舆情分析技术、创新舆情采集方式、增强舆情分析人员素养等角度,避免大数据舆情技术的缺陷导致舆情误判等风险,更加科学地了解社情民意。
参考文献:
[1]李双.从舆情起步,迈上大数据舆情和社会治理之路——以浙江在线舆情中心为例浅谈党媒如何做好“To G”服务[J].传媒评论,2018(6): 12-14.
[2]喻国明.当前社会舆情的结构性特点与分析性发现——基于2014年中国社会网络舆情的大数据分析[J].江淮论坛,2015(5): 136-143.
[3]陈浩.中国社会的脉搏:网络集群情绪的测量与应用: 第十七届全国心理学学术会议[Z].北京: 2014.
[4]王世泓.基于情绪词典扩展技术的中文微博情绪分析[D].南京航空航天大学,2015.
[5](美)M·麦考姆斯,T·贝尔著.郭镇之译.大众传播的议程设置作用[J].新闻大学,1999(2):32-36.
[6]高宪春,解葳.新媒体融合语境下网络群体对舆论生成的影响[J].当代传播,2015(3): 76-79.
[责任编辑:杨楚珺]