数据新闻社交化传播的内容组态分析
2023-05-03涂宇荣
摘要:随着社交媒体的兴起,数据新闻的社交化传播问题逐渐得到重视,效果研究的重要性凸显;数据新闻属于多要素组成的复杂性对象,高热度的数据新闻拥有多种不同的内容组合形式,因此传统的定量分析具有局限性。基于此,文章以微信公众平台上的55篇数据新闻为研究对象,运用清晰集定性比较分析的研究方法,分析数据新闻高热度社交化传播的微观机制。基于“新闻本位—数据应用—可视化呈现”的主体分析框架,结合理论与案例,研究提煉新闻主题、选题性质、数据类型、数据来源、数据叙事、数据处理程度、可视化类型以及可视化形式丰富度八个内容层面的条件变量。通过清晰集定性比较分析,发现了三条典型的微观内容组态,将之归纳为专业分析型、信息描述型以及事件汇总型,并通过对微观案例的阐释分析了条件变量间联动效应的发生机制。将微观案例阐释归纳并回归理论的主体框架,得出如下结论:话题型数据新闻达到高热度传播需要具备良好的数据专业化水平;权威来源数据适用于事件汇总型新闻,而非权威来源数据适用于信息描述型新闻;动态交互图表适用于严肃议题的硬新闻。本研究在应用层面对数据新闻实践具有指导性意义,在理论层面证明了数据新闻社交化传播具有复杂性,并对其传播逻辑进行了初步探索。
关键词:数据新闻;定性比较分析;内容生产;传播效果;数据可视化
中图分类号:G210.7 文献标志码:A 文章编号:1674-8883(2023)04-0012-04
一、研究缘起
数据新闻是由数据驱动的,从数据中发掘新闻线索,通过数据分析提炼新闻故事并进行可视化呈现的新闻实践类型[1]。作为一种实践导向的新闻理念,其自身的概念界定较为宽泛,理论源流是“精确新闻”与“计算机辅助新闻”理念,因为大数据技术的发展而兴起,标志性事件是《数据新闻手册》的出版。
国内引入数据新闻理念始于PC互联网时代,而后移动互联网的革新使数据新闻实践逐渐转向移动端,数据新闻的社交化传播成了重要的研究方向。数据新闻在国内移动端社交媒体平台传播乏力的问题比较突出[2],但现有的研究大多局限于对内容生产的归纳与批判[3],缺乏对传播效果的关注。而常规的定量分析只计算净效应,忽视了数据新闻社交化传播影响因素间潜在的联动效应。
因此,考虑到数据新闻概念自身的复杂性与交叉性,本研究从新闻本位、数据应用和数据可视化三部分出发,构造数据新闻内容层面分析框架“新闻—数据—可视化”,拟通过定性比较分析的方法,探究内容层面的要素如何影响数据新闻在微信公众平台上的传播,以及高热度传播的数据新闻应具备何种内容组合逻辑。
二、研究方法及设计
(一)研究方法:清晰集定性比较分析
定性比较分析法是一种结合了定性与定量优势的混合研究方法,其原理是基于集合论的因果推断。相较于只计算净效应的相关分析方法,该方法具有将变量间联动效应纳入分析的优势,适用于多因并发的复杂性因果问题[4]。
数据新闻的社交化传播是一种复杂的传播现象,其内容层面由数据驱动、新闻本位与数据可视化三个面构成,具备诸多影响因素,高热度传播案例具备多种构型,是典型的多因一果的复杂因果问题,适用于定性比较分析法。
定性比较分析法主要有清晰集和模糊集两种范式,其中清晰集是最经典、应用最广泛的范式。本研究采用清晰集定性比较分析法,特点是所处理的变量均为二分变量。
(二)案例选取
本研究采用共时性多案例比较的视角,参考现有研究的取样范围,选取了最具代表性的三个类型化生产数据新闻的微信公众号:网易数读、谷雨数据以及澎湃美数课。现有研究的样本多截至2019年,所以本研究将2020年作为观察的窗口期,因疫情的影响,为避免突发性事件导致的议题偏态,同时将2021年的数据新闻纳入案例库。
将网易数读、谷雨数据和澎湃美数课2020年与2021年两年内发布的总计563篇文章纳入案例库,阅读量采集时间为2022年12月28日。对案例库的文章进行文本细读,充分掌握案例。由于定性比较分析在中小规模样本上表现更好,因此遵循立意抽样的原则,按照相同结果间具备最大异质性、不同结果间具备最大同质性的操作标准,从案例库中选取了《千年一遇的郑州暴雨,到底有多大》《中国大学最卷的专业,让我读上了》《中国吃肉地图,北方输惨了》等55个案例进行定性比较分析。
(三)条件变量设计与赋值
1.新闻主题
新闻主题是新闻内容的集中体现,参考现有研究的分类体系与新闻主题类别的标准文件,将数据新闻按照主题分为五类:社会民生、环境健康、文化科教、体育娱乐、消费商业[5]62。根据新闻价值的高低对其做进一步合并,将社会民生、环境健康、文化科教归类为硬新闻,将体育娱乐和消费商业归类为软新闻[6]。
2.选题性质
选题方向意味着类型化的生产模式,从选题的性质出发,可将数据新闻分为话题型和事件型[7]。话题型是指报道主体是时效性较弱的周期性话题,一般呈现生活化与娱乐化的特点;事件型是指报道主体是时效性较强的新闻事件,主要针对新闻事件本身来搜集相关数据进行解读。
3.新闻叙事
新闻叙事是陈述新闻内容的核心逻辑,数据新闻叙事的革新在于数据成为主导叙事逻辑的关键因素。数据新闻叙事的主要模式可归纳为历时叙事、共时叙事、社会关系叙事和数据关系叙事。历时叙事围绕时间维度展开,重在展现变化和趋势;共时叙事围绕空间维度展开,重在进行分类和比较;社会关系叙事围绕社会网络的节点和联结展开,重在展现主体间的关系与互动,大多应用社会网络分析法;数据关系叙事通过数据挖掘,探寻社会问题中变量间的相关关系与因果关系[8]。前两者形式更简洁,应用普遍,且经常组合使用,因此将之统称为时空叙事;后两者则是数据驱动下产生的模式,数据分析更专业,因此将之并称为关系叙事。
4.数据来源
作为数据驱动的新闻,数据来源是新闻内容质量的关键因素。数据来源渠道多样,根据权威性的高低,可对众多数据来源渠道划分为两类:政府、院校及研究机构、非营利性组织等统称为高权威性数据来源(简称权威来源),企业、第三方服务商以及自行采集等渠道统称为低权威性数据来源(简称非权威来源)[9]。
5.数据类型
数据不仅是数值,广义上的数据还包括文本、图像、浏览记录以及音视频等。就数据格式而言,数据可分为结构化数据与非结构化数据。结构化数据是指经过标准化处理的存储于数据库中的数据,严格按照预定义的格式呈现;非结构化数据是指未经编码的原始数据,比如社交平台上的用户文本。一般而言,结构化数据的获取与应用相较于非结构化数据更加便捷;但非结构化来源更广泛,多为田野中的原始资料,潜在的新闻价值更高。
6.数据处理程度
作为从数据中发掘新闻线索与论证依据的数据新闻,对于原始数据的加工处理与分析是新闻生产的关键环节,代表了自身的专业性。对于数据而言,最简单的处理是直接呈现;初级的处理是描述数据的分布特征,如比值、均值、众数等;更进阶的处理是应用多元统计分析方法,如相关、回归、聚类、降维等[10]。结合案例的特点,将直接呈现数据与描述分布特征统称为初级数据处理;而应用多元统计分析方法,则视为高级数据处理。
7.可视化类型
数据的可视化呈现是数据新闻的重要组成部分,对多维数据进行组织与呈现,使之形成直观且生动的图表,符合大众传播的逻辑。数据的可视化类型可分为静态图表、动态图表和多感官形式三类[11]。静态图表即所有无动画设计的基础图表,如柱状图、折线图、散点图等;动态图表是指在静态图表的基础上进行动画设计的形式,如动态数据地图等;多感官形式是指通过多种感觉器官同时传递信息的形式,包括视频和音频。
8.可视化形式丰富度
可视化呈现形式具体种类的多寡代表了简洁与丰富两种不同的可视化风格,数据新闻学者普遍认为,丰富的可视化形式能有效增强数据呈现的准确性与视觉效果,但现有的研究还未证明该观点在社交化传播中成立[5]64。因此本研究参考现有研究的分类标准,将可视化具体形式的种类数按照数值大小划分为两个水平:可视化具体形式种类数在一到四种之间为有限度的可视化形式,五种及以上则为多样化的可视化形式。
按照条件变量设计的编码原则,两名编码员分别对55个案例进行独立编码,采用霍斯提公式对结果进行信度检验,各变量的信度指均在0.9到1之间,表明各条件变量的编码信度较强,具有良好的内部一致性。
编码完成后,采用“二分归属原则”[12]对变量的权重比例进行二分阈值,大于50%的案例变量赋值为1,小于50%的案例變量赋值为0。具体而言,新闻主题方面,硬新闻赋值为1,软新闻赋值为0;选题性质方面,话题型赋值为1,事件型赋值为0;新闻叙事方面,时空叙事赋值为1,关系叙事赋值为0;数据来源方面,权威来源赋值为1,非权威来源赋值为0;数据类型方面,含有非结构化数据赋值为1,仅包含结构化数据赋值为0;数据处理程度方面,初级处理程度赋值为1,高级处理程度赋值为0;可视化类型方面,静态信息图表赋值为1,动态交互图表和多感官形式赋值为0;可视化形式种类数方面,有限度的可视化形式赋值为1,多样化的可视化形式赋值为0。
(四)结果变量设计与赋值
对于公众号文章而言,阅读量可视为传播效果的一体化数据,案例库中网易数读文章的阅读量介于1万到10万+之间,中位数为4.4万;谷雨数据文章的阅读量介于1300到29000之间,中位数为6744;澎湃美数课的阅读量介于550到26000之间,中位数为1797。由此可见,各公众号的传播能力存在显著的差异,而公众号传播能力属于传播渠道因素,本研究的研究范围是内容层面因素对传播效果的影响,所以公众号因素在本研究中属于无关变量。为了消除该无关变量的影响,将案例库中各公众号所发布文章按照所属公众号的阅读量中位数进行划分,即高于所属公众号阅读量中位数的文章视作高热度传播,反之则视作低热度传播。研究所选的55个案例中,有40个高热度传播案例,15个低热度传播案例。高热度赋值为1,低热度赋值为0。
三、定性比较分析及结果
(一)单变量必要性分析
对案例的编码进行汇总,得到结果变量和解释变量的数据组合,即真值表。完成真值表构建之后,首先需要对所有解释变量进行单变量的必要性分析,检验单个条件能否成为高热度传播的必要条件。而定性比较分析是通过计算集合间的一致性来确定变量间的必要性关系,当一致性指标大于0.9,且覆盖度达到了0.8时,可将该条件视作结果发生的必要条件[13]。
经fsQCA软件计算后,所有条件变量的一致性均低于0.9,所以任一单一变量均不能构成结果发生的必要条件,需要进一步进行条件组合分析。
(二)条件组合分析
条件组合分析fsQCA软件运算后会生成复杂解、简单解和中间解三种方案,根据组态分析规范,复杂度适中的中间解是最优方案[14]。
本研究采纳中间解方案,经过布尔最小值运算后得到六组条件组合,总体覆盖率为0.8,意味着全部组态能够解释80%的案例,一致性均为1。根据研究结果,本研究发现三种高热度传播的典型微观内容组态。
1.专业分析型
组态1是“话题型*非结构化数据*高数据处理”,覆盖率为0.3。该组态的含义是当选题性质属于常规话题型,且所使用的数据含有非结构化数据,并且使用了多元统计分析方法或数据建模进行数据分析时,该数据新闻容易高热度传播。该构型能够解释30%的案例。
第一类数据新闻大多围绕青年婚恋、考研考公和职场文化议题进行探讨,数据多为社交平台的用户生产文本,最常用的数据分析方法是聚类,即对用户生产文本进行主题聚类,生成关键词词云和相应类别。典型案例是谷雨数据发布的《985高端相亲平台上,名校毕业生正在被挑挑拣拣》。文章探讨了名校毕业生的婚恋话题,数据是来自名校生婚恋社交平台上的用户信息,通过对用户的自我介绍文本进行主题聚类,生成关键词词云并进行定类划分,展现高知青年婚恋的主要关注点,并通过对收入和受欢迎程度进行相关分析,展现了婚恋市场中受欢迎程度与收入的正相关性。
2.信息描述型
组态2是“非权威来源*时空叙事*低数据处理”,覆盖率为0.275。该组态的含义是当数据来源渠道以非权威机构为主,在新闻叙事上主要采用时空叙事策略,且数据处理程度仅限于初级水平时,该数据新闻容易高热度传播。该构型能够解释27.5%的案例。
第二类数据新闻大多采用企业、社交平台、第三方服务商或自行调查采集的数据,围绕空间维度或时间维度展开叙事,进行数据的分类与比较;数据处理程度较低,直接呈现原数据或展示其分布特征,常用比值和均值。典型案例为网易数读发布的《知乎上市两个月,我们把它的财报扒了个遍》,通过知乎财务报告的数据分析解读其财务状况、商业模式和内容生态。对各分类要素进行横向比较,通篇为静态图表,多为条形图,用以展示财务数据,对财务数据的分析仅描述其分布特征比值。
3.事件汇总型
组态3是“硬新闻*权威来源*动态图表*形式多样性”,覆盖率为0.175。该组态的含义是当新闻主题为社会民生、环境健康和文化科教这类硬新闻,数据来源渠道以权威机构为主,应用了动态图表或者多感官形式,且应用了5种及以上的可视化具体呈现形式时,该数据新闻容易高热度传播。该构型能够解释17.5%的案例。
第三类数据新闻大多数为新冠肺炎疫情议题,所采用的数据多为各级政府和卫健委发布的感染数据以及流调报告,对这些数据进行社会网络分析和传播路径分析,阐释突发疫情的传播与扩散,同时使用动态图表和视频等形式来达到较好的视觉效果。典型案例为澎湃新闻发布的《从首例到“封城”,这763份确诊详情还原了新冠病毒向全国扩散的路径》,对各级卫健委公布的确诊病例信息进行汇总,使用动态数据地图和传播网络图清晰且形象地展示了疫情从武汉向全国扩散的传播过程,同时用流程图展示了导致人际感染的三种微观互动形式。该文发布于武汉“封城”后的关键时间段,达到了良好的传播效果。
(三)稳健性检验
根据定性比较分析的应用规范[15],本研究采用增加變量的方式进行稳健性检验。增加条件变量“报道对象”,对象人群为无特定年龄段赋值为1,特定年龄段则赋值为0。覆盖率最高的三种典型组态与新组态之间存在清晰的子集关系,所以现有的研究结果较为稳健。
四、结论与讨论
数据新闻的社交化传播是多因素决定的结果,现基于组态分析结果回归“新闻—数据—可视化”的主体框架进行阐释。
在新闻属性上,话题型选题是主要的数据新闻类型,该倾向与采编权以及新闻加速[16]相关联。组态1显示,高热度传播的话题型数据新闻呈现专业分析的特点,会运用较高水平的数据分析方法对非结构化数据进行深度挖掘,具有较高的数据专业化水平。而阅读量高的事件型数据新闻往往不具备固定的内容组态,而是根据事件特点具有不同构型,如《一图|南京疫情相关病例已途经15省份27市》的简洁式“一图流”,以及《从首例到“封城”,这763份确诊详情还原了新冠病毒向全国扩散的路径》的复杂分析型。
在数据应用上,权威机构数据与非权威机构数据适应不同的内容条件组合,权威来源数据适用于事件汇总型,非权威来源数据适用于信息描述型。经微观观察发现,政府机构等权威数据通常比较全面,不直观,需要结合较高的可视化水平才能有效传播。而非权威来源的数据大多为企业与信息服务商的周期性报告,时效性强,主题多元化,在面向具体问题与细分领域时具有更强的适用性,适应大量的话题型内容的生产。
在可视化层面,当动态交互图表应用于使用权威机构数据的硬新闻议题时,能够取得良好的传播效果,即组态3所示的事件汇总型新闻。这说明动态交互图表更适用于严肃议题,用信息处理的核心路径和边缘路径来解释,即复杂图表的审阅更偏向于核心路径,需要注意力的高度投入。因此,复杂图表不应作为吸引眼球的视觉奇观而泛用于软新闻或娱乐题材中。
五、结语
区别于以往的质性观察和回归分析,本研究采用定性比较分析法对社交化传播环境中数据新闻的传播机制进行了微观探索。研究发现,数据新闻的社交化传播属于多因一果的复杂过程,新闻属性、数据应用以及可视化呈现三个部分共同构成了数据新闻这一有机整体,并在社交化传播中产生联动效应。在新闻主题、选题性质、数据类型、数据来源、数据叙事、数据处理程度、可视化类型以及可视化形式丰富度八个条件下,形成了对“数据新闻高热度社交化传播”的影响因素的微观理解。本研究发现,存在三种典型的内容微观条件组合,分别是专业分析型、信息描述型和事件汇总型,该研究结果对新闻生产具备一定参考价值,同时对数据新闻社交化传播机制的理论化进行了初步的探索。
参考文献:
[1] 方洁,颜冬.全球视野下的“数据新闻”:理念与实践[J].国际新闻界,2013,35(6):73-83.
[2] 黄志敏.什么是优秀的数据新闻[J].新闻记者,2019(3):13-14.
[3] 刘义昆.大数据时代的数据新闻生产:现状、影响与反思[J].现代传播(中国传媒大学学报),2014,36(11):103-106.
[4] 毛湛文.定性比较分析(QCA)与新闻传播学研究[J].国际新闻界,2016,38(4):6-25.
[5] 唐铮,丁振球.数据新闻的社交化传播之困:基于两个数据新闻微信公众号的定量研究[J].新闻记者,2020(11):59-67.
[6] 刘建坤,方洁.数据新闻领域专业规范的确立与变化:基于全球数据新闻奖历届作品的内容分析[J].新闻与写作,2017(12):80-84.
[7] 方洁,高璐.数据新闻:一个亟待确立专业规范的领域:基于国内五个数据新闻栏目的定量研究[J].国际新闻界,2015,37(12):105-124.
[8] 张超.数据新闻复杂叙事的四个维度[J].电视研究,2018(2):38-40.
[9] 孙欢.网易数读微信号数据新闻内容呈现及传播效果研究[D].长春:吉林大学,2022.
[10] 陈鹏.网易数读微信号数据新闻传播效果研究[D].大连:大连理工大学,2021.
[11] 翟红蕾,陈一凡.数据新闻微信公众号叙事角色变迁与数据传播创新:基于“数读”微信公众号的内容分析比较研究[J].新闻与传播评论,2019,72(6):55-67.
[12] 苏宏元,黄晓曦.突发事件中网络谣言的传播机制:基于清晰集定性比较分析[J].当代传播,2018(1):64-67,71.
[13] 何俊志.比较政治分析中的模糊集方法[J].社会科学,2013(5):30-38.
[14] 杜运周,贾良定.组态视角与定性比较分析(QCA):管理学研究的一条新道路[J].管理世界,2017(6):155-167.
[15] 张明,杜运周.组织与管理研究中QCA方法的应用:定位、策略和方向[J].管理学报,2019,16(9):1312-1323.
[16] 王海燕.加速的新闻:数字化环境下新闻工作的时间性变化及影响[J].新闻与传播研究,2019,26(10):36-54,127.
作者简介 涂宇荣,研究方向:新媒体传播、数据新闻。