基于大数据的不同新闻发布平台新闻关注度对比研究
2018-05-03宿舜杰侯林早
徐 勇 宿舜杰 侯林早 李 冕
1(上海报业集团 上海 200041) 2(上海交通大学密西根学院 上海 200240)
0 引 言
近年来,随着互联网的飞速发展,新闻信息的传播逐渐从过去以新闻媒体为中心集中发布和传播的模式,向终端化、平台化的趋势发展[1]。因此,各种基于互联网的新闻发布平台代替了传统的报纸杂志,成为公众获取新闻的主要途径。对于网站、微博、APP和微信公众号这四种不同的新闻发布平台,它们的使用者群体构成及其偏好存在着明显差异。CNNIC的统计数据显示,微博的用户几乎涵盖了各个年龄层,其中20~39岁网民群体占55.5%[2],而19~30岁的高学历人群则是微信使用的主力军[3]。这些差异也造成了同类新闻在不同发布平台上收获的关注度的差异。如果能够将不同发布平台上各类新闻的关注度进行对比,即可根据对比结果找出更适合某一平台的新闻发布模式,将有效提升新闻发布平台、以及相关新闻的关注度。
新兴的新闻发布平台早已引起了研究人员的注意。文献 [4] 做了较为广泛地调研,将新兴平台与传统平台整体进行对比,进而分析网络新闻的优势所在。此外,也有许多研究具体关注特定平台的特征分析,例如专门发布新闻的媒体以及一些自媒体是如何融入微博和微信这类以分散的用户为主的网络平台[5]。总体来说,新闻传播方面的研究更注重对已有的各种新闻现象做追本溯源的分析,较少使用大量数据来发现隐含特征。新闻与大数据两者的结合更多地出现在研究如何利用大数据提升某一平台新闻推送的用户体验和效果[6-7],以及研究大数据新闻这一有别于传统新闻的新型新闻[8-9]。也有一些研究通过大数据分析单个新闻客户端的运营发展模式[10],而利用大数据对多种新闻发布平台之间进行对比则是较为空白的一个方面。
本文通过分析上海报业集团新闻信息传播系统新闻数据库中记录采集的各类新闻数据,对同一新闻在不同发布平台上获得的关注度做出合理对比。通过大量数据的对比,本文发现并总结了不同的新闻发布平台中隐含的一些规律和特征,并运用这些特征对各个新闻发布平台提出有效建议,帮助平台优化新闻发布的类别和内容。
1 实验方法
本文首先对上海报业集团新闻信息传播系统新闻数据库所采集的各种新闻数据做进一步的处理和对比分析。在这一部分,我们会首先详细介绍上海报业集团新闻信息传播系统新闻数据库中采集、记录的新闻相关数据,以及具体数据的筛选和处理方式,以便呈现整体的实验设置与方法。
1.1 新闻数据库
我们从上海报业集团新闻信息传播系统新闻数据库中导出了分别在网站、微博、APP和微信公众号这四个平台上发布于2017年7月1日至2017年9月30日之间59 966条新闻的相关数据。表1罗列了导出的数据中具体包含的信息及举例。
表1 新闻数据库导出的具体信息
1.2 数据处理
在所有信息导出之后,需要从中筛选出可用于实验的部分并进行进一步的数据处理。本文的主要目的在于通过对比不同新闻发布平台上不同种类新闻所获得的关注度,从而总结新闻发布中具有指导性的规律和结果。这一过程中主要包括了两个对比:第一个对比是四个新闻发布平台之间的对比,另一个对比是每一个平台上不同种类新闻关注度的对比。根据这一研究目的,接下来我们将详细介绍针对这两个对比所需要进行的数据处理过程。
1.2.1 对比新闻发布平台
此次对比分析研究的四种新闻发布平台中,显然新闻网站和微博这两个平台拥有更多电脑端的使用者,而APP和微信公众号这两个平台上手机端的使用者占据了绝大部分的比例。此外,新闻网站和新闻媒体移动客户端APP都是较为正式的新闻媒体发布平台,浏览新闻网站或者使用新闻客户端APP的用户绝大多数是以看新闻为主要目的;而微博和微信公众号这两个平台则是用户日常沟通交流分享信息的衍生平台,官方媒体看重其传播和影响力,因而在这两个平台上面设置自己的微博和公众号。为了保证对比的两个新闻发布平台之间既有一定的联系又有一定的区别,本文从四个平台两两对比的六种组合中选出了四种组合:(1) 同偏向电脑端的网站和微博之间的对比;(2) 同偏向手机端的APP和微信公众号之间的对比;(3) 同为官方新闻媒体的网站和APP之间的对比;(4) 同为独立用户组织的微博和微信公众号之间的对比。
在明确了对比对象之后,需要设置具体的对比标准。新闻关注度在任何两个平台A、B上的对比结果主要是三种:(i) 该新闻在A平台上获得了远多于B平台的关注度;(ii) 该新闻在A平台上获得了远少于B平台的关注度;(iii) 该新闻在A平台和B平台上关注度相差不大。
设a、b分别为表示A平台、B平台上关注度的量化数据(例如,比较网站A和微博B这两个平台,则a可以是网站A渠道上的评论数,b可以是微博B渠道上的评论数)。实验中我们采取的具体对比判断标准可以表示为:
(1)
式(1)计算了两个平台上关注度数据的差值占两个平台上关注度较小的数据的比例。当d显著大于0或小于0时,说明关注度数据的差值已经达到较小关注数据的若干倍,这就表示二者差距明显,d的正负则显示出具体哪一平台关注度更多。当d接近于0时,说明两个平台上关注度数据相差不大。在实际的数据分析中,我们确定了以d>2或d<-2即较大的关注度数据是较小一方的3倍以上作为上述结果(i)(ii)的判断标准,以-0.5 1.2.2 对比不同种类新闻关注度 不同种类新闻关注度的对比是在不同平台之间的对比的基础上进行的。在选定A、B平台以及对应的a、b关注度数据之后,计算所得的判断标准d会在很大的区间内变化。为了更深入地找出潜在规律,我们借助新闻的标题信息和频道信息,挑选出了四大类新闻:政治政情类(对应频道如政情、时政、区情、环球政治、中国政治等),经济金融类(对应频道如财经、创业、地产、商业、金融等),科技教育类(对应频道如工业、科技、科教等)和生活时事类(对应频道如生活、社会、时事等),将判断标准d的三种情况分别基于两个平台上的某一类新闻进行讨论,最终再汇总结果并对比。通过分析不同平台上对不同种类新闻的关注度特点,本文的实验会更全面,从而得出的规律和结果也更具说服力。 结合了新闻发布平台和新闻种类这两种对比之后,实验整体的数据处理流程如图1所示。 图1 两种数据处理流程 如图1所示,本文使用了两种方法进行数据处理。第一种方法在选定对比平台并完成第一次筛选得到有效数据后,先根据投放频道或标题关键字对新闻种类进行筛选(筛选成四类),再对每一类新闻根据判断标准d的三种情况进行分类,然后通过对比这三个百分比的数据进行讨论得出结论。例如,选定APP(a)与微信公众号(b)这两个平台,筛选出所有政治政情类新闻,然后根据d值进行分类。例如,如果d<-2(即APP上关注度明显小于微信公众号)的占政治政情类新闻总量的20%,-0.5 我们使用两种选取方法对同一时间段内的新闻数据进行选取和分析处理。 我们将2017.07.01-2017.09.30区间内的共59 966条新闻的详细信息和数据,按照图1中左侧流程进行处理,即:首先按照频道和关键字等将新闻分为政治政情、经济金融、科技教育和生活时事这四类,然后计算出不同的d值区间包含的新闻占某一类新闻总量的比例,由此分析和比较每一类新闻在不同平台上的分布。 2.1.1 APP与微信公众号的对比 在这个对比中,对比对象为APP评论数及公众号点赞数。原始数据中对于APP平台只提供了转载数和评论数,而转载数并不能很好地反映出新闻关注度。在公众号平台上没有提供评论数,只有公众号阅读数和公众号点赞数,其中阅读数只要读者点击链接即会增加,而点赞数一定程度上反映了读者大致认真地读完了文章,因此与APP上评论数反映的意义相近。对7-9月份数据的处理结果由表2所示,其中d>2表示APP评论数大于公众号点赞数,以此类推。 表2 APP与微信公众号对比 如表2所示,可以对每一类新闻进行单独分析。政治政情类新闻在APP和公众号上收获的关注度分布并不均匀,两个平台各自都有关注度较高的一些新闻,但是总体上微信公众号平台上的关注度较高。经济金融类新闻和生活时事类新闻的总量较多,同时在APP上的关注度明显高于公众号,比如:在APP上关注度高的经济金融类新闻占这个时期所有选取出的经济金融类新闻的半数左右。而科技教育类新闻总量较少,在公众号上有稍高的关注度。 2.1.2 APP与网站的对比 在这个对比中,对比对象为APP评论数及网站评论数。对7-9月份数据的处理结果由表3所示,其中d>2表示APP评论数大于网站评论数,以此类推。 表3 APP与网站对比 由表3可以看出,四类新闻总量为四个对比实验中最多,说明APP与网站还是新闻投放的主要平台。除了政治政情类新闻之外,其他三类都有近半数或以上的新闻在-0.5 2.1.3 网站与微博的对比 在这个对比中,对比对象为网站评论数及微博评论数。对7-9月份数据的处理结果由表4所示,其中d>2表示网站评论数大于微博评论数,以此类推。 表4 网站与微博对比 由表4可以看出,网站与微博这两个平台上对不同种类新闻的总量较少而且关注度区别相对明显。四种类型新闻在微博平台上的关注度都相对较低,以经济金融和科技教育类最为明显。经济金融类和生活时事类新闻在网站上的关注度明显高于微博。政治政情类新闻则相对比较均衡。 2.1.4 微信公众号与微博的对比 在这个对比中,对比对象为微信公众号点赞数及微博评论数(取点赞数进行分析的理由与2.1.1中相同)。对7-9月份数据的处理结果由表5所示,其中d>2表示公众号点赞数大于微博评论数,以此类推。 表5 微信公众号与微博对比 表5中除了政治政情类新闻之外,其他三类新闻在微信公众号和微博这两个平台上所获的关注度有很大差异,微博对这三类新闻的整体关注度要明显高于在公众号上的关注程度。而政治政情类新闻在微信公众号上更受欢迎。 2.1.5 原始数据对结果的影响分析 表2至表5中四种新闻最终筛选出的样本数量有着十分显著的特征:生活时事类新闻的样本最多,而科技教育类新闻最少。总体来说,媒体在四种平台上主要投放的是大众最感兴趣的各种社会时事以及比较关注的金融财经等内容,因此政治政情类新闻和科技教育类新闻的样本较少。 此外,由于对比的需要,只有同时投放在多个平台上的新闻才能提供足够的关注度数据用于进一步处理。在分析了新闻数据库中的数据后,我们发现微博平台上的新闻大多数只在微博上投放,而其余三个平台上的新闻则一般会同时包含多个平台上的数据记录。这一特征在表4和表5中尤为明显:凡是涉及到微博平台的对比,总体的有效样本数量明显下降,因为大量微博平台的新闻样本在其他平台上没有数据,无法进行对比;而科技教育类新闻又是整体新闻中的少数类,因此表4和表5中出现了0%等不合理数据。由于原始数据库在新闻投放类别和平台上的选择性,本文对于科技教育类新闻的分析结果虽然有可能反映出了部分特征,但波动较大,一般性不明显。 综上我们可以发现如下相对规律: 1) 政治政情类新闻在微信公众号上的关注度较高。 2) 经济金融类新闻在网站和APP平台上的关注度较高。 3) 与经济金融类新闻类似,生活时事类新闻在公共平台(APP和网站)上的关注度要明显高于个人社交传播平台(微信和微博)。 4) 微博与微信公众号两个平台上的新闻投放量相对较少。 5) 偏向手机端的APP与偏向电脑端的网站之间的新闻关注度差别并不明显。 我们同样使用7-9月中的共59 966条新闻,先对频道进行筛选。我们只保留诸如财经、城事、生活、金融、民生、区情、时事、政情、中国时政等易于分类的频道,而类似快讯、精选、头条、突发、吐槽、关注、互动等分类不明确的新闻将被剔除。筛选后,剩余新闻数总量为27 942条。 2.2.1 APP与微信公众号的对比 在这个对比中,对比对象为APP评论数及公众号点赞数。7-9月份数据的处理结果由表6所示。以表6为例,首先进行第一次筛选,将两者中的极端值都剔除掉(评论或者点赞数小于等于5的,可认为是未发布或者数据错误)。筛选后,共2 260条有效结果。其中,政治政情类6.4%,经济金融类22.8%,生活时事类61.2%,科技教育类9.6%。 然后计算d值。对d值分三类进行筛选后分析每一类,可以得到如下结果。 1)d>2(APP评论数远大于微信公众号点赞数):共776条。其中,政治政情类7.6%,经济金融类33.0%,生活时事类50%,科技教育类9.4%。 2)d<-2(APP评论数远小于微信公众号点赞数):共233条。其中,政治政情类4.5%,经济金融类26.1%,生活时事类64.3%,科技教育类5.1%。 3) -0.5 表6 APP与微信公众号对比 在对比中,上升/下降幅度在0~5%的,我们认为无显著变化;上升/下降幅度在5%~20%的,我们认为小幅上升/下降;上升/下降幅度在20%以上的,我们认为大幅上升/下降。 通过这些对比分析,我们发现: 1) 与总体数据相比,在APP评论数远大于微信公众号点赞数的情况中,政治政情类新闻所占比例小幅上升,经济金融类新闻所占比例大幅上升,生活时事类新闻所占比例大幅下降,科技教育类新闻所占比例无显著变化。 2) 与总体数据相比,在APP评论数远小于微信公众号点赞数的情况中,政治政情类新闻所占比例大幅下降,经济金融类新闻所占比例小幅上升,生活时事类新闻所占比例无显著变化,科技教育类新闻所占比例大幅下降。 3) 与总体数据相比,在APP评论数与微信公众号点赞数接近的情况中,政治政情类的新闻所占比例无显著变化,经济金融类新闻所占比例无显著变化,生活时事类新闻所占比例无显著变化,科技教育类新闻所占比例大幅上升。 由此我们可以得出结论如下: 1) 政治政情类新闻在APP上的关注度较高,在微信公众号上的关注度较低。 2) 经济金融类新闻在APP上和在微信公众号上的关注度都较高。 3) 生活时事类新闻在APP上的关注度较低。 4) 科技教育类新闻在APP上和在微信公众号上的关注度相差不大。 2.2.2 APP与网站的对比 在这个对比中,对比对象为APP评论数和网站评论数,数据记录在表7中。将两者中的极端值都剔除掉之后获得共5 357条有效结果。其中,政治政情类2.0%,经济金融类20.4%,生活时事类65.6%,科技教育类12%。 计算d值并进行三类筛选后,可以得到如下结果: 1)d>2(APP评论数远大于网站评论数):共1 044条。其中,政治政情类3.0%,经济金融类25.0%,生活时事类62.5%,科技教育类9.5%。 2)d<-2(APP评论数远小于网站评论数):共263条。其中,政治政情类2.9%,经济金融类27.9%,生活时事类61.2%,科技教育类8%。 3) -0.5 表7 APP与网站对比 通过对比分析可以发现: 1) 与总体数据相比,在APP评论数远大于网站评论数的情况中,政治政情类新闻所占比例大幅上升,经济金融类新闻所占比例大幅上升,生活时事类新闻所占比例无显著变化,科技教育类新闻所占比例大幅下降。 2) 与总体数据相比,在APP评论数远小于网站评论数的情况中,政治政情类新闻所占比例大幅上升,经济金融类新闻所占比例大幅上升,生活时事类新闻所占比例小幅下降,科技教育类新闻所占比例大幅下降。 3) 与总体数据相比,在APP评论数于网站评论数接近的情况中,政治政情类的新闻所占比例小幅上升,经济金融类新闻所占比例无显著变化,生活时事类新闻所占比例无显著变化,科技教育类新闻所占比例小幅上升。 由此我们可以得出结论: 1) 政治政情类新闻在APP上和在网站上的关注度都较高; 2) 经济金融类新闻在APP上和在网站上的关注度都较高; 3) 生活时事类新闻在APP上和在网站上的关注度相差不大; 4) 科技教育类新闻在APP上和在网站上的关注度都较低。 2.2.3 网站与微博的对比 在这个对比中,对比对象为网站评论数和微博评论数(如表8所示)。筛选后共有452条有效结果。其中,政治政情类5.1%,经济金融类8%,生活时事类85.8%,科技教育类1.1%。 计算d值可以得到如下结果: 1)d>2(网站评论数远大于微博评论数):共149条。其中,政治政情类7.1%,经济金融类9.7%,生活时事类82.5%,科技教育类0.7%。 2)d<-2(网站评论数远小于微博评论数):共24条。其中,政治政情类4.2%,经济金融类8.3%,生活时事类83.3%,科技教育类4.2%。 3) -0.5 表8 网站与微博对比 通过这些对比分析发现: 1) 与总体数据相比,在网站评论数远大于微博评论数的情况中,政治政情类新闻所占比例大幅上升,经济金融类新闻所占比例大幅上升,生活时事类新闻所占比例无显著变化,科技教育类新闻因样本过少不做分析。 2) 与总体数据相比,在网站评论数远小于微博评论数的情况中,政治政情类新闻所占比例小幅下降,经济金融类新闻所占比例无显著变化,生活时事类新闻所占比例无显著变化,科技教育类新闻因样本过少不做分析。 3) 与总体数据相比,在网站评论数与微博评论数接近的情况中,政治政情类的新闻所占比例无显著变化,经济金融类新闻所占比例无显著变化,生活时事类新闻所占比例无显著变化,科技教育类新闻因样本过少不作分析。 由此我们可以得出结论: 1) 政治政情类新闻在网站上的关注度较高,在微博上的关注度较低; 2) 经济金融类新闻在网站上的关注度较高; 3) 生活时事类新闻在网站上和在微博上的关注度相差不大; 4) 科技教育类新闻因样本过少不做分析。 2.2.4 微信公众号与微博的对比 最后的对比对象为微信公众号点赞数及微博评论数(表9)。筛选后共929条有效结果。其中,政治政情类1.8%,经济金融类15.4%,生活时事类80.6%,科技教育类1.4%。 计算d值的结果如下: 1)d>2(微信公众号点赞数远大于微博评论数):共144条。其中,政治政情类2.1%,经济金融类18.1%,生活时事类77.7%,科技教育类2.1%。 2)d<-2(微信公众号点赞数远小于微博评论数):共55条。其中,政治政情类1.8%,经济金融类11%,生活时事类83.6%,科技教育类5.5%。 3) -0.5 表9 微信公众号与微博对比 通过这些对比分析,我们发现: 1) 与总体数据相比,在微信公众号点赞数远大于微博评论数的情况中,政治政情类新闻所占比例小幅上升,经济金融类新闻所占比例小幅上升,生活时事类新闻所占比例无显著变化,科技教育类新闻所占比例大幅上升。 2) 与总体数据相比,在微信公众号点赞数远小于微博评论数的情况中,政治政情类新闻所占比例小幅下降,经济金融类新闻所占比例大幅下降,生活时事类新闻所占比例无显著变化,科技教育类新闻所占比例大幅上升。 3) 与总体数据相比,在微信公众号点赞数与微博评论数接近的情况中,政治政情类的新闻所占比例无显著变化,经济金融类新闻所占比例大幅上升,生活时事类新闻所占比例小幅下降,科技教育类新闻所占比例大幅上升。 由此我们可以得出结论: 1) 政治政情类新闻在微信公众号上的关注度较高,在微博上的关注度较低; 2) 经济金融类新闻在微信公众号上的关注度较高,在微博上的关注度较低; 3) 生活时事类新闻在网站上和在微博上的关注度相差不大; 4) 科技教育类新闻在网站上和在微博上的关注度都较高。 在APP平台和网站平台上,各类新闻的传播力相差不大。政治政情类新闻都拥有较高的关注度,经济金融类新闻也拥有较高的传播力,而生活时事类与科技教育类相对偏低。由于这两者均是较为正式的传播平台,这样的结果是符合预期的。而在微信公众号和微博上,政治政情类新闻关注度明显下降,经济金融类新闻关注度下降不多,而生活时事类与科技教育类的关注度都有一定的增长(尤其是科技教育类)。由于这两者都是在社交平台上衍生出的信息传播平台,所以传播的信息更加生活化,也符合相关预期。政经类的新闻信息内容与科教生活活类信息内容在不同平台间显示出的关注度的差别,对新闻信息提高关注度、对其内容投放平台以及投放形式的选择,提供了有效帮助。 [1] 李珍晖,朱婷婷.信息扩散与内容生成:个性化新闻平台发展研究[J].现代传播-中国传媒大学学报,2017,39(3):160-162. [2] 阿丽艳.微博这么久,你变了没有?[EB/OL].(2012-09-03).[2017-12-03].http://www.cnnic.cn/hlwfzyj/fxszl/fxswz/201209/t20120903_36009.htm. [3] 阿丽艳.是谁钟爱着互联网时代的微产物——微信?[EB/OL].(2013-01-21).[2017-12-03].http://www.cnnic.cn/hlwfzyj/fxszl/fxswz/201301/t20130121_38606.htm. [4] 徐迎春.从与传统新闻的比较看网络新闻的优势[J].新闻与写作,2002(2):10-13. [5] 赵振祥,王洁.微博与微信:基于媒介融合的比较研究[J].编辑之友,2013(12):50-52. [6] 汪平.大数据时代新闻传播力重构[J].中国广播,2014(11):172-173. [7] 吴刚.基于大数据的新闻传播探析[J].军事记者,2016(2):38-39. [8] 喻国明,李彪,杨雅,等.大数据新闻:功能与价值的初步探讨[J].南方电视学刊,2015(2):39-41. [9] 欧维维.数据新闻:大数据时代的新闻生产转型[J].传播与版权,2015(9):17-18. [10] 王悦.基于大数据的新闻客户端运营模式分析[J].青年记者,2015(23):62-62.2 实验结果与分析
2.1 新闻分类筛选的数据处理
2.2 各类新闻占比的数据处理
3 结 语