APP下载

新闻业应用大数据:展望、误区与对策

2016-01-29

中州学刊 2015年6期
关键词:客观性阈值大数据

张  超   钟  新



新闻业应用大数据:展望、误区与对策

张 超钟 新

摘要:大数据时代,新闻业将发生三个方面的变化:在新闻报道样式上,由数据新闻升级为大数据新闻;在新闻生产的受众观上,由类型化受众观变为个人化用户观;在新闻产品的本质上,由易碎的信息转向高附加值的知识。在大数据时代初期,人们对大数据还有诸多误解,如认为大数据的分析是客观的、大数据的数据采集都是全样本的、大数据的结论一定是正确的。大数据对于新闻业态的重构是革命性的,新闻业需要主动、积极地迎接大数据时代,包括对大数据资源的主动积累、获取,对大数据技术的主动接轨和掌握,对大数据新闻的常态化实践,还要提升新闻业者的“大数据素养”。新闻业应用大数据需要再审视。

关键词:大数据;大数据新闻;客观性;阈值

有关大数据的探讨自2008年《自然》杂志推出大数据专刊就已开始,但大数据真正成为世界范围内的热门话题是以2011年6月美国麦肯锡咨询公司发布的研究报告《大数据:下一个竞争、创新和生产力的前沿领域》为起点。在中国,“大数据热”也持续升温,从IT领域扩展到各行各业,与大数据有关的研究在中国逐渐成为一门显学。2013年被称为中国的“大数据元年”。

大数据备受推崇,被称之为“一场生活、工作与思维的大变革”①。而大数据时代的新闻业也被寄予期待。在传媒领域,以社交媒体为代表的新媒体利用大数据展开诸多尝试,而传统媒体也在思考如何应对大数据时代的到来。2013年,《纽约时报》《卫报》等老牌纸媒已利用大数据挖掘技术,推动新闻向“利基化”“纵深化”发展②;2014年中国电视新闻也开始运用大数据,开启了“中国大数据电视新闻时代的元年”③;这些举措为学界、业界一致叫好。而当前,新闻业对大数据的认知误区已经显现,大数据发展中存在的问题也引起关注,新闻业如何迎接大数据时代等问题需要我们重新审视。

一、大数据时代新闻业的展望

大数据的特点被总结为四个“V”:Volume(容量大)、Variety(种类多)、Velocity(速度快)、Value(价值大)。应用大数据将会给新闻业带来以下三个方面的变化。

1.新闻报道样式的变化:由数据新闻升级为大数据新闻

数据新闻的缘起可追溯至20世纪60年代的精确新闻报道,在历经了计算机辅助报道、数据库新闻之后,如今的数据新闻是基于数据挖掘与分析思维的新闻报道,也是数据驱动型的调查性报道或深度报道。④《数据新闻学手册》认为,数据新闻的特点是:记者和编辑利用充裕的数字信息,将传统的新闻敏感和引人入胜地讲述故事的能力相结合。⑤数据新闻将深度与可视化结合起来,数字平台上的数据新闻还具有互动性。

大数据时代,数据新闻的内涵将极大拓展(见图1),大数据新闻将成为数据新闻的重要组成部分。何谓大数据新闻?基于大数据技术,运用可视化和互动性手段,对社会某一热点问题进行宏观和中观的呈现、解释或预测的新闻样式即是大数据新闻,大数据新闻是深度报道的一种类型。大数据新闻与传统数据新闻最大的不同在于它运用的是大数据技术,其数据主要是非结构的或半结构的,而不是结构性数据。

钟新,女,中国人民大学新闻学院教授,博士生导师(北京100872)。

图1 数据新闻的构成

大数据时代,大数据新闻将成为新闻业“内容为王”的核心竞争力之一。大数据新闻可以通过大数据挖掘与分析,通过关联分析和因果分析,从关注社会表层现实到发掘社会深层现实,极大地拓展人们对新闻事件或社会现实的认知与把握。这一新闻样式一经推出便受到欢迎,如央视《晚间新闻》2014年推出的“据说系列”,该系列每日收视率通常高于《晚间新闻》前3个季度的平均收视率。

随着技术的进步,人们的态度、情绪、行为等都可以变成数据进行分析和预测。如媒体可通过情感分析来测量和判断社交媒体上用户群的态度。2012年美国大选时,推特(Twitter)通过对用户每天推文和评论的关键词进行量化跟踪,计算出“政治指数”来判断民心所向⑥。大数据的核心是预测,以往新闻事件的预测多由专家、智库做出,大数据新闻使新闻媒体对某一新闻事件事态发展的预测能力大大加强。对于精确新闻报道和预测性报道而言,大数据技术的应用无疑会提升新闻报道品质。

2.新闻受众观的变化:由类型化受众观变为个化用户观

从西方大众报业以受众为导向开始,近200年间新闻业的受众观经历了“想象”的受众观到类型化受众观,再到用户观的转变。

“想象”的受众观是指新闻采编人员“设身处地”的设想受众可能会对哪些内容感兴趣,从而指导新闻生产。类型化受众观则是伴随现代受众调查技术的发展成熟而树立起的受众观,通过对受众的抽样调查,总结出受众的类型。媒体的专业化是类型化受众观的具体表现。随着新媒体技术的发展和媒介间竞争的激烈,受众呈碎片化发展,这对新闻媒体的信息传播提出更高的要求:既要提供信息,又要提供“体验”。如今的受众观变成了“准确”的用户观,即准确定位,在类型化受众之下继续细分。媒体基于用户过往的新闻内容阅读特征,随后推送有针对性的新闻,“今日头条”的运营模式即是如此。

大数据将“准确”的用户观继续深入,由准确定位变为精确定位,真正满足用户的碎片化需要,这种用户观可称之为个体化用户观。随着穿戴式智能设备和移动位置服务的广泛普及,物联网将用户与新闻媒体勾连起来,个体化用户观念将成为新闻生产的主导观念。大数据时代的新闻推送是基于物联网提供的信息,即具体的情境向用户推送信息,包括地理位置、使用时间、个人生理、日常行为等因素,是一种完全智能化地信息推送,真正使新闻生产在版本上精确化,在推送上个人化。可以这样说:“想象”的受众观,受众是模糊的;类型化的受众观,受众是可知的;“准确”的用户观,用户是可了解的;个体化用户观,用户是可理解和可预测的。这也意味着大数据时代媒体对用户的研究,比以往更复杂。

3.新闻产品本质的变化:由易碎的信息变为高附加值的知识

大数据时代新闻报道与客观现实的关系发生了变化,由折射现实向反映现实转变,人类将步入镜像化生存的时代。镜像化生存是一种以计算机、网络等硬件为基础,以数字化数据及其运算来表征显示物质世界中各种真实关系的生存方式。⑦这使新闻产品的性质也发生了质变:由信息变为知识。大众传媒自诞生之日起,基本功能在于传播信息,知识生产只占传媒产品的很少一部分,科研机构、研发企业等是知识生产的主要来源,媒体承担的是知识传播的平台角色而非生产角色。

大数据可以让新闻业真正成为社会的“瞭望者”。大数据将媒体推向知识生产的前台,因为媒体不仅有生产信息的能力,亦有生产知识的能力。这种从折射现实到反映现实的转变,使得媒体有能力以无限接近真实的状态反映世界,从而具备知识的生产能力。

媒体运用大数据进行新闻报道,从某种意义上说相当于一次科学研究,通过“数据—信息—知识”的进阶,使拟态环境与客观现实无限重合,带来的是受众内心感知的现实无限重合,即媒体反映现实功能的最大化实现。

从信息向知识的转变,也使新闻产品的“保质期”延长,以生产消息为主的“易碎品”变为挖掘社会现实的知识,使新闻的附加值增加。以往一次性售卖的信息,在变为知识后,可以通过媒体二次售卖,或依据大数据结果分门别类多次售卖。新闻产品本质的转变也使媒体的功能得到拓展,如在提供财经资讯方面,可以利用大数据挖掘出来的知识为企业提供市场预测服务,延伸媒体的产业链。目前传统媒体依靠广告为主的盈利模式已经触到“天花板”,利用大数据技术为新闻产品增值,拓宽媒体的盈利渠道,是可行的新路径。

二、当前新闻业对大数据应用的认知误区

随着大数据技术的应用,一些现实问题也暴露出来。比如被人们奉为圭臬的《纸牌屋》,经验却难以复制,“大数据”其实只是奈飞公司(Netflix)的一个营销噱头。⑧我们对大数据时代新闻业的展望是建立在大数据技术成熟、大数据资源互联互通与开放的基础之上的。但不可回避的现实是,大数据变革正处于其最初阶段。⑨学界、业界当前的探讨多聚焦大数据对新闻业带来的美好前景,而对大数据技术和大数据的发展欠缺客观、全面的认识和思考,相关阐述多理想化,甚至对大数据存在误解。因此重新审视大数据、客观看待大数据至关重要。目前新闻业对大数据的认知误区主要集中在三个方面。

1.忽视算法:大数据分析的客观性误区

有人认为新闻业对于大数据技术的应用使新闻报道由“用事实说话”转变为“用数据说话”,保证了新闻的客观性,因为“有效加工的大规模数据可揭示更大范围内的或更接近事实的情状”⑩。大数据新闻运用社会科学研究的方式探寻事实及其背后的联系,有助于媒体建立起面对复杂社会问题时进行新闻报道的透明性。按照这个逻辑,大数据技术的确可以保证新闻的客观性。

但这个逻辑恰恰是一个陷阱,大数据是客观存在的,大数据中的数据、数据挖掘与分析却并不是客观的。大数据反映客观现实的准确性不在于数据量,而在于数据来源、异质数据和数据处理分析中的模型和算法。数据相同,而模型、算法不同,其结果可能存在差异甚至相反。以社交媒体数据为例,数据清洗的过程决定哪些自变量、因变量被考虑,哪些被忽略,这个过程本质上是主观的。因此数据样本是否足以代表整体、数据算法是否足以体现与现实的关联、对数据的解读是否尽可能抛弃主观性,直接决定数据的客观性、可信性。

图2 大数据技术架构

资料来源:冯登国、张敏、李昊:《大数据安全与隐私保护》,《计算机学报》2014年第1期。

可见,大数据技术不是一款简单的数据分析软件,要从大体量、多类别的数据中快速提取价值,几乎需要重构整个数据库技术。正如《原始数据只是一种修辞》的作者丽莎·吉特曼所说:“数据从来都不可能是原始存在的,因为它不是自然的产物,而是依照一个人的倾向和价值观念被构建出来的。我们最初定下的采集数据的办法已经决定了数据将以何种面貌呈现出来。数据分析的结果看似公正客观,其实价值选择贯穿了构建到解读的全过程。”所以大数据技术并不必然保证新闻客观性,客观性有赖于大数据及其技术的成熟和完善,尤其是在大数据时代初期,不能盲目信任大数据的分析结果。

2.忽视阈值:大数据采集的全样本误区

大数据的基础是数据挖掘和数据处理。2012年末,非结构化数据占互联网数据的75%以上。大数据时代的关键并不在于获取更多数据,而是从数据中挖掘知识。从数据到知识转化的过程中,数据处理是核心的一环。有研究者指出大数据是全数据、全样本,但实际上大数据不可能等于全数据,全数据是一个理想化的、相对的概念。数据是动态产生的,采集数据只能获得一段时间、某些平台的数据(有些数据并不公开,或定期自动删除)。

虽然大数据时代新闻生产中知识所占比重将越来越大,但是新闻业不是一项非盈利事业,新闻生产的投入与产出、经济效益与社会效益、叫好与叫座等是现实问题。解决问题最关键的环节在于大数据技术中的阈值(threshold),即解决一个问题所需要的数据量。有关阈值的问题也被称作“预言性数据分析问题”,即“在做大数据处理之前,我们可以预言,当数据量到达多大规模时,该问题的解可以达到何种满意程度”。

新闻业的竞争已经从“今日新闻今日报”发展到“现在新闻现在报”,新闻时效的竞争更加激烈,如果追求全样本、反映复杂现实,忽略了高效的阈值,必然影响新闻时效性。而阈值与新闻的生产成本也直接相关。解决好阈值问题可以节约新闻生产成本、提高新闻生产效率,否则大数据新闻会沦落为“奢侈品”。大数据样本的关键不在于全样本,而在于真数据、异质数据、厚数据。

3.忽视情境:大数据结论的适用性误区

通过大数据技术做出的预测已有诸多成功的尝试,如2009年“谷歌流感趋势”曾成功预测了流感在美国的传播。预测准确、数据说话、大体量数据采集往往被视为大数据分析结论可靠性的保证。然而大数据技术也有失灵的时候,“谷歌流感趋势”在2011—2013年的流感预测不尽如人意,原因在于大数据虽擅长观察人们的行为,但不擅长理解人们对每样事物的背景知识。大数据不善于结合具体情境分析问题,分析出的数据结果不能简单套用,而是有一定的适用范围。除了“算法”,大数据还包括对数据的分析、阐释,这些环节并非数据处理的强项,这也就是大数据之所以擅长相关关系,而不是因果关系的重要原因。而新闻报道探寻的不仅是相关关系,更重要的是因果关系。TOW数字新闻研究中心的研究者尼克·蒂亚克普洛斯认为:“数据自身并不意味着真实。是的,我们通过诚实的推理过程可以在数据中找到真相,但是也可找到多个真相,甚至是完全的假相。”

大数据的这一弱项对新闻业是一个“致命伤”。对新闻业而言,真实性是立身之本。如果说预测性报道出现失误情有可原的话,那么对于非预测性报道,对大数据结论的阐释和适用性要保持高度警惕。以2014年的《据说春运》为例,记者用分析后的数据“还原”到现实,结论的可信性却受到质疑,原因在于记者可能带入“太多随意和武断的推论”,使数据的适用逻辑出现偏差。因此记者用大数据进行新闻报道时,应该对大数据有客观认知,注意大数据结论的情境,以判断适用范围,避免以偏概全。大数据时代更需要记者对现实世界保持敬畏心。

三、新闻业如何迎接大数据时代

大数据对于新闻业态的重构是革命性的,新闻业的走向很大程度上取决于大数据技术的发展。尽管当前大数据技术还存在诸多问题,但不可否认的是,对大数据技术的应用已经成为新闻业的“必修课”。对于新闻业而言,需要重视应用大数据的顶层设计,主动、积极地迎接大数据时代。

1.大数据资源的主动积累与获取

大数据的“原材料”是数据,在大数据时代,得数据者得天下。但新闻媒体尤其是传统新闻媒体并未掌握这些海量数据:一方面,传统媒体在新媒体时代来临之前,积累数据较为困难,且数据已过时;另一方面,在媒介融合过程中,媒体侧重内容生产和渠道延伸,忽视了线上数据资源的积累与获取。

除了媒体自身原因,媒体外的数据垄断是导致大数据缺乏的另一主要原因。当前大数据主要掌握在政府、企业和各数据终端平台(如百度、新浪、腾讯等)上。这些数据终端平台的数据并未实现互联互通,数据垄断已经形成。作为以“内容为王”为核心竞争力的行业,占有数据即是占有内容,新闻业应抓住当前大数据兴起的初级阶段机遇,通过自身和合作等多种形式主动占有、获取数据资源。

2.大数据技术的主动接轨与掌握

大数据时代已经开启,但是大数据技术还并未普及。新闻媒体在大数据时代掌握主动权,必须主动接轨与掌握大数据技术。

当前新闻媒体的大数据新闻实践多通过合作的方式进行,例如央视《晚间新闻》的“据说系列”,就是央视与多家互联网企业展开数据合作的产物,所用数据和技术包括:百度的地图与检索数据、新浪的微博数据、360的网络安全数据和可视化支持、腾讯QQ与微信的社交网络数据、阿里巴巴的交易数据以及拓尔思的数据分析技术等。

技术合作是大数据时代初期媒体可以采取的模式,但从长远看,媒体必须主动掌握大数据技术,在新闻内容生产方面占得先机。新闻媒体与互联网企业不同,新闻报道必须符合新闻专业主义标准、体现社会效益,不掌握大数据技术,就意味着内容生产是“外包”给互联网公司,技术受制于人,新闻报道真实、客观、公正的品质可能会存在风险。因此大数据时代媒体中的技术部门或内容生产部门中应包含大数据技术团队,该团队将密切关注、学习、掌握大数据最新技术,为新闻生产服务。

3.大数据新闻常态采编模式的积极实践

传统新闻媒体是以编辑部为核心的单体作战模式,而大数据时代新闻生产越来越依赖于媒体内的跨界融合。这种融合不是部门间流水线组装式的合作,而是彼此交叉、自始至终的深度合作,记者、编辑与数据团队成为两个并行又彼此交叉的新闻生产主体。2012年首届国际数据新闻奖获奖作品的运行过程显示,数据新闻比拼的不是采访力量和团队规模,而更看重具有新闻敏感的人与具有数据挖掘、分析与可视化呈现能力的人之间的相互协作。

大数据新闻将是未来新闻报道的“新常态”,但这种常态的形成需要不断实践。当前国内媒体在大数据新闻报道上的尝试已经开始,但这些尝试都是阶段性的,并未形成常态化的报道、发布机制,所以未来有实力的新闻媒体应当将大数据新闻作为新闻生产的着力点,实现差异化定位、抢得市场先机。

4.新闻业者“大数据素养”的积极提升

大数据发展的制约瓶颈之一是人才供给的缺乏,其中的关键在于复合型人才的匮乏。大数据新闻人才的培养主要包括两个层次:一类是大数据新闻的专业人才,这类人既具有新闻专业精神,又具有数据技术基本处理能力,还具备大数据思维。他们是大数据新闻生产的高端人才,是未来新闻媒体人才资源的核心竞争力。另一类是具有大数据素养的新闻业者,他们以新闻报道见长、具备大数据素养,但不一定擅长大数据技术。

大数据素养是大数据时代新闻业者的基本素质,是认识、评判、运用大数据的态度、能力与规范。具体而言,态度层面是指对大数据及其技术有较为全面客观的认识和实事求是的态度;能力层面是指新闻从业者在数据的采集、处理、分析、可视化等方面的能力,他们可以评判大数据对某一问题的分析,而非盲从大数据的结论;规范层面是指新闻从业人员的数据生产、管理、使用、发布过程合情、合理、合法,使大数据新闻的整个流程遵循专业规范和社会规范,在运用中符合新闻专业主义的采编标准。

目前,我国高校的数据新闻专业课程设置滞后于市场需求,因此媒体自行培养、招募团队的人才培养方式是当前国内新闻媒体需要优先考虑的。

这是一个“媒介即讯息”的时代,对于大数据的认识需要动态、发展的眼光,大数据时代新闻业的发展还有很多值得探讨的地方,如数据采集带来的媒介伦理(如隐私权)、唯用户需求导致的“信息茧房”、数据生产带来的数字鸿沟等。大数据需要再审视,大数据时代的新闻业需要思考的还有很多。

责任编辑:沐紫2015年6月

【新闻与传播】

作者简介:张超,男,山东大学(威海)文化传播学院讲师(威海264209),中国人民大学新闻学院博士生(北京100872)。

收稿日期:2015-03-12

中图分类号:G206

文献标识码:A

文章编号:1003-0751(2015)06-0169-05

注释

①[英]维克托·迈尔-舍恩伯格、[英]肯尼思·库克耶:《大数据时代:生活、工作与思维的大变革》,盛扬燕、周涛译,浙江人民出版社,2013年,第1页。②参见史安斌、刘滢:《颠覆与重构:大数据对电视业的影响》,《新闻记者》2014年第3期。③陈超:《中国大数据电视新闻时代的到来——〈据说春运(节)〉〈据说两会〉开创中国大数据电视新闻之路》,财经网,http://tech.caijing.com.cn/2014-04-11/114088088.html,2014年4月11日。④参见喻国明等:《新闻传播的大数据时代》,中国人民大学出版社,2014年,第25页。⑤参见王斌:《大数据与新闻理念创新》,《编辑之友》2013年第6期。⑥参见周翔、刘欣:《数据垄断的困境与隐忧》,《人民论坛》2014年5月(下)。⑦参见贾利军、许鑫:《谈“大数据”的本质及其营销意蕴》,《南京社会科学》2013年第7期。⑧参见方毅华:《电视剧能靠大数据“算”出来吗》,《中国广播电视学刊》2014年第4期。⑨参见美国总统行政办公室:《大数据:抓住机遇、保存价值》,2014年5月,浙江大学历史数据研究小组译,http://www.whitehouse.gov/sites/default/files/docs/big_data_privacy_report_may_1_2014.pdf.⑩郭晓科:《大数据》,清华大学出版社,2013年,第3页。Danah Boyd, Kate Crawford. “Critical Questions for Big Data”. Information, Communication &Society,2012,No.5, pp.662—679.陶雪娇、胡晓峰、刘洋:《大数据研究综述》,《系统仿真学报》2013年增刊。Lisa Gitelman. “Raw Data” is an Oxymoron. From Infrastructures. MIT Press. 2013. 中文可参阅徐端:《大数据战略:个人、企业、政府的思维革命与红利洼地》,新世纪出版社,2014年,第59页。李国杰、程学旗:《大数据研究:未来科技及经济社会发展的重大战略领域——大数据的研究现状与科学思考》,《中国科学院院刊》2012年第6期。Mikkel Krenchel,Christian Madsbjerg.Your Big Data is Worthless if You Don′t Bring It into the Real World,http://www.wired.com/2014/04/your-big-data-is-worthless-if-you-dont-bring-it-into-the-real-world/.David Lazer, Ryan Kennedy, Gary King, Alessandro Vespignani. “The Parable of Google Flu:Traps in Big Data Analysis”. Science,2014,Vol. 343,No. 6176,pp.1203—1205.Alexander Benjamin Howard. The Art and Science of Data-driven Journalism. Columbia Journalism School.中文可参阅郭恩强编译:《数据新闻何以重要?——数据新闻的发展、挑战及其前景》,《新闻记者》2015年第2期。陈力丹、李熠祺、娜佳:《大数据与新闻报道》,《新闻记者》2015年第2期。喻国明:《大数据对于新闻业态重构的革命性改变》,《新闻与写作》2014年第10期。常江、文家宝、刘诗瑶:《电视数据新闻报道的探索与尝试》,《新闻记者》2014年第5期。徐锐、万宏蕾:《数据新闻:大数据时代新闻生产的核心竞争力》,《编辑之友》2013年第12期。

猜你喜欢

客观性阈值大数据
宪法解释与实践客观性
客观性与解释
小波阈值去噪在深小孔钻削声发射信号处理中的应用
基于自适应阈值和连通域的隧道裂缝提取
实现“历史解释”多样性与客观性的统一
比值遥感蚀变信息提取及阈值确定(插图)
论柴静新闻采访对客观性的践行
室内表面平均氡析出率阈值探讨