从去专业化到再专业化：数据新闻对数据科学的应用与趋势*

2019-05-24闪雪萌

中国出版 2019年9期

□文│张超闪雪萌刘娟

长久以来新闻业不被视为理想类型的专业，因为记者技能的专业化程度有所欠缺。但由于新闻业对公共服务的承诺和对自主性的要求，又被认为是一个专业。[1］新媒体时代专业新闻生产者的内容生产特权被打破，采编技能被大规模“业余化”了，[2］新闻业面临“去专业化”的危机，直接蚕食自身合法性。今天公众对媒体专业性的要求并未降低，而在提高。[3］数据新闻的诞生为提升新闻专业性提供了契机。

数据新闻以数据作为认识现实的“原材料”、以数据科学作为求真的方法论、以数据可视化作为表征现实的手段。数据科学方法论将数据新闻与计算机辅助报道、精确新闻、图解新闻区分开来。数据科学是在大数据背景下诞生的新兴学科，是计算机科学、数学和统计学以及专业知识的交集。[4］

数据新闻正在建构自身专业话语，还未完成专业塑造，如何评价数据新闻的专业性成为新问题。全球数据新闻奖自2012年设立以来代表全球数据新闻实践的最高水平，国内外对该奖项作品的研究还未深入触及数据科学方法论。本研究以2013～2018年的获奖作品为研究对象，管窥当前数据新闻在数据科学上的专业水准和发展趋势。

一、全球数据新闻奖作品对数据科学的应用

如何从数据科学角度评价全球数据新闻奖作品？本文从数据采集方式、数据体量、数据类型、数据分析方法和数据处理难度五个维度进行分析。[5］

1.数据采集

作为专业的职业应拥有充分的自主性，保证其实现公共利益，形成特定的声誉。[6］记者在数据采集时对数据科学方法的使用，让一些重要数据采集的控制权转移到记者手中，一定程度上提升了新闻生产的专业性和自主性，但这种提升有限。

在可识别的样本（n=36）中，利用数据科学方法采集数据的样本有6个，仅占16.7%。如“医药幻觉”网站（Medicamentalia.org）用编程语言抓取发展中国家药品价格数据库中的数据；美国国家公共电台的《特朗普和克林顿第一次辩论的事实核查》（Fact Check: Trump and Clinton Debate for the First Time）利用语音实时转录文字的技术，用编程方法获得辩论的原始数据。记者利用数据科学方法独立采集数据的比例较低，一方面因为大量数据掌握在政府和企业手中，记者可通过多种途径获取到；另一方面，一些媒体并未掌握专业的数据采集方法，只能依赖现成数据集。

2.数据体量

大数据时代已经来临，对数据新闻而言，多大体量的数据才能称得上“大数据”？路透新闻研究所《媒体大数据》（Big Data for Media）报告认为，大数据是用太字节（TB）及以上的单位衡量的。国际调查记者联盟的《巴拿马文件》（The Panama Papers）包含2.6太字节数据、1150万份资料，可以称得上大数据新闻。

更多的样本未提供数据体量的说明，本文借用记录数评价这一指标。记录数是一个数据集的行数，达到“万级”可评价为数据体量较大，达到“百万级”的可归为大数据。在可识别的样本（n=30）中，记录数达到“千级”的有14个样本，“万级”的有8个，“百万级”的有3个。

如果将记录数转换成数据体量，大部分样本是小数据。置身大数据时代，为何小数据是“主角”？一方面是数据新闻制作周期的制约。基于大数据的数据新闻生产势必占用更多的新闻采编资源和更长的生产周期，是否值得为大数据新闻投入更多资源需要媒体权衡。另一方面是处理大数据的能力问题。一些媒体“有心”，却“无力”处理大数据。

3.数据类型

数据类型可分为结构化数据和非结构化数据。结构化数据是存储在数据库中具有一定逻辑结构和物理结构的数据，日常新闻处理的数据基本上是结构化数据；非结构化数据是结构化数据以外的数据，它不存储在数据库中，而是以各种类型的文本形式存放，[7］如文本、视频、音频、网络日志等数据。

在可识别的样本（n=33）中，完全使用结构化数据的样本有16个，完全使用非结构化数据的有9个，结构化数据和非结构化数据结合的样本有8个（见表1）。

表1 2013～2018年全球数据新闻奖作品数据类型统计

17个样本包含了非结构化数据，说明数据新闻在处理数据类型上有了很大进步，这是数据新闻业者在数据科学专业技能上的关键突破。

4.数据分析方法

数据分析方法有很多种，数据新闻常用的数据分析方法有描述性数据分析、探索性数据分析、数据库/数据仓库、机器学习和信息检索等。

在可识别的样本（n=31）中，20个样本包含描述性和探索性数据分析，9个样本仅有描述性数据分析。个别样本结合了数据库与数据仓库（3个）、机器学习（2个）等数据分析方法（见表2）。

表2 2013～2018年全球数据新闻奖作品数据分析方法统计

现实是复杂的，映射现实的数据也是复杂的，这要求记者在解释复杂问题时运用多种数据分析方法。加拿大《环球邮报》的《无据可依》（Unfounded）运用“无根据”结案率的均值、极值、分布情况进行了描述性数据分析，还利用相关性检验探索了女性警察和“无根据”结案率的相关性。

国际调查记者联盟的《瑞士泄密》（Swiss Leaks）的原始文件十分庞大，账户信息散布在看似毫无关联的数万个文件中，传统的人工挖掘方式已无法分析这些庞杂的非结构化数据，作品用图形数据库（Neo4j）处理高度联系的数据和复杂的问询，并将这种联系转化为图形节点，探索节点之间的联系，这是将数据库与信息检索相结合的技术。

5.数据处理难度

本文将数据处理难度分为低、中、较高、高四个等级：①直接呈现原数据的评定为“低”；②描述了一维数据的数字特征和分布特征，如均值、中位数、众数、方差、分布函数等，评定为“中”；③描述了数据的特征，还运用了多元统计分析的研究方法，如相关分析、回归分析、降维分析、聚类分析或简单编程，评定为“较高”；④建立了数学模型，进行大数据挖掘或算法创新与改进，评定为“高”。后三个等级可评价为“专业”。

在可识别的样本（n=34）中，在数据处理方面评价为“低”和达到“专业”水平的各有17个样本（见表3）。一半多的作品直接呈现了原始数据，进行了简单的数量、百分比统计。

表3 2013～2018年全球数据新闻奖作品数据处理难度统计

也有一些作品在数据处理难度上体现了较高的水准。“嗡嗡喂”（BuzzFeed）的《隐藏的空中侦察机》（Hidden Spyplanes）利用飞行网站的大量飞行跟踪数据，通过机器学习算法找出疑似联邦调查局或国土安全部飞机的飞行轨迹。算法先定义了一些飞行特征指标，如转弯速度、飞行高度和速度等，然后训练随机森林算法区分、标记好的普通飞机和侦察机数据，算法自己决定区分指标，用训练好的随机森林算法来区分未标记的飞行数据。

《环球邮报》的《快钱》（Easy Money）定义了一个全新的统计指标：国家证券犯罪累犯率。记者通过反复计算、实地调研验证了该指标的准确性，揭示了该国治理金融市场的问题。

如果给每个等级赋分，评定为“低”得0分，评定为“中”得1分，评定为“较高”得2分，评定为“高”得3分，样本平均得分仅为0.94分。可见即便是全球数据新闻奖，相当比例的作品在数据处理难度上很低，许多作品的主要精力仍放在了数据结果的呈现上。

二、数据新闻在数据科学领域的应用趋势

在样本中，数据新闻作品在数据科学专业性的各个指标上高低不均，总体上看，相当多的作品在数据科学上还有很大的提升空间。随着智媒时代的到来，数据新闻在数据科学应用方面将呈现以下趋势。

1.自建数据库：提供个性化服务，创新盈利模式

在开放数据运动的推动下，记者接触的免费数据集越来越多，一些媒体具备了自行采集各类数据的能力。无论是作为一种产品形态，还是一种数据科学分析方法，数据库日益受到媒体重视。全球数据新闻奖也设置了“开放数据奖”鼓励媒体公开与公共利益密切相关的数据库。自建数据库主要有以下两种方式。

现有数据集的质量提升。媒体将开放数据集整理、清洗后变成数据质量更高的开放数据库。在各国政府的开放数据集中，很多存在数据质量和格式问题，公众想获得高质量的数据并不容易。媒体借助既有的开放数据集进行二次加工，不需要额外付费，既可以节省成本，又有助于提升数据库的利用率，树立媒体为公众服务的品牌形象。

创建“利基”数据库，即面向特定细分市场的数据库。媒体依据调查研究的问题，将开放数据、信息公开数据、“泄露”数据、自行采集的数据进行系统整合，创建更具个性特点和用户体验的数据库，可瞄准利基市场，为特定用户开展深度服务。自建数据库还有助于媒体积累数据资源，提升数据新闻生产效率。2016年半岛电视台获“年度最佳突发新闻数据使用奖”的作品《脱轨美铁列车：死亡曲线上的飞驰》（Derailed Amtrak Train Sped into Deadly Crash Curve）之所以能在短时间内完成，在于记者一年前就积累了相关数据。

自建数据库通过交互设计、权威数据、与公共利益相关，建立起与用户的“强关系”，实现社会效益和经济效益的双赢。作为数据产品，数据库有多种盈利模式：①利用数据库带来的流量，进行广告的二次售卖。②提供数据集下载收费服务。③基于数据库提供面向用户的针对性服务。

2.拥抱非结构化数据：展现更广阔的社会现实

全世界数据中80%是非结构化数据，拥抱非结构化数据是大数据时代新闻生产的必然选择。样本中包含非结构化数据的作品占50%，未来非结构数据在数据新闻生产中的比重将进一步加大。

数据新闻对非结构化数据的接纳有以下原因。

开放数据的局限阻碍数据新闻生产。2016年万维网基金会发布的《开放数据晴雨表》显示，在抽查的政府数据集中，只有10%是完全开放的，很多数据集还存在质量问题。非结构化数据比结构化数据更遍在、易得，能为媒体提供更多的数据题材，更好地实现监测社会的功能。

非结构化数据比结构化数据更“诚实”。结构化数据的处理依赖统计学方法，统计学方法注重假设、抽样，不追求全样本，在现实表征中存在一定程度的偏差。非结构化数据则包含完整、连续的信息和关键细节，在现实表征中更可靠、可信。

媒体数据科学应用能力的提升。现在国内外一些主流媒体或雇佣程序员、或通过合作方式，提升自身对非结构化数据的处理能力。非结构化数据挖掘与处理能力将是未来衡量媒体数据新闻生产能力的重要标准，带来的是数据新闻生产的“破坏式创新”。谁有能力处理非结构化数据，谁就能够在大数据时代占据主动权。

3.配置机器学习：提升大数据处理与洞察能力

数据新闻生产智能化也是未来重要的发展趋势，机器学习有望在未来几年内成为记者处理大规模数据集的“标配”技术。

机器学习主要有三类：监督学习、无监督学习和强化学习。监督学习又称有导师学习，指在训练期间有一个外部“老师”告诉网络每个输入向量的正确的输出向量，让程序“照章办事”。无监督学习又称无导师学习，指网络只面向外界，在没有任何指导的情形下构建其内部表征，[8］让程序“自我发现”，如寻找聚类和异常检测。强化学习是以环境反馈（奖/惩信号）作为输入，以统计和动态规划（Dynamic Programming）技术为指导的一种学习方法。[9］通俗地说就是基于环境采取何种行动以获取最大预期收益。

基于以上分类，机器学习在数据新闻的应用有三个方面。

分类和预测。监督学习能帮助记者快速识别和获取所需的数据。这种方法特别适用于处理批量、有规律的数据。记者还可利用监督学习中的回归分析对数据进行预测。《亚特兰大宪法报》的《医生与性侵》（Doctors & Sex Abuse）在数据采集环节先由记者用50个爬虫程序从美国医疗系统中爬取10万多份医生纪律处分文件，用机器学习清理分析文件，检索涉及性侵行为的关键词。[10］监督学习的优劣很大程度上取决于算法设计和“训练”数据的可靠性，否则数据结果会出错。

洞察。面对海量数据，记者的认知和经验是有限的，单纯依靠记者设计的监督学习算法可能会“捡了芝麻丢了西瓜”。无监督学习能自主寻找海量数据间的关联，识别数据中“隐藏的结构”。美联社记者运用无监督学习从14万条人工输入的案件记录中找到枪支滥用的典型案件，推算出如果案件涉及孩子或警察，犯罪嫌疑人故意开枪的概率等。[11］

决策。强化学习可帮助记者在具体环境下决策，这一学习方法在新闻生产中还较为少见。著名的“阿尔法狗”使用的就是强化学习。《纽约时报》推出的“石头、剪刀、布”（Rock-Paper-Scissors）互动页面，系统利用一个人出手势的倾向和模式来获得优于对手的优势。[12］在新闻推送中，一些媒体会利用强化学习确定最有效的头条新闻和内容推送方案。

三、结语

在大数据遍在、人工智能高速发展的当下，数据新闻业需要继续提升数据科学专业水准，增强自身的专业性和不可替代性，才能实现专业塑造，巩固新闻业的合法地位，满足公众对新闻业的期待。

注释：

[1］[6］李艳红.重塑专业还是远离专业?——从认知维度解析网络新闻业的职业模式[J］.新闻记者，2012（12）

[2］周红丰，吴晓平.重思新闻业危机:文化的力量——杰弗里·亚历山大教授的文化社会学反思[J］.新闻记者，2015（3）

[3］彭兰.更好的新闻业，还是更坏的新闻业？——人工智能时代传媒业的新挑战[J］.中国出版，2017（24）

[4］叶鹰，马费成.数据科学兴起及其与信息科学的关联[J］.情报学报，2015（6）

[5］本研究对样本的选取方式是在剔除链接失效的获奖作品后，依据前期设计的分析类目辨识剩余样本。由于不是所有的样本提供原始数据下载或制作方法介绍，有些类目无法辨识，所以不同类目的可识别样本数不同。

[7］张枝令.结构化数据及非结构化数据的分类方法[J］.宁德师专学报（自然科学版），2017（4）

[8］杨盛春，贾林祥.神经网络内监督学习和无监督学习之比较[J］.徐州建筑职业技术学院学报，2006（3）

[9］王雪松，程玉虎.机器学习理论、方法及应用[M］.北京：科学出版社，2009：5

[10］调查记者编辑协会.2016美国数据新闻奖揭晓，深度报道再添范例[EB/OL］.https://cn.gijn.org/2017/01/25/2016

[11］余婷，陈实.人工智能在美国新闻业的应用及影响[J］.新闻记者，2018（4）

[12］Bradshaw.Data journalism’s AI opportunity：the 3 different types of machine learning & how they have already been used[EB/OL］.https://onlinejournalismblog.com/2017/12/14/data-journalisms-ai-opportunity-the-3-different-types-of-machine-learning-how-they-havealready-been-used