“数说”新闻离不开数据素养
2016-07-08
“数说”新闻离不开数据素养
众说:数据新闻
数据新闻起源于计算报道,现在已涵盖计算机辅助报道,并演变成交互式、阅读体验等多样的报道方式。Simon Rogers的观点认为,数据新闻不一定是可视化,可以是交互式、简单信息图表、传统文字等多样形式。但采用什么样的方式,数据说了算。由数据来判断是什么哪样的方式呈现。
Simon Rogers还认为,不管用什么方式呈现的数据新闻,它们有两个共同点:一定有数据,一定有统计。不光有数据还要进行分析,这才是数据新闻。在此澄清一个概念,只呈现数据并不是数据新闻,这只能称为数字新闻。
Data Literacy
还有一种观点认为,数据新闻只提供相关性,不用考虑因果性。我不太认同这个观点,因为数据新闻基于数据分析,但核心还是新闻,需要完整的新闻叙事。这个新闻很多时候并不只是单篇的新闻,它是一个完整的、基于数据逻辑分析的。因此讲述新闻故事,不能只提供相关性。
此外,数据新闻记者也有责任帮助受众,跟受众一起寻找真相。若不以因果关系为目的,则更多的是自己在玩数据,自娱自乐。
在我们看来,数据新闻的重要性在于:在不缺失个体的同时,能更宏观地把真实的世界呈现在人们面前。我们传统选择报道标准在于追求案例的典型性、重大性,并找寻新奇的切入点,但这无法用比较宏观的角度来报道新闻事件。大量的普通人的正常生活被置于新闻之外,更多的是日常中的个案被媒体报道,甚至是被发酵、演绎、传播。
作为普通公民,其实很难分清什么是真实世界的面貌,也许出于好奇心,会对触动人心的新奇个案感兴趣,但从社会参与角度来讲,我们更要知道这些个案在真实世界中所处的位置。
我们需要了解这些真相,以便恰当判断个案的影响与意义,并且在此基础之上,才能更加准确地认知自我以及与社会的关系。如果说媒体只专注和致力于报道社会个案、截面,那我们如何能够自信、坦荡地说我们揭示了社会现象?
数据新闻并不一定比传统访谈调研的采写报道更科学、更有深度、更高明,把握不好甚至容易产生更大的偏误。但数据新闻确实为我们提供了从更宏观的角度来看世界的可能,避免了个案有可能带来的偏见,数据新闻更有可能呈现真相,而不仅是事实。
数据新闻的逻辑与呈现信息的特点,在展现问题的全貌、趋势与提供个性化阅读方面有自己独特的优势。
数据新闻的“段位”:数据素养
数据新闻建立在对数据的分析之上,因为媒体的特殊性,一旦发生错误,影响非常广泛。所以不论是记者或是读者都应具备一定的理解数据、辨别数据的能力。以下推荐这本书给大家阅读:《数据素养》,作者是密苏里的副教授、IRE的学术顾问,中国传媒大学的沈浩目前正在组织翻译,应该很快就会和大家见面。
在正式讲何谓数据素养之前,先给大家看一张图片(图1)。
图1
这张图片选用的是一个非洲妇女在劳动的照片,并搭配文字与数据。通过这张图我们可以了解到:妇女做66%的工作、生产世界50%的食物,但所得非常少,只占10%的收入,仅仅拥有1%的资产。图的下方加上了这么一句很有动员性的话:我们可以改变这个事实。如果你是女权主义者,或者你对性别平等非常关注,你会不会被这张照片深深震撼呢?
这张照片的数据来源是联合国发展计划,其数据来源让人觉得可信,但是经过核查,数据并不真实。由此可见,这是为了自己的宣传目的而在数据选用上并不严谨。
接下来给大家看另一个案例,标题为:在尼日利亚被绑架的女孩(图2)。这种情况越来越严重。
图2
其中分析的数据图如下(图3)。
图3
蓝色的线表示绑架的数量,横轴是时间。可以看出,绑架情况越来越严重。但这其实和当地人的认知并不一致,因此让人不禁对数据的可信度产生质疑。
对数据源查实后发现,这些数据并不是来自处理相关案件的政府部门,而是来自媒体报道的数据库。这不是真实发生案件的数据,而是被媒体纪录下来的绑架数量。
为了回应受众的质疑,数据新闻网站538(FiveThirtyEight)对这组数据进行归一化的处理,通过算法排除因媒体报道量的多寡对数据量的影响,我们可以看到数据图表(图4)显示的绑架情况并不是越来越严重。虽然从统计学的方法上来处理数据,让它能更代表真实情况,但因为数据源的选用并不合适,因此统计学的运用在此篇报道无法从根本上解决问题。
图4
另外一个案例:共和党民主党谁更爱看色情网页(图5)?
图5
蓝色、红色分别代表民主党、共和党,并在每个州标明了相应的颜色。这篇报道虽然排除了因人口多寡引起的浏览数不同的问题(所有浏览的总数/总人口数),但仍存在一个问题:IP并不是真实地址,IP无法反映州的真实情况。
还有很多在数据处理的过程中会遇到虚假相关的情况,如以下两张图片(图6、图7)。
随着时间的变化,美国在科学领域的花费与上吊自杀的人数趋近吻合,但两者间到底有关系吗?
图6
图7
从图7也可以看到,掉进池塘人的数量与尼古拉斯凯奇出现在电影的次数,大体两者趋同。
从这两张图片可以得知,我们在分析数据时,若发现特别有意思、反常识的内容,我们更要抑住内心的激动,仔细去核查数据来源与计算。
通过上面的举例,常见的数据陷阱有:1、相关不等于因果;2、数据源使用不当会带来结果偏差,草率带入无法代表A 的B;3、忽略数据背景,个体无法指代全体;4遗漏方法论,在报道中没有注明是使用什么方法。这些都会是使报道被质疑诟病的因素。
当遇到异常数据,第一时间要想到数据异常是什么原因造成:可能是数据录入、数据搜集、数据计算的错误;确定数据异常的原因后,需要判断是否值得进一步深挖异常数值。此外,也要报道呈现规律性的趋势,这对公众来说很重要。
数据素养对于数据新闻记者很重要,我们要通过数据来有效揭示事实真相,在新闻伦理道德标之下来讲故事,为了达成这些目标,数据素养是我们需要具备的知识与能力。
这些知识与能力,至少应该包括以下五点:1、对数据有批判性思维;2、对数据有敏感性;3、有数据搜集能力;4、有数据分析处理能力;5、利用数据进行决策。
总结
对于公众而言,数据新闻常常会用信息图、交互性新闻来呈现,在第一印象上会让读者认为“数据比文字更生动、更加可信”,而无法分辨真伪。因此,作为普通的阅听人,首先要看数据是否有注明数据来源,注明方法论。国外一些国家进行数据的处理时,若不是涉密或是商业合作数据,一般都会公布出来。
若没有数据库,我们可以简单计算、抽检,来看数据是否可信。我们也要有基本的判断能力,数据揭示的现象是否与现实有差异,公布数据的机构之间是否有利益瓜葛。
最后,数据新闻的质量很大一部分取决于我们可以获得什么数据,希望大家一同参与中国数据开放的进程,也希望媒体可以更多的分享你们在报道中使用的数据,供阅听人做一些核查,并方便其他媒体朋友在已有的数据基础上来做更多的挖掘与报道。
论剑Kendo Forum