APP下载

大数据时代,深度报道须补上数据挖掘的“短板”

2021-11-13黄晓勇

中国记者 2021年9期
关键词:短板数据挖掘深度

□ 黄晓勇

(作者系新华社摄影部高级编辑,中国人民大学新闻学院研究生业界导师)

今年6月8日,美国公益新闻组织ProPublica发布了使用数据挖掘手段生产的深度报道《超级富翁如何避税》,其中称:巴菲特、贝佐斯、马斯克等亿万富豪的纳税税率“远低于普通中产,有些竟然一分钱没交”,一时引起舆论喧哗。

这则轰动新闻是近年来ProPublica利用数据挖掘技术取得的又一成果。ProPublica在创建后不久,就成立了以记者、程序员和数据分析员为核心的数据团队,拿手武器便是从数据中挖掘新闻。借助先进的机器学习和挖掘技术,ProPublica已经发布了大量数据驱动的深度报道,并多次斩获普利策新闻奖,成为数据新闻界的楷模。除ProPublica之外,卫报、纽约时报、路透社等西方主流媒体也着力于数据挖掘方向的深度报道,发表了一批知名作品。

全球兴起的数据新闻热潮近年来逐渐影响我国,头部主流媒体和商业媒体几乎都在此方向投入了大量资源,并获得长足进步。我国数据新闻的发展成果主要集中于数据新闻的前台——数据可视化,而数据新闻的后台核心技术,即对深度报道更为关键、技术含量更高的数据挖掘,在发展上却明显滞后,成为深度报道的明显“短板”。

一、数据挖掘:大数据时代深度报道的利器

数据挖掘(Data Mining)是广义数据分析的重要组成部分,顾名思义是深入研究和分析数据,并在数据中发现隐含知识的过程。这个“数据”并不限于数字,它包括一切可感知、分析、计算的信息,包括数字、语篇、图像、声音、气味、视频等数据形式。

在强大“三算”(算力、算据、算法)技术的支撑下,数据挖掘发展到可以从海量的、模糊的非结构化数据中,通过人机协同的方式,尝试发现潜在的必然联系,简言之就是大数据→信息→知识的过程。当前,“数据挖掘”一般都是“大数据挖掘”的代名词。

深度报道一般是指运用解释、分析、预测的方法,深入探索和阐明事件的内在规律性,揭示事件实质并探索其发展趋向,以反映重大新闻事件和社会问题。当今世界,数字化、网络化、信息化所形成的数字网络成为社会的底层操作系统,重大新闻事件的背后一般都离不开数据的分析和利用。

数据挖掘是深度报道的重要线索来源。近10年来,国内外数据挖掘技术发展迅猛,在用户数据利用、证券交易辅助决策、商品关联销售(如著名的“啤酒与尿布”分析)、预测犯罪与传染病、安全生产、灾害预报、打击走私、情绪分析、交通控制、生产控制等方面成果卓著,而这些领域恰恰又是深度报道的重要线索来源。

在常规方法无法获取线索的情况下,如果记者在办公室中请算法工程师协助,应用数据挖掘软件,从纷繁芜杂的数据中获得“解题钥匙”并完成深度报道。那么,这种生产方式将成为深度报道的最优选择之一。如2019年获全球数据新闻奖(Data Journalism Award,以下简称DJA)数据新闻应用奖的《移民犯罪的神话》,四所大学的研究者搜集了美国200多个都市40年间的犯罪数据并输入数据库,经过数据挖掘得出高移民率与高犯罪率没有正相关的结论,有力地驳斥了“移民带来犯罪”的言论。在这个例子中,“犯罪数据”“没有正相关”“移民犯罪率不高”分别对应“数据”“信息”和“知识”。

在我国,从数据中发现线索也经常成为深度报道的关键,如20世纪90年代开始,我国不时发生矿难人数瞒报、地方统计数据作假等事件,曾多次被记者用深挖数据的方式“揭开盖子”。但严格意义上说,这些记者的工作方式主要是“小数据分析”,并非真正意义的“大数据挖掘”。

数据挖掘为深度报道提供新的数据分析框架。数学建模是数据挖掘的重要前驱流程,也是经常被用到的分析工具。用数学建模的方式模拟新闻事件,已经不是一件新鲜事。2020年2月初,天津大学、南开大学的几名博士生用数学模型还原了天津宝坻百货大楼的疫情扩散事件,其中对传染关系图谱、染病人数、防疫措施的分析令人信服。得益于大数据技术的飞速发展,深度报道背后新闻事件的主体、原因、结果及逻辑关系等元素,目前很多已可用数学模型搭建框架。也就是说,将实际发生的新闻事件“代入模型”,可以经由数据挖掘给出事件发展的逻辑关系。当然,在信息不全的情况下,由数据挖掘给出的结果可能会有太多的选择。此时,深度报道记者要做的是,通过采访逐步丰富事件的关键信息,排除和事件无关的干扰项以缩小范围,最终通过人机协同的方式选择恰当的运算结果。

近年来,数据挖掘工作者在各行业实践中逐渐总结了一套较为成熟的工作模式,主要有聚类、分类、异常、关联、预测、演变、特异群组等。具体到新闻领域,又以聚类、分类、异常、预测为主,使用的算法主要是决策树法、遗传算法、模糊集法及神经网络法等,主要目的是将异构型数据结构化,最终通过对数据的分析发现规律,回溯事件的逻辑关系,并预测事件发展的走向。

以获2019年D J A开放数据奖的《OCCRP数据》(有组织犯罪和腐败报告项目)为例,项目组将波黑某政府研究中心泄露的海量数据和一些公开文件以专业工具清洗、整合,利用数学模型挖掘出大量有价值的政商关系线索,最后以搜索平台的形式向社会公布。还有,今年6月11日,纽约时报的报道《数据库:美国近三分之一的新冠病毒死亡病例出现在疗养院》获得普利策新闻奖。该报数据团队从卫生部门的数据库中抓取大量疗养院和新冠关系的数据集,并在本地建立自己的分析数据库,最终提炼出如题所示的惊人结论,引起社会各界对特朗普政府的口诛笔伐。

大数据挖掘技术可为深度报道增加预测和数据验证功能。数据挖掘的另一重要优势就是提供事件发展的趋势分析,可在经济走势、犯罪倾向、传染病甚至突发事件预测方面大有作为,这为深度报道又增加了额外的竞争力。如通过大数据评估某行业安全生产水平,可为政府和企业提供有用的避险报告;如通过监测网民情绪倾向数据,分析社会矛盾是否超过阈值,可为社会各界提供警示信息;如通过分析污染传感器数据,可为公众健康提供更好的服务;如通过对地区既往犯罪率、破案率、经济变迁等数据的分析,可估算该地未来一段时间的犯罪率,为政府部门提供决策参考。

ProPublica和得克萨斯论坛报2016年联合发表的互动新闻《地狱与高水》,利用多种数据挖掘技术,从风险控制的角度出发,预测休斯顿地区面对沿海风暴的脆弱性,并对政府的一些短视行为提出批评。

数据挖掘还可为深度报道提供“定性假设”的“定量验证”,令结论更为人信服。如2019年获DJA数据新闻创新奖的德国《雷德梅瑟》是一件“假设验证”的探索作品,目的是找出人们不在城里骑自行车的原因。项目团队由数据专家、物理学家和调查记者组成,物理学家研发了100个汽车超车距离传感器,由骑自行车的志愿者在两个月的时间内携带试用。经过数据分析之后,最终得出结论——人们不骑自行车的原因在于“汽车距离骑行者过近,威胁骑行安全”。

因此,从看似寻常的数据中挖掘出事件的内在联系,提升新闻价值,并以数据挖掘成果验证假设并预测未来,是未来深度报道的重要发展方向。

二、数据挖掘新闻的典型操作模式

经过广泛的文献研究和网络、电话采访,笔者尝试总结了深度报道领域数据挖掘的一般流程(部分环节次序可以调整):

确定目标及定义问题:由团队领导者确定选题,并同软件工程师制定数据挖掘的目标,评估获取数据资源的难度,以及数据是否可以转化为意义等。

算法及模型拟定:软件工程师、数据分析师根据数据来源、数据结构以及是否提供API接口等情况,根据现有资源确定使用哪种算法搜集数据;评估可能获取的数据结构,决定搭建采取何种数学模型和采取何种算法实施挖掘。

数据获取:自行搜集数据或从数据库中、网页上以确定的算法获取数据。目前,网络数据获取的流行做法是通过Python语言抓取网页数据或通过Open API获取开放平台数据。

数据清洗及结构化:评估获取的数据,并进行数据清洗和结构化(去掉干扰项或重复项等)等预处理,建立自己的数据挖掘对象库。这方面的通用工具主要有R语言、MySQL、Python和Open Refine等。

数据处理及假设验证:建立数据处理模型之后,需要认真考察哪种模型最为适用,有时还需要准备其他数据集提前验证模型的可靠性。随后,程序员或数据分析师运行数据处理算法,尝试找出具备新闻意义的线索。这一步是数据挖掘的关键步骤,主要目的就是将数据代入设定的算法框架,以验证假设是否正确。目前,深度学习算法已经成为数据挖掘的重点发展方向,因为它可以在大量数据中优化学习,在理想情况下可以向使用者自动呈现线索。这方面的数据工具和编程语言主要有MySQL、R语言、Python、C++、Pandas、SPSS等。

意义转化:数据分析员评估数据处理的结果,确定是否满足预期,并将其转化成具备新闻价值的意义。团队领导人审看数据挖掘的成果,并同其他团队成员回顾流程是否无懈可击,最终确定数据挖掘是否成功。

可视化:将数据挖掘成果可视化,使受众易读易懂。有时将复杂的数据可视化,还可揭示之前未发现的新闻价值。

趋势预测:以数据挖掘结果为支撑,向人们提供基于概率表示的预测能力。

对于以上流程,2018年获DJA年度调查报道奖的数据新闻作品《快钱》称得上是个典型的例子。加拿大《环球邮报》的数据团队在确定证券犯罪的选题之后,拟定了数据抓取和数据挖掘的方式,将数千个获取的数据文件经过清洗和结构化之后输入自建的数据库,并用已搭建的数据模型和算法对证券犯罪的规模、惩罚和再犯率等数据展开数据挖掘,最终得出加拿大监管部门对证券犯罪者处罚过轻的结论,验证了最初的假设,并预示了证券犯罪的前景。在此作品中,犯罪分子的规避策略及受害者被不公平对待等情况也被一一揭示。

上述这些流程看似复杂,但一旦进入产业化操作模式,效率会明显提高,挖掘成本也将大幅降低。

三、提高认识,紧密结合产业,补上我国新闻界数据挖掘的“短板”

与新闻业界形成鲜明对照的是,我国新闻学界较为重视数据挖掘的应用和研究,比之英美等国都不遑多让。众多教授团队充分借鉴数据挖掘在产业界的广泛应用,将其研究路径和新技术运用于新闻效果、媒体比较、社会关系、舆情分析等方面的研究,每年的研究成果可谓汗牛充栋。

由是观之,数据挖掘在深度报道方面应用受限,并非业界很多人所说的技术落后的原因。笔者曾就此问题,带领研究生探访多个主流媒体,发现认识上的偏差和产业结合能力欠缺是主要原因。

认识上的偏差:首先,数据新闻可视化容易出成绩,将各大部委、新闻发布会及新华社发布的通稿等信息,以动态及互动的新媒体形式展示出来,报道上较为安全,并较容易得到上级部门和受众的认可;数据挖掘则需要数据分析方向的专业知识,不少媒体负责同志认为很难驾驭,心存畏难情绪。其次,很多主流媒体负责人对于数据挖掘并不熟悉,认识不到它在深度报道方面的巨大潜力。

产业结合能力欠缺:如果将视野进一步扩大到产业界,我国数据挖掘的应用却是非常广泛与高端,在用户画像、安全生产、情绪分析、交通疏堵、犯罪防范等领域的实践水平均位居世界前列。这些领域都是深度报道的用武之地。

我国新闻信息界的数据挖掘产业模式尚未形成,各大媒体亦未建立常设项目组机制,不能随时通过数据挖掘发现优秀深度报道选题,当然谈不上为社会提供信息附加值并产生正向循环了。

猜你喜欢

短板数据挖掘深度
探讨人工智能与数据挖掘发展趋势
深度理解一元一次方程
执行“强制休假”还需“补齐三个短板”
立新标 补齐劳动防护短板
深度观察
深度观察
DCT的优势与短板并存
深度观察
补齐短板 建好“四好农村路”
基于并行计算的大数据挖掘在电网中的应用