用数据讲好中国抗疫故事
2020-12-06尤莼洁
文_尤莼洁
今春新冠疫情传播中,除了消息、通讯、调查等常规的新闻报道,在疫情发展之初,疫情数据新闻就获得了极强的关注,也成为政府信息披露的重要内容。过去,这些数据通常只作为一个简单的数字出现在电视或报纸上,但这次疫情中各个平台借助移动互联网的应用场景,推出了纷繁多样、不同类型的数据类产品和新闻报道。
疫情地图:让数据呈现时空感
1月21日,丁香园在微信、微博、移动端上线了“全国新冠肺炎实时动态”,走在了同行、各大媒体的前列,随后腾讯新闻、今日头条、网易新闻、百度都跟进了类似的实时动态网页或应用。做得比较早的媒体是澎湃新闻,1月22日就上线了疫情实时数据,上观新闻在1月23日晚间也上线了疫情数据实时动态。
为了方便用户更一目了然地了解不同地区的疫情状况,疫情数据可视化各平台不约而同采用了热力地图+折线图(用来表示疫情根据时间的变化)的基本形态,地图上各省市的颜色则根据确诊病例数作渲染。
这种形态的产品迅速得到了官方的呼应。1月28日,中国疾病预防控制中心(CDC)在官网推出了“新型冠状病毒感染的肺炎疫情分布系统”,动态更新和展示疫情在全国的变动情况,疫情数据来自国家卫健委和各省卫健委官方通报。CDC的系统界面布局分成统计数据和地图两部分,统计数据可分省根据某项数据排序。中间地图采用蓝黑底图,颜色是用前一日确诊病例数作渲染。点击地图中的每个省份,可以显示各省六个指标数据情况,包括新增疑似、累计疑似、新增确诊、累计确诊、新增死亡、累计死亡,也可用折线图显示历史变化。
CDC的数据维度为各非官方平台提供了一种标准。相对市场化的平台或媒体,CDC的数据更新频率相对较低,一天只更新一次,但有趣的是,上面有些数据是在省市卫健委的公布里找不到的,比如每日新增疑似病例数,上海卫健委并没有公布,但CDC的分布图里就可以找到。利用开放的数据,民间也做了不少地图类的开源项目,比如有开发者根据腾讯的数据,结合高德地图自动生成地级市疫情图,开发者将该项目的代码放到了GitHub上,可以根据需求整理数据、修改代码,部署自己所需的个性化服务。
随着国际疫情的发展,各个平台纷纷增加了全球数据和世界地图。根据丁香园公布的数据,一个月内光其疫情动态就有20多亿次的访问,这说明病例数据(包括死亡和治愈等)是最受关注的信息,日常更新有可持续的长尾效应,让用户保持对网页的粘性。这次疫情中,结合地图形式对疫情数据的空间特征、时间特征和数量特征进行可视化呈现成为一种热门产品,也从侧面反映出地图学作为疫情类新闻信息的媒介的重要性,以及图示化信息的直观易懂性。
数据应用服务:基于更细的颗粒度
除了基本的统计数据以外,各地政府在疫情信息的发布过程中,也逐渐提供了颗粒度更细的内容。一些地方如香港、浙江温州,很早就开始公布确诊病例除隐私外的情况,如性别、年龄、症状、传染途径、发病时间、就诊时间等。还有些地方没有公布具体的病例数据,但也提供了更多维度的统计数据,比如年龄分布、是否有湖北接触史等。
上观新闻开发了一个数据库,除了疫情实时数据和地图外,增加了在各个公开渠道收集到的病例数据和自己的一些报道数据。截至3月12日,收集到新冠肺炎6846个具体案例,其中确诊5592个,治愈1156个,上观新闻对数据进行了简单的结构化处理,并在上观数据平台上和公众分享了所有原始数据。
随着各地公开确诊病例的具体信息越来越多,一些团队利用公开信息作出了一些服务性的应用,比如“与新冠患者的同程查询服务”,收集了各地公开的确诊病例火车车次、航班等信息,输入日期、车次以及地区,即可查询是否与已披露的确诊患者同行。
基于病例轨迹的地理信息产品也不少。南方都市报上线了一款“广东病例轨迹查询系统”,收录广东各地卫健委公开的场所名单,包括确诊病例发病前的轨迹以及逗留区域。这个系统可以通过接入高德地图查看所处区域的周边疫情,也可以在城市列表中查看病例涉及区域或数量,或是输入路名信息直接搜索该区域有无确诊病例。类似产品各地媒体、政务网站都有所开发,人民日报客户端和腾讯合作,很快上线了全国性的附近疫情速查服务。
另一类大家共有的产品,即“附近的发热门诊”查询,像丁香园、百度等都推出了查询发热门诊、医疗救治定点医院的应用,国家卫健委也开发了相关的小程序,患者只需动动手指即可查询全国各地的发热门诊、医疗救治定点医院名单。如果分析这些数据应用产品,其着眼点还在于服务性。首先得益于此次各地政府公布的疫情数据颗粒度之细,以及数据公开之及时,比如病例轨迹相对都比较充分。另一点值得注意的是,这些产品都结合了地理、交通、人流、物流等大数据的采集和分析,中国强大的互联网基础建设为这些产品提供了数据、技术支撑和应用场景,这也是为什么这些产品能在很短的周期内就得以上线的重要原因。
数据新闻:用数据讲故事
因为疫情本身有大量的、实时性的数据,媒体在新闻报道中对数据的应用,也超过了其他主题的报道。数据类新闻报道大体可以分为两类:一类是短平快的数据产品,比如人民日报微信号几乎每天都会推出一张数据动图,来表现疫情阶段性的发展特征。这些数据图相对都非常简单,有时候是折线表现的病例变化,有时候是鸡冠花图表现的各国病例数,有时候干脆是数字“零”。
上观在疫情期间也进行了一些短平快的数据短视频,比如用柱状图显示各国股市指数的跌幅变化、用南丁格尔图显示各国病例数变化等,与人民日报不同的是数据的呈现是动画形态,方便在抖音、快手等短视频平台上发布。这些数据动图或数据短视频,以较直观的形态表现枯燥的数据变化,比如“29个省市归零”这样的数据动图,相对文字罗列更具冲击力。用动画视频深入浅出解释了R0数等专业知识,也较符合现代读者的阅读习惯。
此外,这次疫情中也涌现出大量深度的数据分析类报道,令人印象深刻的,比如DT财经的“离开武汉的500万人到底去了哪里”。DT财经根据百度迁移1月20日至23日的出行数据去追踪从武汉离开的人,并用冲击图的形式,将春节前武汉人口流出情况进行了可视化。澎湃新闻的“763例确诊患者的故事,还原新冠病毒向全国扩散的路径”,则是搜集和分析了763例确诊患者的迁徙详情,尝试还原病毒扩散的路径。
上观新闻利用自己收集的数据库,也通过数据做了一些深度的分析,主要集中在三个方面,一是对病例的分析,比如“新冠肺炎值得注意的细节!277个病例和41个死亡案例”,“为什么温州会成为湖北外新冠肺炎确诊病例最多的城市”;二是对相关研究的分析,如“24篇有关新型肺炎的学术论文都说了什么”,“552篇新冠肺炎中文论文详解”等;三是一些相关公开数据的分析,比如分析援鄂医务人员组成的“湖北,全国医务人员把最坚硬的龙鳞都给你了”。
在这次疫情中,数据的透明、公开和易得性,让数据新闻的作品量大大上升,生产周期也大大缩短,短视频、动图、地理信息图等形态变化较多,不过,撞题的现象也比较严重,同时,普遍缺乏线下调查和采访,目前尚未有较有深度的数据新闻报道出现。
思考:用数据做什么和媒体的定位
“上海发布”的网友在疫情通报的新闻下评论:“人们对于不了解的东西总是会有特别的恐惧感,公开透明化也能够相对应地降低大家的担忧。”TOW数字新闻研究中心的研究者尼克·蒂亚克普洛斯也曾写道,通过诚实的推理过程,我们可以在数据中找到真实。如果我们对比欧美的疫情数据发布,就会发现中国政府这次疫情数据的更新,无论是频率还是颗粒度都处在世界领先的位置。但对媒体来说,数据类产品或者数据新闻都还是较新的尝试,面对大量的数据,这既是一次机遇也是一次挑战,如何避免同质竞争?如何体现自己的特色?这些都是这次疫情报道中大家都需思考的问题。
具体的生产过程中,对媒体来说一大挑战是来自于数据的采集和整理。相对于互联网媒体,传统媒体手中很难有大量的数据,另外,数据采集是非常繁琐和繁重的工作。上观新闻在收集病例数据的时候,一方面通过爬虫做信息初筛,但主要还是靠人力,在各种通报、公开的新闻报道中采集非结构化的数据,每天可能涉及几千几万条数据,这些数据的清理和管理都需要大量人力,而传统媒体的数据新闻团队往往较小,不可能在数据采集、标签方面投入大量人力。
其次是产品开发需要技术性的支撑,一些大的平台在这方面具备很强的优势,比如腾讯做小区速查,地图信息是现成的,开发实力也很强。但媒体既缺乏基础数据的积累,技术能力也非常薄弱,一种解决路径是中央媒体纷纷和巨头合作推出全国性的产品,比如确诊病例所在小区的查询。但在这些全国性产品以外,如何生产适合自己地区用户的产品而不是重复性地做其中一部分,可能是困惑很多地方媒体的问题。
最本质的问题是,媒体在疫情报道中,面对大量数据,自身的功能和定位是什么?开发服务性的应用当然是一部分,但这是不是媒体尤其是传统媒体的主要功能?面对大量的数据,我们怎么收集、清理,怎么打通不同数据之间的关系,比如疫情数据和经济、和社会发展、和城市流动之间的关系?另外,普通人在社交媒体上所发表的评论、国内外新的论文、专利等非结构化的数据之间存在怎样的细节,在这些海量数据中如何挖掘出更多的信息量,用合适的、通俗易懂的可视化方式来表现这些数据,讲好中国的抗疫故事?怎样避免简单的罗列式的数据呈现?所有这些,都是传统媒体在这次疫情报道中遭遇到的、迫切需要思考并加以解决的问题。