APP下载

数据新闻中的开放数据应用

2016-03-14毕秋灵

湖北社会科学 2016年7期
关键词:可视化公众政府

毕秋灵

(中国政法大学 光明新闻传播学院,北京 102249)

数据新闻中的开放数据应用

毕秋灵

(中国政法大学 光明新闻传播学院,北京 102249)

随着大数据技术在媒体行业的推进,数据新闻通过挖掘开放数据获取新闻线索,对新闻事件作出准确深入的诠释。开放数据具有公开性、可得性、完整性、即时性的特点,主要由政府机构、高校等科研机构以及非政府组织提供。在大数据环境下,数据可视化解读、挖掘数据之间的关系、以众包为生产方式以及申请信息公开开展舆论监督是利用开放数据的有效路径。由于可供利用的开放数据有限,国内的数据新闻在表现形态和传播方式上存在一定问题,应在数据收集、挖掘、传播和再利用等环节进行优化。

开放数据;数据新闻;信息公开;可视化

随着大数据技术及应用在各行业的不断推进,媒体行业开始越来越多地被赋予“数据”的烙印,这种以数据为主体内容的通过数据挖掘、分析和显示的新闻形态受到各界关注。[1](p7-13)数据新闻实质上是一种数据驱动型的新闻报道,报道内容和报道方式围绕数据展开。相对于传统新闻报道,数据新闻体现了数字化时代的开放和共享精神——利用互联网上的开放数据,通过数据挖掘获取新闻线索,对新闻事件作出准确深入的诠释。开放数据在新的信息革命环境下发挥着至关重要的作用,它有利于消除信息不对称导致的不均衡,有利于营造正向的舆论环境,让公众参与到政策议程中,增强政府的公信力。

一、开放数据:数据新闻的首要信息获取路径

开放数据是指政府或其他组织机构向社会公布的、任何人都能获得并能用于任何商业或者个人目的的数据。开放数据具有公开性、可得性、完整性、即时性的特点。公开性是指开放数据可以被所有人获取利用,而非只向部分机构和个人公开。可得性是指数据提供者开放数据应用程序接口,使数据方便地被检索、下载、索引和搜寻。完整性是指除了涉及到隐私、机密、安全和其他限制的特定数据之外,其他数据应该公开。即时性是指数据必须以最快的数据更新和发布数据,将过时的数据对外发布,会使数据的价值大打折扣。开放数据成为当前数据新闻的首要信息获取路径,它的主要提供者包括政府部门、高校等科研机构以及非政府组织机构。

(一)政府部门:最权威的数据提供者。

政府数据是政府为履行其法定职能而代表公众收集、加工并保存的各种物理符号,其属性是公共资源,特点是原始、客观、精细化。[2](p111-118)作为社会各行业数据的主要拥有者,政府开放数据是一个国家开放数据的最主要来源。政府机构数据具有全面性和权威性,价值密度高,常用于气候、政治、环境、健康、经济等领域的报道。政府数据开放是保证公民知情权、参与权和监督权的前提。在互联网技术的发展和公民意识觉醒的大背景下,许多国家和地区都开展了声势浩大的开放数据运动。目前有美国、英国、印度、巴西等六十多个发达国家和发展中国家制定了开放政府合作计划,提出了本国政府数据开放的时间表和路线图。媒体利用政府公开数据,对数据进行抓取、挖掘、统计分析和可视化,可以完成数据可视化报道。开放数据与媒体调查数据相结合,也可以完成调查性的数据新闻报道。

(二)高校等科研机构:客观中立的数据提供者。

媒体的数据搜集、加工以及分析能力都难以与专业机构相比,与科研机构合作成为媒体向公众提供深度信息加工服务的便捷途径。作为以科学研究目的而搜集的数据集,其数据不仅具有学术研究价值,更因其科学性和客观中立性可以成为数据新闻的优质信息来源。例如美国乔治亚大学政治学系有一个关于美国国会的数据库,其中记载了美国建国至今所有国会议员的投票记录和每个议员的意识形态指数;马里兰大学的全球恐怖主义数据库记载了1970年至今所有由恐怖组织造成的伤亡情况。除高校外,其他智库也提供各种调查报告和数据。例如皮尤研究中心会不间断发布有关公民意见的调查报告;做城市相关研究的Urban Institute、宗教研究的Public Religion Research Institute等等,都有阶段性的数据公布。[3]

2014年以来,美国父母反对给自己的孩子接种疫苗的趋势愈演愈烈。在2014年华尔街日报的可视化数据新闻作品《20世纪与传染性疾病的斗争:疫苗的作用》以一系列图表显示了疫苗接种后麻疹和其他等疫苗可预防疾病几乎灭绝。该项目使用的数据来自于比兹堡大学Tycho项目。该项目旨在推动公共健康数据可获得并用于科研和政策制定。该项目的数据涵盖了1888年以来美国所有每周发布的法定疾病报告数据。该项目的数据免费向所有感兴趣的公众开放。事实上,这一数据仍然来自政府机构,但是由于数据历时上百年,涉及疾病超过50种,只有科研机构有能力将数据进行标准化。因此华尔街日报充分利用了这一项目的数据,所做的工作只是进行技术化的处理,运用可视化手段将数据呈现给普通公众。

(三)非政府组织:公益性质的数据提供机构。

非政府组织是具有一定组织性的非官方机构,其运作独立于政府部门,且不以营利为设立依据,通常各行业都有专门的非政府组织,它们通过行业调研、公益志愿活动、决策建议等方式参与社会公共事务。非政府组织机构在长期的公共事务参与过程中积累了大量的数据,具有跨时间、多维度、专业性、行业细分性、服务性等特点。作为社会公益事业组织,其数据通常是面向社会公众开放的,可以为公众免费使用。当前主要的非政府组织机构包括世界卫生组织、世界银行、国际劳工组织、联合国开发计划署等联合国专门机构,以及各国各行业的非政府组织。联合国的各种数据库免费向各国公众开放,其中涵盖犯罪、就业、能源、环境、财政、食物与农业、性别、健康、人类发展、旅游、难民等类别的34个数据库的超过6千万条数据记录。这些超过一百个国家的行业数据,适合用来进行国际比较,同时也可以作为数据新闻中的背景报道资料。各国各行业组织的数据具有行业针对性,而且有的数据不为政府机构所掌握,因此常常也成为数据新闻报道的主要来源。

二、开放数据的媒体应用路径

在大数据环境下,为了更好促进开放数据的广泛利用,政府一般通过建立专门的数据门户网站为公民提供数据服务。最早建立数据网站的美国,在2009年开通了www.data.gov数据网站,目前数据网站上公布的数据集达到19万多个。其内容涵盖美国联邦政府全部行政部门在运营管理中采集、生产或转换而来的、有潜在价值的、可供再次开发利用的数据集。以政府数据为首的开放数据为媒体发现新闻选题提供了新途径。媒体通过挖掘海量数据之间的关系,赋予一般性事件新的价值。同时,媒体也可以结合自身搜集到的独家信息,完成数据库的开发,为公众提供更为个性化的信息解读。

(一)对数据做可视化解读。

大数据时代,数据和信息正呈现出爆炸性的增长,各种结构化和非结构化的数据都在以前所未有的速度倍增,数据在排列组合方式以及存储格式上都互不相同,公众不具备提取和分析来自各种信息源的数据的能力,即使是专业人员要想要获取、分析或理解这些数据,也需要花费大量的精力,因此开放数据的使用门槛非常高,媒体机构将这些开放数据进行格式转换、信息整合,借助数据可视化手段,将枯燥且难以理解的开放数据以立体、直观、生动的方式呈现给公众。数据可视化能够在单个新闻作品中融合多维度信息,实现信息的清晰传达与有效沟通。在数据新闻中,数据既是新闻的主体,也是叙事语言。这种可视化叙事分为两种方式:一是从宏观的角度提供远景,二是从个体的角度提供近景。“远景”提供解读数据的语境,从整体的视角解释问题的严重性或重要性。“近景”将镜头拉近,公众可以搜索自己的城市、学校或邮编等个人信息,理解新闻事件对“我”意味着什么,为什么“我”要关注这个议题。[4]

媒体通过利用可视化传播手段,之前各种庞大琐碎的开放数据得以全新梳理,复杂的事件变得更为简单易懂。利用交互图表、数据地图、时间线等可视化形式,可以以更加准确的形式向受众梳理新闻进程,穿透复杂的新闻事件直抵问题的核心。

(二)挖掘数据之间的关系。

公众通常只能通过单项指标或单个数据了解事物的局部层面,而借助多个指标或多个不同维度的数据,可以用历史对比、相关分析等方法对事物进行更深层面的解读。[5](p14-21)数据新闻利用多维度数据,其中既包括开放数据,也包括媒体通过各种渠道搜集的独家数据,对这些数据进行分析、对比、印证,挖掘数据之间的关系,挖掘显性数据中的隐性内容,揭示深层的现象和原因。美国的非营利组织阳光基金会为了调查在美国总统大选以及其他政府竞选活动中花费巨额投资的公司从政府的获益情况,从USAspending.gov等多个联邦政府的公开数据中收集大量数据,最终发现在政治运动中最为活跃的公司共捐助了58亿元用于各种政府竞选和游说活动,它们在经贸活动中获得了4.4万亿元的联邦政府支持。该报道引发社会极大关注,有兴趣的普通民众还可以从媒体网站下载这些公司在政治活动中资助的情况以及从政府获取或促成的经贸支持信息。可见开放数据尽管向所有公众开放使用,但是凭借自身的数据挖掘能力和信息解读能力,媒体依旧可以创作出优质的独家报道。

(三)以“众包”创新新闻生产方式。

传统媒体时代新闻生产环节相对封闭,信息编码和解码的过程由媒体机构自己完成。利用开放数据完成数据新闻则强调以开源的理念制作,采用众包的方式让公众参与。众包的概念由美国记者杰夫·霍威于2006年首次提出,它是指一个公司或机构把过去由员工执行的工作任务,以自由自愿的形式外包给非特定的(而且通常是大型的)大众网络的做法。[6](p40-43)在新闻领域,这种由公众参与新闻报道的“众包”模式可以由民众自主决定新闻报道选题,由公众加入新闻制作的全部过程。这种模式改变了原来媒体机构的传者中心地位,强调受众在传播过程中的重要作用。为了让公众参与到新闻生产过程中,媒体必须向公众开放与新闻内容相关的所有数据,公众通过下载原始数据,围绕自己感兴趣的内容对数据开展整理和分析,将分析结果提供给媒体机构。这种众包方式体现了数据新闻的互动性,开放数据经由媒体传播给普通公众,公众对数据进行个性化的解读,再经媒体对这些个性化内容实现进一步的传播,不断扩大新闻内容的影响力。

(四)申请信息公开开展舆论监督。

世界各国都在积极开展开放数据运动,但是目前真正完全向公众开放的数据从开放范围和提供质量来看,远远不能满足公众需求。政府公开的数据除了数据门户网站公开提供的数据外,还可以依法向政府申请信息公开。依申请公开则是公民、社会团体等依法向政府部门提出申请,要求其公开相应信息。国外已有十多个国家建立了信息公开法律制度。例如美国的《信息公开法》规定:美国联邦政府的记录和档案除个别政府信息不能公开外,原则上向所有人开放;公民可以向任何一级政府部门申请查询、索取资料复本;如果公民申请信息公开的要求遭拒绝,可以向司法部门提起诉讼,司法和行政部门必须限期处理有关的申请和诉讼。[7](p190-195)

在信息公开制度相对完善的国家,新闻记者个人和媒体机构成为政府信息公开的主要申请者,在法律的许可下,媒体机构可以通过这一手段获得独家的一手数据。2014年,华尔街日报记者向美国政府申请公开美国的医疗索赔数据经过近两年的诉讼,法院最终判决,为保证民众对税收花费的知晓权,应当公开所有医生的医疗保险账单记录。报社记者根据这920万条数据,完成《医疗保险制度真相》等一系列文章,揭露了约6千亿的老年人和残疾人项目的运作情况。这些数据最终还通过数据库的形式向公众公开,其他媒体机构后期通过这些数据进一步发掘潜在的医疗欺诈和滥用行为。以做数据新闻调查监督政府闻名的网络媒体机构ProPublica,也经常通过政府数据挖掘独特的信息点,这些数据并非仅仅是政府主动发布的公开报告,而是通过申请政府信息公开,要来政府不愿意主动公开却受法律约束不能不提供的数据。可以说,数据驱动的新闻报道出现,在一定程度上扩宽和丰富了媒体作为第四权力监督政府的方式。

三、国内数据新闻对开放数据的应用

(一)数据来源:主要依托政府部门数据。

我国政府公开数据主要来源于各政府部门定期发布的公告、报告以及以国家数据网等国家级政府门户网站以及少数地方政府部门网站。由于从政府部门公开获得的数据非常有限,无论从部门数量和数据的范围都很少,数据格式不统一,数据滞后、更新速度慢,大部分数据远远达不到“开放”的标准。英国开放知识基金会设计出开放数据指数(index.okfn.org),考察各国在电子化程度、是否免费、机器识别、开放授权的等方面的数据开放情况。根据该协会的评选结果,2015年在参评的122个国家和地区中,中国开放数据指数排名93位。在十个考察项目中,中国有七项内容可以公开访问,而这些通常无法下载且只能在网页或浏览,没有达到真正的开放数据的要求。从信息公开的执行情况来看,信息公开条例尽管已经颁布多年,但各种政府信息的公开受到了权力部门的行政干预,信息公开过程没有法律保障,导致各种政府信息公开具有强烈的随意性。数据显示,2013年,全国被调查的省区市共收到各类信息公开申请二十六万多份,其中近一半的相关申请未得到政府回应,其中行政诉讼仅占2%左右,胜诉的更寥寥无几。[8](p42-44)在法律缺失的环境下,媒体很难通过申请信息公开获得有价值的数据,即使相关部门同意公开信息,但各级审批程序也需要耗费大量时间,不能满足新闻报道对时效性的要求,因而媒体鲜有利用信息公开条例申请数据公开完成数据新闻报道的成功尝试。

(二)表现形态:静态信息图为主。

在政府数据逐步开放的背景下,数据新闻正在国内传统媒体以及网络媒体中迅速兴起,新华社、财新传媒、百度、新浪、网易等机构都开设了数据新闻的专栏。媒体利用信息图等方式将开放数据进行可视化,在新闻可视化技术方面取得了有价值的创新。这种可视化图表能将抽象的指标和复杂的数据通过直观的方式呈现出来,将各种枯燥的数据变成用户能够理解的形式。然而这种可视化以静态信息图为主,交互图表的使用率较低。具有交互功能的可视化新闻可以让用户将自己的个性化需求与新闻内容结合起来,从新闻产品中挖掘自己关注的、与自己切身利益相关的信息内容,满足用户主动探索未知的欲望。[9](p1-6)事实上,媒体机构不仅要做政府的传声筒,也要善于通过数据分析挖掘数据背后的故事。事实上,由于原始数据常常复杂凌乱,数据整理、挖掘和分析是数据新闻报道中耗时最长的阶段。国内的媒体机构尤其是传统媒体缺乏数据挖掘方面的人才,欠缺数据敏感度,对开放数据的利用通常只是停留在显性数据的可视化呈现,很少有通过对数据的深度挖掘完成的深度报道。目前有很多信息技术软件可以实现对网络数据的抓取、可视化与发布,但是这并不意味着可以轻易了解数据背后的含义。

(三)传播方式:单向传播居多。

数据新闻报道的主要任务是搜集数据、清洗数据和利用数据讲故事,但按照英国《卫报》数据新闻博客创始人西蒙·罗杰斯的观点,发布数据、公开数据、提供数据让公众让他人可重复利用也同样是数据新闻报道者的重要工作,应积极与受众共享数据、信息。目前,国外媒体已经在数据新闻报道中尝试通过众包方式开放数据,提供原始数据供受众再开发、使用。但国内媒体对开放数据的利用通常以单向传播为主,公众的参与程度很低。国内几乎没有向公众开放的媒体数据库,媒体机构仅仅在突发事件中尝试过建立开放数据平台。例如百度在雅安地震推出寻人平台,依托百度强大的搜索能力和百度贴吧的技术架构,该平台不仅播报灾区的最新情况,而且还可以为用户提供寻人和保平安等沟通联络,同时平台上的寻人求助等信息还可以同步推送给救援机构。随着今后数据处理的工作量越加庞大,以众包和开放为特点的数据新闻将成为未来数据新闻的常规形态和主流模式。

四、启示及建议

随着新闻报道越来越多地缘于对与新闻事件相关的大数据的挖掘和分析,尤其是对各种可以公开获取的数据的挖掘,以开放数据为信息源的数据新闻将成为媒体机构吸引用户注意力和提升影响力的制胜之道。2015年10月,国务院印发《促进大数据发展行动纲要》,提出2018年底前建成国家政府数据统一开放平台,2020年底前逐步实现信用、交通、医疗、卫生、就业、社保、地理、文化、教育等民生保障服务相关领域的政府数据集向社会开放。政府开放数据为促进产业发展和催生新业态提供了信息基础,同时也为传统媒体的转型升级带来机遇。开放数据要为公众所理解、接受,很大程度上依赖于媒体对信息的加工、分析和传播。信息越庞大、越复杂,公众越倚重媒体对信息的整合解读能力。以政府数据为主的开放数据平台的搭建为媒体开发以数据新闻为主的新闻产品和深度信息加工服务提供了契机。

在利用开放数据过程中,应该在新闻报道的各个环节进行优化:

首先,在收集数据阶段,充分利用公开信息,熟悉各行业的公开数据库,并应该更多学会同政府信息公开机构打交道,改变过去长期依赖宣传部门的习惯。第二,在数据挖掘阶段,除了对统计数字的可视化,更应注重核实数据的准确性,利用多种途径的数据做对比印证,挖掘数据背后的真相。适当的时候通过公开数据,让更多的公众参与数据的挖掘,吸引专业人士的加入,解决媒体机构人力和专业度不足的问题。第三,在传播阶段,在可视化上注重交互图的使用,同时设计个性化的新闻应用程序,提高公众的参与程度,加强传播效果。第四,在数据再利用阶段,应建立共享意识,开放加工后的数据和各种原始数据。开放数据的意义在于公众可以对这些数据进行再开发和利用,同时,利用程序接口对数据同步更新,使数据长久发挥其价值。

[1]章戈浩.作为开放新闻的数据新闻——英国《卫报》的数据新闻实践[J].新闻记者,2013,(06).

[2]沈亚平,许博雅.“大数据”时代政府数据开放制度建设路径研究[J].四川大学学报(哲学社会科学版),2014,(05).

[3]周优游.美国媒体如何找数据[EB/OL].数据新闻网,http://djchina.org/2014/09/30/how-to-finddata/.

[4]邱悦.爱啃数据硬骨头的ProPublica[EB/OL].数据新闻网,http://djchina.org/2015/01/22/data_newsroom_propublica/.

[5]彭兰.“信息是美的”:大数据时代信息图表的价值[J].新闻记者,2013,(06).

[6]吴乐裙.“众包”模式推进美国公民新闻再发展[J].国际新闻界,2007,(08).

[7]邱一江,秦珊.美国行政部门信息公开制度的建设过程[J].广东社会科学,2008,(11).

[8]朱叶,程灏.政府信息公开”观察[J].浙江人大,2014,(06).

[9][美]斯科特·莫瑞.数据可视化实战:使用D3设计交互式图表[M].李松峰,译.北京:人民邮电出版社,2013.

责任编辑 郁之行

G210

A

1003-8477(2016)07-0190-05

毕秋灵(1981—),女,中国政法大学光明新闻传播学院副教授,博士。

中国政法大学校级人文社会科学研究青年项目“大数据时代传统媒体内容产品生产研究”研究成果;“中国政法大学青年教师学术创新团队支持计划”阶段性成果。

猜你喜欢

可视化公众政府
基于CiteSpace的足三里穴研究可视化分析
基于Power BI的油田注水运行动态分析与可视化展示
公众号3月热榜
公众号9月热榜
公众号8月热榜
公众号5月热榜
基于CGAL和OpenGL的海底地形三维可视化
“融评”:党媒评论的可视化创新
知法犯法的政府副秘书长
依靠政府,我们才能有所作为