“大数据”对官方统计数据发布的冲击及应对
2013-02-15刘兴远
刘兴远
(江苏省统计局,江苏 南京 210013)
美国有谚云:除了上帝,任何人都必须用数据说话。对肩负着向社会发布和传播数据使命的政府统计部门而言,数据就是重要资源和“说话”的资本。面对滚滚而来的大数据浪潮,正视大数据带来的挑战和冲击,利用大数据所提供的全新理念和思考方式,挖掘价值堪比黄金、石油和货币的庞大数据资源,藉以改进和完善既有官方数据发布模式,对提升统计工作价值无疑具有重大意义。
一、大数据时代官方数据发布环境发生深刻变化
随着大数据时代的到来,无处不在的信息感知和采集终端为我们积累了海量数据,一个更加开放、便捷的社会正在形成。在大数据改变人们生活和思维方式的同时,政府统计数据发布所处的环境也正悄然发生历史性变化。
1.社会公众获取数据信息的来源呈现多样化。大数据时代,互联网文本和文件、搜索、移动电话、微博、微信和电商每天都产生海量的数据。美国互联网数据中心指出,互联网上的数据每年将增长50%,每两年翻一番。IDC和EMC估计,到2020年的数字世界将拥有40ZB的容量,是全世界所有海滩全部沙粒数的57倍。有资料表明,1秒钟内,互联网产生的数据量比20年前整个互联网储存的数据还多;1分钟内,微博、Twitter上新发布的数据量超过10万,社交网站Facebook的浏览量超过600万;1天内,百度要处理几十PB数据。可以说,大数据的应用已经渗透到人们的日常生活和工作中。如阿里研究中心基于淘宝和天猫销售平台汇聚和即时产生的海量网络零售价格信息,采用链式加权指数法计算的网络零售价格指数(ISPI),2010年以来的数据走势与官方CPI环比指数呈现出联动关系。这表明,一方面在大数据时代政府统计部门不再是唯一的数据拥有者,也不是唯一的发布者和传播者;另一方面,人们获取公共信息的渠道可以并能够越来越多样化,不必再过分依赖政府部门发布的统计数据信息,从而对政府统计数据发布形成“挤出效应”。
2.人们的主观感受与官方统计之间存在差异化。大数据时代,是一个人们在不知不觉间被数据裹挟和深陷其中的时代。每个人都是数据的创造者和传播者,每个人也是数据的接收者和分享者。IDC指出,个人在日常生活中的“数字足迹”大大刺激了数字宇宙的快速增长。通过手机、电脑、数字电视、智能电视、传感器、卫星定位系统等终端设备,每个人的日常生活都在被数字化,海量数据由此源源不断地产生。数据增长催生了新的数据处理技术和应用,继而又产生了新数据的积累和存储,如此周而复始迭代发展,形成了令人叹为观止的大数据浪潮。但正如《大数据时代》作者维克托·迈尔-舍恩伯格所说,大数据往往是凌乱和质量参差不齐的。数据价值密度的高低与数据总量的大小往往成反比。例如,一部数小时连续不间断的视频监控过程中,可能有用的数据仅仅只有数秒。而一般的数据使用者,不可能通过采用强大的机器算法来迅速地完成数据的价值“提纯”,无法辨别出数据的“噪音”,同时自身也不断制造着数据的碎片化、歧义化。近年来,社会上对官方数据的质疑,诸如收入“被增长”、CPI“被下降”等,主要就缘于老百姓的主观感受与官方统计数据之间的差异,这一差异再在大数据环境下被不断放大、拉伸,客观上影响了政府统计数据发布的权威性。
3.民众要求政府公开数据信息的诉求日趋复杂化。大数据时代,各类数据载体为公众参与开辟了新路径,民众要求政府公开信息的诉求也愈发强烈,并且随着利益主体多元化格局的形成,不同社会阶层与利益群体对官方统计数据发布的形式、内容、数量等各有不同。这种新变化,要求政府部门必须打造大数据的公共平台,掌握群众心理、熟悉群众语言,在采集分析数据后及时、有针对性的公开数据,让公民可以看到并共享,以保障公民行使自己的知情权、监督权。2009年1月17日,新任美国总统奥巴马主持内阁的宣誓仪式并发表讲话:“为了引领一个开放政府的新时代,面对信息,政府机关的第一反应必须是公开。这意味着我们必须坚定地公开信息,而不是等待公众查询。所有的政府机关都应该利用最新的技术推进信息公开,这种公开,应该是及时的”。同一天,奥巴马用标志性的左手姿势伏案签署了首份总统备忘案《透明和开放的政府》。120天后,一个数据开放的门户网站Data.gov正式上线发布,旨在全面开放美国政府拥有的数据。欧盟和欧洲各国的立法也在向这个方向推进,如荷兰,除了涉及国家安全和个人隐私的公共信息外,大部分信息都已经实现了公开。“大数据”成为政府信息公开的动力源,也对官方数据发布构成现实挑战。
二、“大数据”对既有官方数据发布模式的冲击
大数据环境下,官方统计数据发布面临着用户的新需求剧增、现行统计发布体系不够完善、统计数据发布的效用度有待提高等诸多挑战。具体而言,“大数据”对官方统计数据发布方式、内容和频率及时效都形成强力冲击。
(一)对官方数据发布形式和手段的冲击
现行的官方统计数据发布形式主要有三种:一是对于能够集中统一公布的统计数据一般通过新闻发布会在第一时间公布;二是对于未纳入新闻发布会的进度统计数据,按照统计数据发布日程表在官方网站上发布;三是相对全面和完整的统计数据,一般通过统计公报、统计年鉴公布。发布手段主要借助文字和数据表格进行。这些相对固定的数据发布形式和手段既必要也有效,但放在大数据环境下观察,这种发布方式和手段就显得相对刻板单调,可读性、可视性、交互性和生动性较差。大数据时代,人们制造、获取和复制的所有1和0组成了数字世界,引致数字世界急剧膨胀。与此相适应,在扬弃传统的发布方式基础上,利用现代信息技术改进数据发布方式和手段,用更加自然、可变的方式发布信息,就显得十分紧迫。荷兰统计局利用Google Map、Google Earth等手段,以地图的形式进行地理数据的网络发布,可以直观地看到荷兰的地理情况。国家统计局充分意识到现代信息技术在数据发布中的重要性,近年来通过打造和扩展国家数据库、开发数据查询客户端、建立统计官方微信平台、创建网络沟通交流平台等举措,正在更快捷、更方便地向用户提供各类统计信息。
(二)对官方数据发布内容的冲击
大数据环境下,人们会更加关注有独特视角的官方数据新闻,以及对数据内容的全面精准的解读。一是人们对微观数据的关注度将高于宏观数据。不断产生的海量数据越来越影响企业生产、居民生活的各个方面,企业正确利用大数据,洞察出大数据蕴藏的商业价值,能够改善其业务计划,更好地开发新产品、服务和业务模式;居民家庭正确利用大数据,能够更好地进行理性消费,改善其投资方向。因此,政府统计部门发布的GDP、规上工业增加值、投资、消费、CPI等宏观上的数据就可能满足不了公众的需求,受众的兴趣度就可能会降低。二是人们对个性化数据的关注度将高于总体数据。大数据时代和以前工业革命不同的是,其特征是个性化的。目前,官方发布的统计数据以总体数据和基础性分类数据为主,个性化、细化详尽的数据偏少。三是人们既关注结构化数据也关注非结构化数据。大数据既包括结构化数据,也包括非结构化数据,并且目前95%以上的数字信息都是非结构性数据。如何超越传统的数据分析方法,对文字、图表、图片、视频等半结构化或非结构化数据进行深度挖掘,生产出高质量的统计数据产品为公众服务,成为政府统计部门必须研究解决的新课题。
(三)对官方数据发布时效和频率的冲击
大数据区分于传统数据最显著的特征之一,就是数据存入系统、进行处理的速度非常之快。由于数据源增加,数据通讯的吞吐量提高,数据设备的计算能力增强,使得大数据生成的规模和速度异常惊人。大数据的即时性特点,对传统统计发布数据的时效性和频率提出了挑战,官方发布的权威性、公允性等功能将被削弱甚至替代。新媒体的诞生带来了“时空压缩”现象,人们对于数据事件的关注不再以年月日计算,而是开始以时分秒计算,同时空间概念上的阻隔也被破除,数据传播的无界性凸显,“事后发布”模式显然不能适应大数据时代的要求。而政府统计充分利用大数据挖掘技术,从大量结构化和非结构化数据中获取有价值的信息,并努力发现数据中所隐含的现象和规律,则能够有效提高统计数据发布的时效性。提高官方数据发布的时效性还在于信息技术的进步让现代社会舆论的形成机制、传播机制发生了深刻变化,社会开始进入“传媒聚光灯和大众麦克风”时代,越来越多元化的新媒体为人们提供了更多、更便利的发声管道,各种真假莫测、虚实难辨、泥沙俱下的信息快速自由流动,这也对官方统计的舆论引导能力提出了新的挑战。
三、大数据环境下改进政府统计数据发布的途径
“得数据者得天下”。毋庸置疑,大数据时代在给官方统计数据发布带来挑战的同时也带来了契机。在大数据生态系统中,政府统计既是数据采集者、汇总者,也是使用者、消费者,积极利用大数据杠杆撬动统计发展新支点,将成为提升统计价值的利器。这是政府统计在拥抱大数据、与大数据共舞中,树立大数据的理念、思维和意识,改进和完善官方统计数据发布的逻辑起点与基本要求。
(一)以数据仓库为载体,夯实官方数据发布基础
数据仓库是一个面向主题的、集成的、不可更新的(稳定性)、随时间不断变化的数据集合,是数据挖掘技术的关键,也是改进数据发布的重要前提。政府统计部门生产的数据是典型的大数据,它不仅表现在数量上的“大”,而且同样具有大数据意义上的“4V”特性。建设统计数据仓库,以现有统计业务系统和大量业务数据的积累为基础,整合来自于不同部门的数据源、各种结构化和非结构化数据,有利于支持统计决策分析处理,探索数据背后潜在的价值。同时,把这些数据加以整理归纳、重组和使用,有针对性地开发各类公共服务产品(如党政领导数据查询系统),并及时提供给有特定需求的统计用户,有助于改善政府决策和企业业务经营。整个统计数据仓库系统由数据源(包括统计系统内部数据信息和外部数据信息)、数据的存储与管理、服务器、前端工具等四个层次的体系组成。建设数据仓库,由传统的简单计算和查询转变为对大量复杂、非结构化数据的挖掘,将大大提升政府统计部门的数据分析和发布能力。
(二)以可视化技术为手段,增强官方数据发布效果
现代的数据可视化技术是指运用计算机图形学和图像处理技术,将数据转换为图形或图像在屏幕上显示出来,并进行交互处理的理论、方法和技术。简而言之,数据可视化就是将数据用可视化的方式展现出来。大数据时代,数据量变得非常大和繁杂,根据IDC(国际数据公司)资料,仅在2011年,全球被创建和被复制的数据总量就达1.8ZB(1.8万亿GB),到2020年将增长到35ZB。要想探索和理解这些大型的数据集,单纯用文字分析或表格是很难洞悉的,可视化则为行之有效的途径之一。通过数据可视化技术,根据数据的时间和空间信息等特性,利用图表、图、地图等方式,就能将数据直观的展现出来,并找出其中隐含的规律和知识。《鲜活的数据:数据可视化指南》中有一个例子,是讲2009年美国的失业率攀升至9.8%,但这个平均数字只概括了美国失业率的总体状况。有哪些地区的失业率高于其他地区?又有哪些地区未受到很大波及?用一系列美国地图就能完整地说明情况,只需略扫一眼即可获得答案。政府数据发布借助丰富的具有互动性的可视化手段,对GDP、居民收入、物价、房价等一系列老百姓关心的指标进行可视化发布,可以挖掘和展示数据背后的关联与模式,更好地帮助公众理解数据的涵义以及这些数据对人们生活的影响。
(三)以数据整合为源泉,丰富官方数据发布内容
大数据生产主体正日趋呈现多元化的特点,互联网商品交易信息、企业电子化经营记录、电子化部门行政记录等大数据,为政府统计数据采集和发布提供了海量原始资料。政府统计作为经济社会信息的搜集、加工和利用中枢,应整合各类数据源,汇聚与对接不同大数据平台与通道的大数据,实现大数据的大统一格局。大数据利用的关键在于分享。应打破政府、企业与社会组织间的信息壁垒,特别是要改变政府部门之间数据割裂的“信息孤岛”现象,打造大数据公共平台,实现数据共享,使数据在政府内部流畅协同,大幅缩短数据获取、处理及分析响应时间,深度挖掘数据的经济价值。据麦肯锡估计,欧洲发达经济体政府利用大数据可以节省超过1000亿欧元的政府开支。就政府统计发布来讲,对大数据的整合与融合,能够极大拓展统计数据发布内容,增加数据发布频率,更加有效地对数据间的关联性、匹配性进行解读,提高数据发布的客观性、及时性和权威性,提升官方统计数据的公信力。
(四)以与新媒介共融为依托,提升官方数据传播力
以互联网、社交网站、微博、微信等为代表的新媒体正深刻地改变着舆论生成方式。日益庞大的受众群体,实时更新的海量信息,及时交流的互动功能,使受众接受信息的反馈行为更加及时,提升了虚拟空间与现实世界的互动性。新媒体时代,政府统计不是旁观者,必须善借新媒体之力,与新媒体实现高度融合,增强舆论引导力和数据传播力。一是拓宽数据信息传播渠道。利用已开通的统计政务微博,提高微博运营效率,并逐步深化统计官方微博的集群功能,形成统计官方微博群,在开展重大统计宣传活动、重大统计舆论引导等方面发声发力,形成强大合力,凝聚正能量。与主流门户网站合作,建立网络统计专题,通过网络公开数据生产过程和统计工作情况,并与网友交流互动,让更多公众参与到统计开放过程中。不断拓展微信、博客等其他新兴传播渠道,实现传播效果的叠加,使数据信息一次生成、多次传播。二是打造大数据领域的民意主导者。在对新媒体舆论的引导方面,要改变“大而全”、遍地开花的策略,着力打造大数据领域的民意主导者,利用其权威和专业知识,发挥其意见领袖功能,解疑释惑,澄清事实。三是健全统计舆情监测与预警常态工作机制。深入分析新媒体时代舆论危机的特点及传播路径,建立由政府统计并涵盖其他大数据生产者的综合舆情监测体系,更有针对性地对统计舆情实施监测,提高统计舆情的科学应对能力。