APP下载

“开放数据”(Open Data)的基本逻辑
——以NYC Open Data为样本

2014-10-09吴伟强吴安琪杨婧雯

关键词:纽约市科学政府

吴伟强,吴安琪,杨婧雯

(1.浙江工业大学政治与公共管理学院,浙江杭州310023;2.浙江工业大学中国中小企业研究院,浙江杭州310023)

“开放数据”(Open Data)就是运用“大数据”(Big Data)技术,将公共数据集成于“公共数据系统”(Public Data Set),通过特定的在线平台,免费向公众开放。它让所有市民轻松获取驱动城市发展的数据,既可以提高政府的透明度,又能帮助政府确定有效的解决方案,还能创造更多的经济机会,提升创新战略。发达国家对此极为重视,正在建设“开放数据”(Open Data)系统。其中蕴含的基本逻辑,可为我国政府部门参照。

一、“开放数据”的缘由和依据

(一)数据开放是基本的科学规范

1942年,莫顿在《民主秩序中的科学与技术》中提出四大规范(“莫顿规范”),即:普遍主义(U-niversalism)、公有主义(Communism)、无私利性(Disinterestedness)、有条理的怀疑(Organized Skepticism)①R.K.Merton,Science and technology in a democratic order,Journal of Legal and Political Sociology,Vol.1(1942),pp.115-126.,系统阐述了科学知识开放性的思想,要求把科学知识作为一种公共产品,无偿地交流和使用,反对把科学知识作为创造者的私有财产。

这一思想广受推崇并被应用于数据开放领域。1955年“国际科学联盟理事会”(The International Council of Scientific Unions,现为“国际科学理事会”,International Council for Science)建议科学数据以“机器可读取”的格式来储存,降低数据减损的可能性,扩大数据的获取性②World Data Center System.About the World Data Center System.NOAA,National Geophysical Data Center.2009-09-18[2010-11-24].,并建立了数个“世界数据中心”(World Data Center)。数据开放的倡导者主张科学数据全球性发布,加强合作关系,加快新科技的发明。

(二)数据科学是数据开放的技术保障

吉姆·格雷(Jim Gray)认为,科学已经在经验科学(empirical science)、理论科学(theoretical science)、计算科学(computational science)三个分支之外延伸出第四范式(4th paradigm)—— 电子科学(eScience)或数据探索(data exploration)③Jim Gray“A Transformed Scientific Method”[A].In Tony Hey et al(eds.).The Fourth Data-Intensive Scientific Discovery Paradigm:Data-Intensive Scientific Discovery[C].Redmond:Microsoft Corporation,2009,pp.xviii-xix.。在此基础上,数据科学应运而生。数据科学是从统计学中分离出来的。贝尔实验室W·S·克利夫兰在描述一项旨在扩大统计学领域技术工作的行动计划时指出,“使数据前后一致”的研究使得统计学领域产生实质性的改变,改变后的领域被称为“数据科学”①Cleveland,W.S.Data Science:An Action Plan for Expanding the Technical Areas of the Field of Statistics[Z].Bell Labs,2001:1.。数据科学注重假设测验以及经由合理数据得出结论的准确性②Mike Loukides.What is Data Science?The future belongs to the companies and people that turn data into products)[R].Sebastopol,CA:O'Reilly Radar.2010:7.,将其广泛用于决策,能够“使用数据和科学进行新事物创造”,带来巨大的价值③D.J.Patil.Building data science teams[R].O'Reilly Media,Inc.:Sebastopol,2011:12.。而互联网的快速发展,彻底改变了开放科学数据的环境,数据的发布和获取更为便捷。这些都为科学数据在更高、更广层面共享提供了良好的技术支持。

(三)公共性是政府数据的基本属性

政府采集的数据受到公共财政资助,是一种公共资源,理应向公众不加限制地开放,对其任何限制,都有违公众的利益,数据的再次使用也不该需要其他的许可。技术能力已经完全能将科学数据以全球性的层次来发送,公共部门将数据封闭,是极大的悖论。

2004年1月,经济合作与发展组织(OECD)成员签署了一份共同声明,主张“所有由公共机关出资收集的数据都必须公开发布”④OECD Declaration on Access to Research Data from Public Funding.。2007年4月,OECD发布了一个非约束性约定 (softlaw),提出了靠公共资金获得的研究数据的使用基准和原则⑤OECD Principles and Guidelines for Access to Research Data from Public Funding,OECD PUBLICATIONS,2,rue André-Pascal,75775 PARIS CEDEX 16.。这是开放数据的制度性安排。随着Data.gov等网络平台的设立,Open Data一词由此而生,并成为一种运动。

(四)大数据是开放数据的助推剂

随着大数据时代的来临,如何收集、管理和分析数据日渐成为政府对信息研究的重点,不少国家的机构和部门都制定了应对大数据的战略计划。2012年9月,奥巴马政府投资2亿美元启动“大数据研究和发展计划”(Big Data Research and Development Initiative)⑥www.whitehouse.gov/sites/default/files/microsites/ostp/big_data_press_release_final_2.pdf.。欧盟启动“未来投资计划”,投资3500亿欧元推动大数据技术领域创新。亚洲部分国家在IT振兴计划中把大数据发展作为国家战略提出⑦Manyika J,Chui M,Brown B,et al.Big data:The next frontier for innovation,competition,andproductivity[R/OL].[2012-10-02].http://www.mckinsey.com/Insights/MGI/Research/technology_and_Innovation/Big_data_The_next_frontier_for_innovation.。开放政府数据就是其中重要的组成。通过开放政府数据,鼓励民众对其进行自由开发,进一步推进政府数据开放,提升从大量复杂数据中获取知识的能力。

(五)挖据“数据资本”价值是开放数据的目标

通过分析大数据释放出来的价值,即“数据资本”(Data equity)。开放数据能凸现政府的透明度和公信力,帮助公共部门制定高度具体的人群区分计划,使公共服务准确地适应他们的要求。统一的数据平台,大大降低数据分散化导致的高成本和一致性差的问题,使得政府数据能以省时的方式被利益相关者轻易获取。也提高了政府与公众之间行动的协调性。开放数据过程中一系列的数据收集、清理、分析活动,能催生新兴产业,创造就业机会。更重要的是,政府数据的开放帮助每个人获得对社会的深刻理解,形成预判,提高决策水平,获得主动权,这将带来巨大的商业利益和社会价值。

二、“开放数据”的架构和内容

美国的大数据技术领先全球,政府开放数据起步也最早,到目前为止,纽约市NYC Open Data系统中的数据量超过美国任何一个城市的同类系统⑧https://data.cityofnewyork.us/dashboard.。因此,以NYC Open Data为样本,大致可见“开放数据”的基本结构和内在逻辑。

纽约市政府“开放数据”(NYC Open Data)行动始于2012年3月,计划于2018年底完成。NYC Open Data的基本结构是:(1)11类别(Category);(2)每个类别下各有多个数据库(Featured Datasets),共42个(见表1);(3)每个数据库由8种数据类型(Types)组成,分别是:列表数据(Tabular Data)、图表(Charts)、地图(Maps)、重要事件(Calendars)、过滤视图(Filtered views)、外部链接(External Links)、档案文献(Files and Documents)、表单(Forms)⑨https://nycopendata.socrata.com.。

截至2013年8月,88个政府机构已在线发布1300套数据库(Data sets)。剩余345套数据将于2018年12月31日前全部发布①NYC Open Data Plan 2014,https://data.cityofnewyork.us/dashboard.。从数据上线之日起,任何人可免费获取和使用。

表1 NYC Open Data的基本架构

三、“开放数据”的途径和方法

(一)将政府数据开放纳入立法

奥巴马政府是“开放政府”(Open Government)的积极推动者,2009年12月8日,白宫颁布名为《开放政府指令》(Open Government Directive)的“行政部门和机构负责人谅解备忘录”,以法案形式将透明、参与和协作作为开放政府的基石,要求政府部门按照以下步骤创造更加开放的政府:在线公布政府信息;提升政府信息质量;创造开放政府的文化并使其制度化;创建支持开放政府的政策框架①Open Government Directive,Memorandum for the Heads of Executive Departments and Agencies,M-10-06,December 8,2009.。这一法令,早于2012年9月奥巴马政府发布的“大数据研究和发展计划”。开放数据就在法律约束下实施,确保规范性。

纽约市在开放数据这一领域走在美国各城市的前列②目前在美国开放数据的有芝加哥市、纽约市、埃德蒙顿市、巴尔的摩市、马里兰州、科罗拉多州、俄勒冈州等。,且同样立法先行。2012年2月29日,市议会通过2012年第11号地方法律,即《纽约行政法典》的“发布开放数据”(Publishing Open Data)修正案,规定城市数据必须通过单一的门户网站提供给大众,获取这些数据不需要经过任何注册、审批程序,数据的使用也不受限制。修正案在《纽约行政法典》第23编中增加第五章“公共数据系统的可得性”,对“定义”(§23-501 Definitions)、“公共数据可访问性”(§23-502 Public data sets availability)、“门户网站管理”(§23-503 Web portal administration)、“开放数据法定政策”(§23-504 Open data legal policy)、“网络数据系统政策与技术标准”(§23-505 Internet data set policy and technical standards)、“机构承诺计划”(§23-506 Agency compliance plan)做出了明确规定③Local Law 11 of 2012,http://cityofnewyork.github.io/opendatatsm/LocalLaw11of2012.html.。该法案由市长迈克尔·布隆伯格于2012年3月7日签署生效。

(二)用缜密的计划实施专项研发

在“发布开放数据”(Publishing Open Data)修正案的约束下,纽约市政府制定了《纽约市开放数据计划》(NYC Open Data Plan),该计划指出,以公开标准使城市数据系统可在线获取,有助于公众进一步开发、分析和应用其他工具,借此提高城市管理水准和纽约人的生活质量④NYC Open Data Plan,the Department of Information Technology and Telecommunications(DoITT)September 22,2013.。

“发布开放数据”法案指定“纽约信息技术与通信部”(The New York City Department of Information Technology & Telecommunications,DoITT)负责Open Data的研发⑤纽约1995年第24号法案确定DoITT为“纽约信息技术和通信机构”(New York City's information technology and telecommunications agency),参见http://cityofnewyork.github.io/opendatatsm/background.html.。DoITT主要从事IT行业的基础设施管理、应用程序开发管理、政府内外部事务管理,为纽约市的“创新经济”(Innovation Economy)提供支撑,拥有120个机构,800万注册会员,30万雇员,23万个参与机构,5000万的访问量,DoITT有极佳的技术能力⑥http://www.nyc.gov/html/doitt/html/about/about.shtml.。

“发布开放数据”修正案详细规定了“纽约市开放数据”(NYC Open Data)建设的时间表。(1)根据《纽约行政法典》第23编的506(c)条款,DoITT于2012年9月4日发布“纽约市开放数据技术标准手册”(Open Data Policy and Technical Standards Manual,TSM)。(2)2013年 3月 7日前,纽约市政府网站(NYC.gov)中所有符合条件的政府数据,必须集中到开放数据门户网站(NYC Open Data)⑦https://data.cityofnewyork.us.,并可访问,且保持不断补充和更新。(3)2013年9月22日公布《纽约市开放数据计划》(NYC Open Data Plan)。(4)2018年12月31日,所有法定的公共数据上线供获取。此后,持续保持数据的升级和更新。

可以发现,纽约市开放政府数据之初,就有良好的制度设计。首先,对开放政府数据的目标和价值有清晰的定位,正如市长迈克尔·布隆伯格(Michael R.Bloomberg)在签署“发布开放数据”修正案时所说:“我们将确保让所有纽约人获取这些驱动城市发展的数据,……让政府和民众更多共享数据,催生创造力,智慧,和计算机程序员的进取精神,同创有助于提升我们生活品质的工具”①Mayor Bloomberg Signs Legislation to Establish a Bed Bug Advisory Board,http://www1.nyc.gov.。其次,在法律架构之下,制定了详尽的开放数据实施计划,用于规划、指导实施开放数据计划过程中各个环节的工作,有章可循。在《纽约市开放数据计划》中,政府各大机构和部门的数据开放内容和时间表。DoITT则动态性公布政府机构和部门公开的数据量、进度、完成百分比,时刻提醒截止时间。第三,建立了良好的组织架构和协调机制。纽约市开放数据计划的实施,依法而为,市政府统领,独立的第三方技术机构负责研发,政府部门和机构配合。

(三)以严格的技术标准规范全过程

与一般专项研究不同的是,纽约市的开放数据系统建设之初就指定DoITT先行制定技术标准。“纽约市开放数据技术标准手册”(Open Data Policy and Technical Standards Manual)由市长迈克尔·布隆伯格于2012年9月签署生效,主要由“指南”(Guidelines)、“政策”(Policies)和“标准”(Standards)组成(见表2)。

表2 “纽约市开放数据技术标准手册”核心内容

按照这一严格而统一的技术标准体系,DoITT会同政府机构和部门对收集到的数据进行清理(Data Cleaning),将非结构性数据转化为机构性数据,保证数据格式的一致性,上传到统一的开放数据门户网站,供用户免费提取、使用和数据挖掘(Data Mining)。

(四)以大数据技术建构开放数据系统

NYC Open Data的数据采集、清理、存储、建模、分析、输出建立在大数据的逻辑和技术之上。

(1)数据收集极为广泛。NYC Open Data是目前美国所有公开数据平台中最具有开放性和互动性的大数据系统,强大的“数据仓”(Data Warehouse)、“云计算”(Cloud)系统,和“应用编程接口”(Application Programming Interface,API),使得几乎所有的机构和个人都能在网页上直接提取数据库中各种格式的数据,并可实施后期分析、应用。公众可以对平台上没有的数据表达需求,专门的工作人员对这些需求进行分析和答复。市民还可以自由上传数据,极大补充数据来源。为方便数据收集上传,NYC Open Data还将Facebook、Twitter、Tumblr等社交网站直接嵌入其中。311-open API则将 API融入311系统,加强数据在311系统、非政府网站和移动设备之间的传递。Multi-City Data Sharing系统则链接了纽约州、芝加哥等5个地方的数据。目前,NYC Open Data的参与机构已超过1000家,涉及750种数据类型。

(2)数据处理遵循大数据逻辑。NYC Open Data的原始数据主要为非文字的数据素材,大数据理论认为,原始数据虽然杂乱,也是有价值的,透过好的工具、地图和可视化数据,能让这些数据发挥更大的效用。NYC Open Data数据的提取—转换—装载过程,是从源系统中提取数据,根据业务规则清理,然后加载到另一个系统。对收集的数据经“联机分析处理”(OLAP)和“联机事务处理”(OLTP)后,由代理机构和DoITT实现数据提取、转换和加载(ETL),转换成“企业服务总线信息队列”(Enterprise Service Bus Message Queues)和“平面文件队列”(Flat File Queues)后载入“公开数据综合服务器”(Open data Integration Service),整合“地理转换服务器”(Geographic Conversion Service)和“监测通知服务器”(Monitoring Notification Service)收集的信息后,推向Open Data网站,网站同时接收“代理编程接口”(Agency APIs)和“合格代理数据库”(Eligible Agency Databasets)数据①Integration Architecture,City Standards,Open Data Policy and Technical Standards Manual,TSM.。

(3)推崇数据可视化和工具化应用。NYC Open Data开发者主张尽可能将数据可视化,并推向公众网络终端,为此正在开发各种应用工具,并鼓励机构和市民展开数据可视化和工具化使用的竞赛。为此,通过全球最大的轻博客网站Tumblr接受网民上传的可视化信息和应用程序。NYC Open Data还竭力将可视化数据推向APP终端,向市民提供“保姆式”服务,公众可以利用手机轻易找到所需信息,也可随时上传数据。

目前,我国公众对大数据的了解存在障碍,政府也还停留在谈论大数据的含义和意义上。虽然市各级政府、各大职能部门都有各自的数据和信息平台,但基本处于不精确、不完整和分散化分布的状态,信息“碎片化”问题十分明显,阻碍了公众对公共信息的获取,影响政府的服务质量。各级政府应将大数据的研发作为未来经济社会发展的重大战略,将大数据产业培育成我市重要的战略性新兴产业,在此基础上,整合高校、研究机构和企业的力量,及早设定标准,建立统一的公开数据平台,强化信息资源共享。这对建设公开化的政府和服务型政府具有重要的推动作用,同时也可创造新的经济机会。

猜你喜欢

纽约市科学政府
惨遭砍伐的“地球之肺”
暴风雪
点击科学
科学大爆炸
知法犯法的政府副秘书长
纽约市最著名的三明治
科学拔牙
“政府信息公开”观察
完形填空三则
衰落的科学