开放数据的内涵认知及其理论基础探析
2016-12-20马海群
马海群,蒲 攀
(黑龙江大学a.信息资源管理研究中心,b.信息管理学院)
开放数据的内涵认知及其理论基础探析
马海群a,蒲 攀b
(黑龙江大学a.信息资源管理研究中心,b.信息管理学院)
我国各类数据公开力度与国际水平相比存在明显差距,开放数据现状与数据需求之间的供求关系也表现出非平衡性。近年来,数据中心联盟(DCA)、开放数据中心委员会(ODCC)等的相继成立,以及《促进大数据发展行动纲要》等相关政策的颁布,表明了我国加入全球开放数据运动的积极态度。本文从开放数据的定义、类型以及其与大数据、开放源代码、开放获取、信息公开等概念的辨析入手,深入分析开放数据的内涵,并对知情权理论、数据权理论和数据价值理论等开放数据的理论基础进行探究,试图丰富我国开放数据的理论研究体系。
开放数据;大数据;知情权;数据权;数据价值
1 引言
从2009年起,随着美国、英国、加拿大、新西兰等国政府相继宣布他们的公众信息开放计划,开放数据开始受到主流媒体的关注。笔者以为,全球数据资源急速膨胀的倒逼、信息公开实践的推动、后信息时代大众创新的需求驱动、开源理念与开放思维的普及、公众政治参与意识的觉醒等共同推动了全球开放数据运动的兴起。在我国,国家主席习近平曾指出,实现“中国梦”的关键在于共享。这种共享是方方面面的,我们认为,数据的开放就是其中很重要的一个方面。它不仅是促进我国民主社会中公众知情权、数据权等基本权利普遍实现的必要手段,也是促进大数据时代以价值发现为主要目标、以数据驱动为主要方式的社会创新和大众创新的重要途径。
随着国内数据中心联盟(DCA)和开放数据中心委员会(ODCC)等的相继成立,2014年和2015年开放数据中心峰会的召开,以及2013年《关于进一步加强政务部门信息共享建设管理的指导意见》和《关于促进信息消费扩大内需的若干意见》、2015年《促进大数据发展行动纲要》、2016年《贵州省大数据发展应用促进条例》的颁布,包括2015年着手进行的《中华人民共和国政府信息公开条例》的修订工作,[1]我国的开放数据运动已经有望跟国际形势接轨。
2 开放数据的内涵认知
2.1 开放数据的定义
将数据开放有很多方法,在网络时代最直接的方式是提供数据在线版本。关于开放数据,至今尚无统一标准的定义,大多是针对开放性的描述,以下介绍几种典型定义。
开放知识基金会:开放数据是一类可以被任何人免费使用、再利用、再分发的数据,在其限制上,顶多是要求署名和使用类似的协议再分发。[2]维基百科:开放数据是指数据应该免费提供给任何人,以便他们按照自己的意愿自由地访问、使用、修改和再发布,而不受版权、专利权或其他控制机制的限制和约束。[3]乔尔·古林:那些已经被政府或者其他组织发布,任何人都能获得并能用于任何商业或者个人目的的数据。[4]相丽玲:一种自然属于或被许可进入公有领域,可以面向所有人自由使用或被授权利用、再利用和重新分配的数据。[5]李佳佳:开放数据不是可供人们获取的数据,也不是免费的数据,它是总是被给予的数据,它依赖于见证者而存在。[6]
笔者在此通过“数据”和“开放”两大要素来阐释开放数据的内涵。首先,“数据(data)”一词在拉丁文里是“已知”的意思,也可理解为“事实”。第一次开放数据的正式会议将“数据”定义为“一切以电子形式存储的记录”。[7]化柏林指出:数据是对客观世界的简单描述与观察记录,是对事实的编码化、序列化、数字化。[8]美国纽约州2013年11月发布的开放数据手册中对“数据”的解释是,数据是统计或事实性信息的最终版本,它以字母数字形式反映在列表、表格、图形、图表或其他非叙事形式的文件中,可以进行数字传输或处理。[9]综上可知,数据是字母数字形式的可供处理的客观记录。其次,开放数据所开放的不仅仅是单纯的某一个数据,更多的是某一类数据或者数据组合,通常被称为“数据集”,即保存在存储设备上的相关命名记录,以及包含序化和格式化,并以表格或非表格形式呈现的数据的集合。最后,数据的格式应该是开放的。开放格式的好处在于它允许开发者基于它开发不同的软件和服务,进而降低重用数据的壁垒,[2]常见的开放数据格式有CSV、RDF、JSON、KML/KMZ、XML、HTML、ZIP等。
再从“开放”的角度理解,洪京一指出,开放数据并不是简单地将数据电子化、格式化,降低获取数据的难度和提高数据的再利用程度才是核心,该核心的实现正是对于“开放性”的要求。[10]真正的开放意味着对任何人不存在任何再利用数据的限制,无论是法律上、经济上还是技术上。2007年12月,第一次开放数据的正式会议制定发布了开放公共数据的8条标准和原则,要求数据必须是完整的、原始的、及时的、可读取的、机器可处理的、不需要许可证的、数据的获取必须是无歧视的(可获取性和可访问性)、数据的格式必须是通用非专有的(再利用和再分发)。[7]192阳光基金会在此基础上增加了可持续提供和最小化获取开支,英国皇家学会提出了“可评价”的标准。[11]以上准则使得开放数据具有“互用性”的特点,即协同操作或混合不同数据集成为可能,这也是数据共通共享的核心要义,互用性的存在直接推动着开放数据最终目标“数据增值”的实现。
美国行政管理和预算局(OMB)认为,联邦政府发布的数据,其获得方式、产生的方法必须是透明的,要求政府在发布数据的同时,必须发布一系列文档,说明数据的来源、产生的方法,以及用户复制过程中可能出现的问题和错误。[7]132根据OMB的要求,任何人通过相同的方法,都能够产生和复制联邦政府发布的相同的数据,当然,这需要在相当透明和理想的环境下才能实现。但OMB的做法无疑拓宽了“开放”的内涵,即开放数据不仅仅指“数据”的开放,还应该包含“过程”的开放,即数据的来源、获取、处理等一系列数据操作方式的公开与透明。当然,偏差甚至错误也是允许存在的,数据开放的目的是实现价值增值,实现的方法除了挖掘数据本身及关联的价值以外,也应当包括数据纠错。
2.2 开放数据的类型
说到开放数据,大部分人会将其等同于开放政府数据或者政府开放数据,其实不然,如今的开放数据兴起于科研领域的开放获取。徐佳宁将开放数据的发展分为三个阶段:科学数据共享阶段、开放政府数据阶段和开放数据的结构化、关联化阶段。[12]所以我们认为如今各类符合“默认开放”原则的结构化、关联化数据也应属于开放数据的范畴。
麦肯锡全球研究所(MGI)2013年发布的研究报告《开放数据:流动性信息开启创新、提高效率》中指出,来自公共和私人领域的开放数据为大数据分析增加了新的维度,并将之提升到“以数据驱动创新”的新层面,因此,开放的数据集无论大小,都可以来自政府或其他机构和企业以及个人。[13]报告还对数据的范围和关系进行了界定(见图),很明显,开放政府数据完全包含在开放数据中,而作为个人数据的“My-Data”也有一部分与开放数据重合。因此,本文对开放数据的分类将据此进行。此外,由于开放数据的理念最早源于1958年国际科学联合会建立世界数据中心(WDC)时提出的科学数据的开放获取,[14]所以,如今的科学数据应该有绝大部分属于开放数据的范畴,比如公共资金、公益基金资助的科学研发过程中产生的原始数据(涉及国家安全、公共安全的除外)。
图开放数据与其他种类数据的关系
美国信息智库专家乔尔·古林也指出,从某个特殊的意义上来说,个人数据也可以成为开放数据,借助新技术,个人可以安全并有选择地公开自己想要公开的数据。同时,Personal.com和Reputation.com等公司也坚持认为,由个人控制的私人数据的新市场将能在保护个人隐私的同时创造出新的商业发展机会。[4]17那么,由于个人数据存在极大的价值增值空间,但它的开放又很容易触及隐私问题,这类数据的开放便成了一道矛盾的选择题。MGI的报告为之提供了可能的思路,即可将个人数据分为不包含个人可识别信息部分(这部分在获得授权的情况下向公众无差别开放),以及涉及个人身份信息的数据(这部分数据可面向数据持有者本人开放)。美国已经开始了这方面的实践,一些医院现在提供个别患者获得自己的医疗记录数据,在某些情况下,个人被允许修改或校正提供给它们的关于自身的数据,以改善数据的质量。[13]
综上,我们按数据权利主体,将开放数据的类型分为政府数据、公共数据、科学数据、商业数据和个人数据。需要说明的是,虽然公共数据的权利所有人是公众,但大部分是政府持有的,这部分数据与政府数据重合。同样,虽然公民个人数据的所有权在公民自己手中,但很多数据却并非自身持有,而是托管于第三方,例如QQ、微信、微博等社交网站的个人资料数据及原创内容,这部分数据在经过授权允许的情况下也可能转变成商业数据。
2.3 开放数据相关概念辨析
2.3.1 开放数据与大数据
首先,大数据是与小数据相对的概念。可以理解为传统抽样分析的“小数据”与当今计算机处理技术的“大记录”共同造就了大数据,大数据的核心在于“大”规模、“大”处理和“大”创新,而开放数据的核心要义在于大“开放”。其次,开放数据与大数据的特点不同。开放数据强调数据的可获取性、再利用性、普遍参与性、免费性和互用性,大数据强调数据的大体量(Volume)、大处理(Velocity)、来源多样(Variety)、真实准确(Veracity)、易变(Variability)、低价值密度(Value)和复杂(Complexity)的“6V+1C”特性。再次,开放数据与大数据囊括的数据范围不同。MGI报告中开放数据与其他种类数据的关系图示清楚地表明,开放数据与大数据有相交重合的部分,也有相互分离的部分。就范围来看,绝大部分开放数据最终都属于大数据。最后,开放数据与大数据的目的性不同。开放数据最初的目的在于推进民主,因此无例外情况下倡导所有公共数据全部开放,而大数据通常来源于无目的、无方向甚至无意识间产生的资源。一个典型的例子就是美国国家安全局的“棱镜门”事件,我们可以说棱镜计划属于大数据,但是斯诺登对“棱镜计划”的揭露不能算作开放数据,因为真正的数据开放,必须是由有权利这么做,并且有明确公共目的人来有意公布。[4]8-10在此需要强调,目的的合法性同样重要。
2.3.2 开放数据与开放源代码
首先,开放的对象与要求不同。开放源代码开放的是程序原代码,停留在技术层面,并且没有特殊的格式要求,面向的仅仅是程序员。而开放数据开放的是原始数据,要求统一标准的开放格式。它不仅和技术人员相关,还与数据的来源、性质以及过去和未来的使用人员都息息相关。其次,兴起的领域不同。开放源代码属于软件工程领域,它的兴起主要依靠互联网巨头IBM、微软等之间的商业竞争,竞争的焦点在于是否“免费”提供并授权修改。而开放数据兴起于科研、政府及公共领域,是为了响应公众的数据诉求,自带公益的属性,所以“免费”是无需争议的前提,也不具备营利性。最后,受益的群体不同。开放源代码的受益者主要是信息技术产业领域的各互联网企业,或者说是这些企业的技术员和程序员。很明显,想要直接获得开源带来的好处,首先必须拥有一定的专业技术知识储备。开放数据的受益者是无差别的所有人,理想状态下,不受地域、国籍、民族、文化限制的所有自然人都能从中获益,也因为这种普遍参与性,受益人并不需要具备特定的技能。
2.3.3 开放数据与开放获取
首先,开放的对象和领域不同。前面论述过,开放数据的对象是诸多来源的原始数据本身,我们通过这些“原始数据”可能会得到任一领域的科学发现,但并不绝对。而开放获取兴起于科研、学术和出版领域,它的对象主要是学术出版物,即已经得到的科学发现,主要是科研领域的成果。因此,可以这么认为,开放获取是开放数据在科研领域的早期表现形式,通过开放获取我们一定能够得到知识,但通过开放数据,我们仅能得到事实,能否将这些事实转化成知识还取决于个人能力等一系列其他因素。其次,开放的程度不同。开放获取分两种程度:“免费”开放获取,即免费在线访问,和“自由”开放获取,即免费在线访问外加一些额外的使用权,这些额外使用权通常由各种具体的知识共享许可协议授予。[14]而开放数据遵循“默认公开推定”原则,即公开是原则,不公开是例外,并不需要额外的授权过程。所有数据一旦产生,就将被默认为“可以公开”,如果不能公开必须说明理由,这些例外一般包括涉及国家安全、机密信息、个人隐私等方面的数据。最后,开放的形式不同。开放数据以机器可读的开放格式公布原始数据,任何人可以对这些数据进行操作并提出质疑。但由于开放获取只能提供科学发现的最终版本,即包含知识的原始文献,这些版本里或许会包含一定量的数据集,但却不包括得出发现的原始数据。从而就缺乏作为检验实验或调查是否科学的基本依据,其他科研人员也无法通过避免重复劳动的方式来缩短深入研究的周期。[15]
2.3.4 开放数据与信息公开
首先,产生的环境不同。信息公开是上个世纪末提出的,对应于电子政务的早期环境,最早是互联网技术普及催生的政府行为。而数据开放是2009年提出的新概念,产生于大数据时代,由科学领域的开放获取运动催生。[16]信息公开最初主要由美国社会的第四股力量“新闻和报纸”推动,而开放数据最初的动力来源于民间组织。其次,概念的内涵不同。第一,公开是政府等相关权利机构和社会公众或某一社会特定主体的关系,是点对点或点对面的。开放是将相关数据的全过程透明化,且由于数据开放主体的多样性,形成了开放主体与社会公众面对面的关系。第二,信息公开强调主体的主动性,开放数据强调主体的义务性。第三,情报学专家认为,信息是数据在信息媒介上的映射,是有意义的数据,而数据是对客观事实数字化的记录,其本身并无意义。[8]那么从这一点上理解,信息公开就是赋予了背景的开放数据,由于同一组数据可以被赋予N多种背景(N>1),因此从范畴上来说,开放数据要大于信息公开。最后,最终目的不同。信息公开主要是民主政治的要求,为了满足公众的知情权,并对政府机构进行监督与检查。但由于开放原始数据的成本比信息公开高很多,所以开放数据除了考虑社会效应,满足公众的知情权、数据权以外,还要考虑经济效益。它通过赋予公众数据的使用权、分享传播权来刺激公众的数据需求、推动大众创新,并最终实现数据增值。需要指出的是,虽然信息公开与开放数据有诸多不同,但两者之间也存在大量相同或相近的内容,信息公开的内容经过重新抽取、处理、格式化、结构化可以作为开放数据的内容,这也是我国上海市加快推进政府开放数据建设的一条快速途径。[17]
以上对开放数据内涵的分析为相关研究的展开奠定了基本的理念基础,而开放数据理论研究体系的丰富还需要有相关理论基础的支撑,下面基于开放数据运动所追求的目标属性探究其理论基础。
3 开放数据的理论基础探析
3.1 知情权理论
知情权(Right to know)又称了解权或知悉权,是二战后出现的一项新的人权。宪政领域的公民知情权是指公民接受、寻求和获取官方所掌握的情报信息的自由和权利。[18]1766年瑞典颁布的《出版自由法》规定市民为出版可以自由地阅览公文书,成为知情权的雏形,也是世界上最早以法律形式规定知情权的国家。[19]1945年,美联社执行主编库珀率先在美国提出了“知情权”的概念。他指出,知情权是指人民有权知道政府的运作情况和信息。如果不尊重公民的知情权,在任何一个国家,甚至全世界,都将无政治自由可言。1953年,美国哈罗德·克劳斯出版了《人民的知情权》一书,被后世誉为信息自由运动的“圣经”,后来美国出台的《信息自由法》,基本主张也都来源于此。[7]17-21此后,知情权的概念逐渐流行起来,并被作为公民的一项基本权利写入法律。如联合国大会1948年通过的《世界人权宣言》、美国1966年的《信息自由法》、挪威1971年的《信息自由法》、法国1978年的《自由获得行政文件》、澳大利亚1982年的《情报自由法》、加拿大1987年的《信息公开法》、荷兰1991年的《政府信息法》、俄罗斯1995年的《信息、信息化与信息保护法》、日本1995年的《关于行政机关所保有之信息公开的法律》、韩国1996年的《公共机构信息公开法》、英国2000年的《信息自由法》以及我国2007年通过的《中华人民共和国政府信息公开条例》(2015年修订工作已在进行中),等等。[19,20]
知情权是民主政治的内在要求,固有性、基本性与核心性是知情权的基本权利属性,同时具有基础性、普遍性和不可剥夺性的特点,并遵循普遍、合理和正义的原则。它的价值主要体现在:保障公民基本民事权利(人身权、财产权、知识产权等),推动政治民主化进程,监督政府行为、防止政府腐败,提高信息资源的共享程度和利用效率,维护法治秩序等方面。[21]开放数据最初的目的在于推进民主,毫无疑问,它的整个过程是为了满足公民的知情权,而关于开放数据的立法及行政法规制定的首要目标也是保障公民基本的知情权,从而实现对公民的赋权,进而实现建立在公民知情权基础上的对公民的参与权和监督权等的保障,并且使之能够成为约束行政权力和建立民主政治的基础。[21]可以说,若公民基本的知情权得不到有效保证,民主政治将失去重要基石,开放数据也便成为一纸空谈。
3.2 数据权理论
2010年5月,英国首相卡梅伦领导的联合政府在深化数据开放运动的同时,首次提出了“数据权(Right to Data)”的概念,强调数据权是信息时代每个公民都拥有的一项基本权利,它将确保人民有权向政府索取各式各样的数据,用于社会创新或者商业创新,并承诺要在全社会普及数据权。不久后的5月25日,英国女王在新一届议会发表的演讲中也强调要全面保障公众的数据权。[7]271-274此后,数据权作为数字时代一项新的公民权利开始受到广泛关注和讨论。曹磊指出,数据民主下的数据权是民主社会公民权利在网络空间的延伸。[22]李良荣指出,“数据权”有望成为下一个公民应有且必需的权利。[23]2011年4月,英国劳工关系部和商业部推出了落实全民数据权的“MyData”项目,“你的数据你做主”是该项目的核心思想,谷歌、巴克莱信用卡、汇丰银行、Groupe Aeroplan、Home Retail Group等十多家不同行业的大公司纷纷加入了这个项目,承诺将对社会开放公司收集的与客户相关的数据,实现了商业领域开放数据的巨大飞跃。值得一提的是,由于把数据开放的理念从公共领域推进到商业领域的重大实践,“MyData”的成功一度使英国的数据开放超越了美国。[7]274-276
广义的数据权包括数据主权和数据权利两个方面,前者的实施主体是国家,后者的主体是全体公民。狭义的数据权仅指数据权利,即卡梅伦政府提出的信息时代公民的一项基本权利,主要包括个人数据权和数据财产权。数据主权是一个国家独立自主地对其政权管辖地域内的数据享有生成、传播、管理、控制、利用和保护的权力,其核心是对数据的管理权、控制权和利用权。[24]数据权利是相对应公民数据采集义务而形成的对数据利用的权力,具备独立性和开放性。[22]国家的数据主权是公民的数据权利得以行使的充分条件。个人数据权是自然人依法对其个人数据进行控制和支配并排除他人干涉的权利,属于人格权类型,主要包括数据检索权、数据获取权、数据授权权、数据裁定权、数据修正权、监督使用权、数据隐私权、数据安全权、数据隐匿权、数据遗忘权、数据收益申请权和数据侵害索赔权等。数据财产权是权利人直接支配特定的数据财产并排除他人干涉的权利,属于经济权类型,它是大数据时代诞生的一种新类型的财产权形态,主要表现在权利人依法享有对自己数据财产的所有、利用、获益和处理的权利。[24]此外,个人数据具有价值和使用价值的商品特征,为构建数据市场提供了“数据商品化”的思路,这也为个人数据权与数据财产权之间搭起了桥梁,以便公民数据权的充分实现。[25]
需要特别指出的是,在基于“预测”的大数据时代,公民的数据权也会因预测的“双刃剑效应”而受到侵害,即往往不是因为“所做”而是因为“将做”受到惩罚。由于大数据强调相关关系,而非因果关系,便会造成“预测”的偏差甚至滥用。2002年上映的美国电影《Minority Report》中有这样一个场景:在2054年的华盛顿特区,警局预防犯罪组依据三个超自然人的想象——Howard Marks将要谋杀他的妻子,而逮捕了他,可事实上,Howard什么也没做。[26]电影描述了一个未来可以准确预知的世界,而如今我们利用大数据分析技术正在实现这种预知,该场景警示我们:未来可能出现大数据“预测”的滥用,通过侵犯个人数据权,而侵犯公民的人身财产权利。这种预测违背了人类的自由意志,违反了无罪推定的原则。面对这种侵害,我们应当有权利依法行使数据侵害索赔权、数据隐私权、监督使用权等数据权利。[27]
3.3 数据价值理论
2015年1月1日,由大华南IT高管共赢圈、CIO发展中心等发起成立的“数据价值网”正式上线。作为DT时代的新锐媒体,它致力于促进分享、联接以及整合各种有价值的数据资源。数据价值网的成立在为大数据时代数据增值提供良好平台的同时,也启发我们重新审视数据价值。
数据科学家舍恩伯格指出:数据的全部价值远远大于其最初的使用价值,最终,数据的价值是其所有可能用途的总和。[27]132这一说法与大数据定律之一“数据之和的价值远远大于数据价值的和”的观点一致,即对于大数据时代数据价值的挖掘,我们总能得到“1+1>2”(这里的“+”指的是数据的整合,而非简单的加和)的效果。即使考虑数据折旧(注释:数据失去部分基本用途),也不影响这种价值的实现。因为在开放数据的助力下,数据的潜在价值(注释:因使用而产生的价值)往往足以抵消数据折旧所带来的负面影响,而且并非所有的数据都会贬值(注释:比如史书资料数据)。此外,数据具有价值和使用价值的商品特征,价值取决于数据本身,由它的及时性、真实性、客观性和准确性决定。也就是说数据一旦产生这个价值就确定了,我们暂且把这部分价值称为数据的“固有价值”。但正如舍恩伯格所言:“大部分的数据价值在于它的使用,而不是占有本身”,基本再利用、数据重组、数据扩展、数据折旧、数据废气和开放数据这六种潜在价值的释放方式将最终决定数据的全部价值。开放数据使数据具有经济学意义上的“非竞争性”,由于无差别获取原始数据,因此个人的使用并不会妨碍其他人的使用,也不会像其他物质产品一样随着使用而有所耗损。即数据经过无限次重复利用之后,要么获得新的科学发现而增值,要么保持原有价值继续传播。同时,根据边际成本递减规律,当收集多个数据流或每个数据流中更多的数据点时,由于额外成本减少、数据用途增多的双重影响,潜在价值会得到更大程度的释放。
价值转移也是数据价值实现的一个重要途径,这一点在诸多商业实践中得到了证实。数据价值链主要由数据本身、技术和思维这三大要素构成。[27]160大数据时代最初,数据本身更值钱,典型的例子就是2006年微软以1.1亿美元的价格购买了埃齐奥尼的大数据公司Farecast,而两年后,谷歌以7亿美元的价格购买了为Farecast提供数据的ITA Software公司。[28]这5.9亿美元的价格差并不一定说明ITA Software比Farecast实力强,但却在很大程度上表明了商业公司对数据本身的看重。要想挖掘数据带来的价值与利益,就需要最大程度地获取数据本身。随着数据爆炸式增长,数据的价值密度不断降低,拥有海量数据本身的优势就减弱了,此时,价值转移到了技术上,数据科学家应运而生,并成为极度缺乏的人才。谷歌首席经济学家哈里·范里安曾说“数据非常之多而且具有战略重要性,但真正缺少的是从数据中提取价值的能力,”[29]数据科学家正拥有这种能力。他们懂技术,具备数据处理相关的所有素质,并且运用得恰到好处。他们能够通过数据挖掘得出“啤酒与尿布”的特殊关联并指导销售。到目前为止,数据和技能依然备受关注。因为在现今世界,技能依然欠缺,而数据则非常之多。但这并不是说思维就不重要了,相反,数据思维非常关键,因为它往往能够激发数据和技能的双重优势,并且实现数据价值在这三者之间的自由转移。“大数据+”就是数据思维的典型例子,它通过把大数据嫁接到不同的产业,充分整合数据资源以创造经济效益。另外,对数据废气(注释:用户在线交互的副产品,通常包括浏览的页面、停留的时间和位置、输入的信息等)的挖掘也是数据思维的价值体现。阿里巴巴旗下淘宝网站的商品推荐功能就是数据废气价值挖掘的典型。某一用户可能只是为了打发时间而浏览了商品,并未有任何购买行为,从经济效应上来说,本次浏览是无效的,产生了数据废气。但淘宝会通过这个浏览得到用户感兴趣商品的反馈,进而通过挖掘潜在用户或用户的潜在购买力来创造收益。在大数据时代,那些单纯拥有数据、技术或思维的公司,都在数据的价值转移中分得了一杯羹,而像谷歌的拼写检查程序、亚马逊的图书推荐系统、淘宝的商品推荐系统三者兼具的企业更是收获颇丰。
数据的潜在价值和价值转移重塑了大数据价值链,颠覆了传统的商业模式,催生了新的科学发现,也成为呼唤开放数据的原始动力和最终目标。
[1]卢梦君.国务院信息公开办确认:《信息公开条例》修订工作已在进行中[EB/OL].[2016-03-28].http://www.thepaper.cn/newsDetail_forward_129 7040.
[2]Open Knowledge Foundation.Open Data Handbook Documentation[R].Cambridge of the UK:Open KnowledgeFoundation,2012.
[3]Open data[EB/OL].[2016-03-31].https://en. wikipedia.org/wiki/Open_data.
[4](美)乔尔·古林(Joel Gurin).开放数据[M].张尚轩译.北京:中信出版社,2015:6.
[5]相丽玲,王晴.论开放数据的法律属性、责任义务及其相关机制[J].国家图书馆学刊,2013(5):38-44.
[6]李佳佳.信息管理的新视角:开放数据[J].情报理论与实践,2010(7):35-39.
[7]徐子沛.大数据:正在到来的数据革命,以及它如何改变政府、商业与我们的生活[M].桂林:广西师范大学出版社,2012:193.
[8]化柏林,郑彦宁.情报转化理论(上)——从数据到信息的转化[J].情报理论与实践,2012,35(3):1-4.
[9]New York State.New York StateOpen Data Handbook[R].United States:New York State,2013.
[10]洪京一.从G8开放数据宪章看国外开放政府数据的新进展[J].世界电信,2014(Z1):55-60.
[11]中国科学院国家科学图书馆开放资源建设组.开放数据调研报告[EB/OL].[2016-03-25].http: //open-resources.las.ac.cn/drupal/?q=node/3064.
[12]徐佳宁,王婉.结构化、关联化的开放数据及其应用[J].情报理论与实践,2014(2):53-56.
[13]McKinseyGlobal Institute.Open data:Unlocking innovation and performance with liquid information[R]. United States:MGI,2013.
[14]Openaccess[EB/OL].[2016-03-28].https://en. wikipedia.org/wiki/Open_access.
[15]Murray-Rust P.Open data in science[J].Serial Review,2008,34(1):52-64.
[16]胡小明.信息公开与数据开放有什么区别[J].中国信息化,2014(Z3):8-9.
[17]卫军朝,蔚海燕.上海推进政府开放数据建设的路径及对策[J].科学发展,2014(11):80-88.
[18]陈瑞平,等.知情权理论与高校党务公开制度的若干探讨[J].前沿,2010(4):112-114.
[19]夏青青.公民知情权的基本理论探研[J].通化师范学院学报,2010(7):62-66.
[20]刘泽巍.论知情权的基础理论及其制度构建[D].北京:中国政法大学,2007.
[21]马海群,等.高校信息公开政策研究[M].北京:知识产权出版社,2014:10-12.
[22]曹磊.网络空间的数据权研究[J].国际观察, 2013(1):53-58.
[23]李良荣.“数据权”:下一个公民应有且必需的权力[EB/OL].[2016-04-05].http://theory.people. com.cn/n/2013/0521/c112851-21551974-3.htm l.
[24]齐爱民,盘佳.数据权、数据主权的确立与大数据保护的基本原则[J].苏州大学学报(哲学社会科学版),2015(1):64-70,191.
[25]谢楚鹏,温孚江.大数据背景下个人数据权与数据的商品化[J].电子商务,2015(10):32-34,42.
[26]MinorityReport(film)[EB/OL].[2016-04-08]. https://en.wikipedia.org/wiki/Minority_Report_(film).
[27](英)维克托·迈尔-舍恩伯格,库克耶.大数据时代[M].盛杨燕,周涛译.杭州:浙江人民出版社,2013:202-207.
[28]刘奥南.大数据开启大时代[EB/OL].[2016-04-05].http://finance.china.com.cn/stock/20130817/ 1733563.shtm l.
[29]文雯.斯人:数据科学家[EB/OL].[2016-04-08].http://news.takungpao.com/fk/takung/small -park/2013-10/1987898.htm l.
Research on the Connotation and Theoretical Foundation ofOpen Data
MaHai-qun,Pu Pan
Comparingwith theinternational level,thereisasignificantgap ofour countryon the issueofopendataand the relationship between the supply and demand of the open data.The establishmentof the Data Center Alliance(DCA),Open Data Center Committee(ODCC)and the issue of related policy shows the positive attitude of China'saccession to the globalopen datamovement.Thisarticleanalyzes the conceptsand typesofopen dataaswellas thedifferenceamongopen dataand bigdata,open source code,open access,open information,etc.Meanwhile,it explores the theoretical basis of open data such as the right to know,the righttodataand thevalueofdata toenrich the theoretical research system of open data in China.
Open Data;BigData;Right toKnow;Right toData;ValueofData
G252.8
A
1005-8214(2016)11-0048-07
马海群(1964-),男,黑龙江大学信息管理学院博士,教授,博士生导师,研究方向:信息政策与法律研究;蒲攀(1990-),女,陕西人,黑龙江大学信息管理学院在读研究生,研究方向:信息资源管理研究。
2016-04-11[责任编辑]王岗
本文系国家社科基金重点项目“开放数据与数据安全的政策协同研究”(项目编号:15ATQ002),黑龙江大学研究生创新科研项目“大数据环境下我国开放数据政策模型研究”(项目编号:YJSCX2015-066HLJU)的系列成果之一。