研究数据类数字资源保存的供给与需求影响因素分析
2011-03-18臧国全胡喜超郑州大学信息管理系郑州450001
●臧国全,胡喜超(郑州大学 信息管理系,郑州 450001)
1 引言
研究数据类数字资源有很多种,其保存价值也各有所不同。主要类型有下述4种:
(1)观测型数据。来自于天文望远镜、人造卫星、传感设备、测量仪器以及其他记录不可重复性现象数据(如天文数据库SDSS[1]中的数据)的设备,还包括社会观测类数据(如ICPSR[2]的人口调查数据)。很多情况下,产生这类数据的观测环境无法再现。
(2)实验型数据。来自于大型实验设备(如粒子加速器)的实验、医学临床试验、生物实验、制药实验以及其他条件控制性实验的实验结果(包括中间结果),还包括对人类和濒临灭绝物种进行实验的数据。有些情况下,重复这类实验要么不可行,要么有悖于人类伦理道德。
(3)计算型数据。来自于大规模计算的模拟。虽然这类数据可以通过重新模拟计算环境再次获取,但至少有下述原因需要对这类数据进行中期(一般3—5年)以上保存,即短期内难以获得这种模拟所需的时间和计算设备等资源,这种情况对于大范围共享的超大型计算设备(如美国国家自然科学基金NSF的计算机)尤其普遍。
这3种类型数据的保存常常需要同时保存一些辅助数据,比如设备的校准数据、实验参数等。
(4)参考型数据。比如人类基因数据库和全球蛋白质资源数据库(UniProt[3]) 等,主要用于跨学科横向研究(如,全球经济和社会状态的交叉研究等)。
一般认为,研究数据类数字资源保存是传统介质研究数据类信息资源保存的延伸。但是,由于下述两个原因,导致两者存在较大区别:其一,研究数据类数字资源的非排斥性消费属性(原因在于传统介质研究数据类信息资源是购买使用,而研究数据类数字资源是授权使用),导致保存动机不足,并产生“搭便车”的问题;其二,研究数据类数字资源保存的派生需求属性,导致保存动机错位,并产生利益相关方承担的保存职责变化。
从经济学角度看,数字保存的基本属性是供给与需求。影响数字保存供给与需求的因素主要有三:[4]数字资源的保存价值、保存决策者的保存动机和数字资源的保存成本。在数字保存的总体框架下,探讨研究数据类数字资源保存的供给与需求影响因素,不仅有助于这类数字资源保存的可持续性,而且也可供其他类型数字资源(如学术型数字资源) 的长期保存参考。
2 保存价值
经济学上,价值指受益。数字资源的保存价值是用户对其访问和使用所获得的受益。保存价值不仅影响数字保存的供给,同时也影响数字保存的需求。保存价值越高,不仅会提升数字保存的供给,也会刺激数字保存的需求;反之,会导致数字保存的供给和需求的下降。
保存价值体现在用户需求之中。数字保存的用户需求有两个基本特征:① 当前需求的发散性,指不同类型的当前用户群体对某一类型数字资源的访问需求的分布状态。针对研究数据类数字资源,当前用户具有高度集中性,且具有较强学科专业特征,主要分布在两个领域:一是研究人员,尤其是基于“数据密集型研究”的专业人员,这类用户将研究数据类数据资源作为一项新研究的输入,同时其研究的输出又形成新的研究数据类数字资源;二是公共政策制定人员,这类用户在制定公共政策时常常需要参考这类数字资源(如,气候、地震、海洋、社会普查、濒临灭绝物种等数据)。以上两类用户对研究数据类数字资源保存的完整性、可访问性和保存实践的重大变化都会给予高度关注。② 未来需求的预测性,指用户需求不仅分布在现在,更主要分布在未来,因此在进行数字资源的保存选择时,不仅要考察当前的用户需求,还必须预测未来的用户需求。针对研究数据类数字资源,未来需求可以基于传统介质研究数据类信息资源进行合理预测,而后者的未来需求预测模式的形成与完善已有很长历史。
保存价值与保存周期有关。数字资源的保存周期越长,半衰期也可能越长,保存价值可能越大。从保存周期角度划分,研究数据类数字资源可以分为两类:一是需长期保存的数字资源,主要涉及观测环境无法再现的观测型数据、难以重复进行实验的实验型数据以及一些历史类数据,这类数据半衰期很长,保存价值也很高;二是需要中期保存(一般为3-5年)的数字资源,主要涉及计算型数据和观测环境可以再现的观测型数据,这些数据一旦有更新或更完整的数据出现(如,更精确设备实验产生的数据),就应该及时更新,更新周期取决于数据性质和学科专业,但一般不会太久,所以半衰期相对较短,保存价值也相对较低。
保存价值与数字资源的保存选择有关。一般来讲,经过权威专业机构进行保存选择的数字资源的保存价值比不加选择而进行保存的价值要高。针对研究数据类数字资源,专业团体在对这类数字资源进行保存选择和保存周期设定方面扮演重要角色,比如,美国应用研究中心(ARC[5])和美国政治与社会研究跨大学联盟(ICPSR[2]) 分别代表天文科学和社会科学的专家和用户制定天文观测数据和社会普查数据的保存选择标准。实际上,几乎所有的数据密集型研究领域都形成了各自领域的比较一致的保存选择标准,授权给一个代理机构代表该领域专家和用户实施该领域数据的保存选择,实践证明,这是一种提高保存价值的有效方式。
保存价值的测度来自于用户访问的受益。但这种受益很难定量化,很多时候只能定性化,比如增加知识、帮助解决问题等。正是因为这个特征,保存价值常常用负面受益形式表示。负面受益包括两个方面:① 如果数字资源没有保存,未来需求时就需重新生产,这会产生生产成本,这种情况适用于计算型数据和观测环境可以再现的观测型数据;② 如果无法再次生产,将导致永久性不可访问,此时的保存价值可以用减少无法接受的损失风险来衡量,这种情况适用于观测环境无法再现的观测型数据、无法重复进行实验的实验型数据以及一些历史类数据,一旦错过保存时间,将导致永久性丢失。
3 保存动机
保存动机是保存决策者实施数字保存的驱动力。影响数字保存供给与需求的保存动机缺失有两种情况:一是保存动机不足,比如以营利为目的的数字保存系统在保存成本高于保存收入时;二是保存动机错位,比如出现在数字保存的受益群体(因此他们有保存动机)与处于保存位置(因为他们拥有或控制数字资源)但缺乏保存动机的团体之间的错位。
3.1 保存动机不足
保存动机不足的根本原因在于数字资源消费的搭便车问题。从经济学角度讲,用户对数字资源的消费是一种非排斥性消费,数字资源可同时供众多用户并发消费,并且相互之间不会产生影响。这种非排斥性消费属性必然导致“搭便车”问题(也即“免费享受”问题)。“搭便车”问题是指一些人需要某种产品(一般是公共产品),在别人付出代价去取得后,他们采用“拿来主义”,不劳而获地享受成果。[6]例如,在天文学领域,提倡专业研究者与业余爱好者之间共享数据一直是天文学科的优良文化,该领域的研究数据类数字资源库SDSS也支持范围宽泛的各类用户免费访问,这种学科文化和访问政策就导致严重的搭便车问题,并因此大大降低了保存决策者(往往也是保存费用的承担者)的保存动机。
解决研究数据类数字资源保存动机不足的第一种方法是将用户限定在支付费用的范围之内。比如,成立于1962年全球最大的社会问题与政策研究数据保存机构ICPSR[2](美国政治与社会研究跨大学联盟),该联盟目前运行包括美国人口统计、教育、人类健康与疾病、少数民族等9个领域的20多个有关美国社会问题的研究数据类数据库,[7]这些数据库的保存费用有些来自于美国联邦政府(比如,人口统计数据库DSDR的保存费用来自联邦统计局,也即美国公民的税收),用户局限在美国本土(采用IP限制方法);有些来自于会员费用(如,人类健康与疾病数据库HMCA),用户局限在注册会员;也有些提供用户在线注册访问,保存费用(至少部分保存费用) 来自用户的注册费用。上述3种方法都被证实是解决“搭便车”问题的有效途径,也是ICPSR保存动机的根源所在。
解决研究数据类数字资源保存动机不足的第二种方法是实施保存意愿,强制性提升保存动机。资助机构常常是保存意愿的施加者,被资助机构或个人则是保存意愿的接收者。比如,作为资助机构的美国国家自然科学基金委员会(NSF)和英国联合信息系统委员会(JISC),针对资助的研究项目制定了研究数据的保存选择标准,明确规定用于研究数据保存的受资助项目的资金比例,并将研究数据保存作为成果评价的一个核心指标,监督研究数据的产生和保存过程,建立和完善研究数据生产与保存的报告制度。实际上,针对这种基金资助型研究,研究数据的保存遵循“零和规则”(zero-sum[8]),也即研究数据保存活动花费的时间和资金从研究项目总体预算中扣除,不会产生额外负担,这种规则对提升保存动机产生较大影响。
3.2 保存动机错位
保存动机错位的根本原因是数字保存的派生需求属性。所谓派生需求是指对一种产品(常常是中间产品) 的需求派生自对另一种产品(常常是最终产品)的需求,如对轮胎的需求派生自对汽车运输的需求。针对数字资源,社会关心的是未来访问和利用的可能性,长期保存则产生这种可能。所以,对数字保存的需求派生自用户对数字资源的未来访问的需求。
解决保存动机错位的第一种方法是实施产权的非独占性许可,从而实现保存职责的转移。在传统介质研究数据类信息资源保存与访问中,版权法保护这类信息资源的产权拥有者在特定时期内享有的独占权,同时也授予有限权给有资质的公共机构进行保存以满足公共的访问需求。但是针对研究数据类数字资源,这种公共与私人之间的利益平衡关系难以实现,因为数字资源是授权使用,而传统资源是购买使用。为了实施有效的数字保存,学者可以将自己的研究成果的保存权以非独占方式直接许可给致力于长期保存的数字保存系统,将保存职责从学者个人转移到专业的数字保存系统。比如美国天文学SDSS数据库,天文业余爱好者和专业研究者将其观测和研究出的天文数据的保存权以非独占方式转让给该数据库进行长期保存,供其他天文爱好者和研究人员免费共享访问,同时也实现了这类数据的保存职责从个人拥有者到专业保存者的转移,为后者理顺了保存动机。
解决保存动机错位的第二种方法是构建公共保存与私人保存之间的合作机制,协调保存动机。这类合作机制的基本功能有二:一是界定公共与私人之间的保存角色和承担的保存职责;二是研究数字资源从私人拥有者到公共保存机构的安全转移。一些领域已经建立了这类合作机制,比如,根据美国国会颁发的《国家数字信息基础结构和保存计划》中的公共与私人数字资源保存之间的多边合作机制框架,美国U-niProt协会承担生物科学技术领域中这类合作的协调职能,履行该领域中公共保存与私人保存之间合作机制的管理职责。另外,该机构建立的全球著名的蛋白质UniProt数据库(收录生物科学的研究数据,包括基因研究数据、蛋白质序列研究数据等),依靠美国联邦政府财政拨款从公共利益角度保存该领域的研究数据,供全球生物科学科研人员免费访问。
4 保存成本
基于目前实践以及经济学角度,研究数据类数字资源的保存被视为下述两种不同的经济产品,成本支付方式差异甚大,对该类数字保存供给与需求的影响也很不同。
(1)研究数据类数字资源的保存被视为一种公共产品。比如,全球蛋白质数据库、天文学SDSS数据库等,公共机构保存这类数字资源,通过社会公共资金(一般来源于社会税收)支付保存费用。针对这类数字资源的保存,成本越低,所需资金就越少,这类公共产品的供给门槛就越低,反之,就会增加这类公共产品供给的困难。目前,业界持有一个普遍观点是对这类公共产品应该提供公共获取,甚至免费的公共获取(如著名机构PubMed Central[9]所提倡的)。但是,如果公共获取政策不与保存成本相连接,那么这种获取就失去了经济基础。一些数字保存的经历说明:[10]即使公共投资也没有长期的保障。
(2)研究数据类数字资源的保存被视为一种经济产品。比如,ICPSR中一些数据库,商业化的数字保存系统提供保存并面向公共提供访问,通过收取用户的访问费用支付保存成本。针对这类数字资源的保存,保存成本不仅影响这类经济产品的供给,也会影响用户对这类经济产品的需求。成本过高,会增加数字保存供给的经济障碍,也会提高用户支付的访问费用,降低用户的访问需求。因此,降低保存成本是这类经济产品的一个永恒主题,实现的基本方式有规模经济和范围经济两种,前者的一个示例是保存的数字资源规模越大,单件保存成本越低;后者的一个示例是绑定保存服务与访问服务。
另外,还有一种成本支付模式是上述两种的结合,由政府提供初始资金,用于数字保存系统基础设施的建设,系统运行成本通过收取用户访问费用支付。这种模式有助于促进公益性较强的研究数据类数字资源的可持续保存以及数据密集型研究的基础建设。
5 结束语
无论是在自然科学领域,还是在人文社会科学领域,基于数据密集型的科学研究方法应用日臻普及,这种方法的应用基础是研究数据类数字资源的长期保存。构建这类数字资源的长期保存模型应该至少包括:
(1)研究数据类数字资源的保存价值的评估机制。该机制应该由专业社团或其他公共认可的组织构建,用于保存机构对这类数字资源进行长期保存时的筛选。
(2)科学基金资助的研究数据类数字资源的保存意愿的施加机制。该机制应该由科学基金提供者实施,用于受资助项目产生的研究数据类数字资源的保存或转移给公共保存机构进行保存。
(3)研究数据类数字资源的长期保存成本的分摊机制。该机制应该由数字保存系统实施,用于该类数字资源长期保存的经济可持续性保障。
(4)研究数据类数字资源生产者的非独占性许可机制。该机制应该由该类数字资源生产者实施,用于降低公共机构从公共利益出发保存该类数字资源的产权障碍。
(5)研究数据类数字资源的私人保存与公共保存之间的合作机制。该机制应该由这类数字资源的领航保存机构(如美国的ICPSR)构建并测试完善,用于该类数字资源从私人拥有者到公共保存机构的保存职责的转移。
[1] SDSS.The Sloan Digital Sky Survey[EB/OL].[2010-08-01].http://www.sdss.org/.
[2] ICPSR.Inter-University Consortium for Political and Social Research[EB/OL].[2010-07-23].http://www.icpsr.umich.edu/icpsrweb/ICPSR/.
[3] Uni Prot[EB/OL].[2010-08-19].http://www.uniprot.org.
[4] Francine B,et al.Sustainable economics for a digital planet:Ensuring long-term access to digital information[EB/OL].[2010-03-10].http://brft.sdsc.edu/biblio/BRTF_Final_Report.pdf.
[5] ARC.Applied Research Center[EB/OL].[2010-08-02].http://www.arc.org.
[6] 百度百科.搭便车问题的经济学含义[EB/OL].[2010-05-10].http://baike.baidu.com/view/1180932.htm.
[7] ICPSR Thematic Collections[EB/OL].[2010-08-06].http://www.icpsr.umich.edu/icpsrweb/ICPSR/partners/archives.jsp.
[8] 零和游戏 [EB/OL].[2010-07-01].http://zhidao.baidu.com/question/7116223.html?si=2.
[9] PubMed Central.U.S.National Institutes of Health free digitalarchive of biomedical and lifesciences journal literature[EB/OL].[2010-07-27].http://www.ncbi.nlm.nih.gov/pmc/.
[10] AHDS.Enabling Digital Resources for the Artsand Humanities[EB/OL].[2010-01-30].http://ahds.ac.uk.