面向重用的农业科学数据共享模式研究*
2019-03-25彭秀媛周国民
◎彭秀媛 王 枫 周国民
一、引言
科学数据共享模式研究并不是一个新的研究主题,但在数据密集型科学研究范式和web2.0模式下,新的数据对象和科学数据共享需求的出现,深刻影响着科学数据共享模式。农业科学数据共享研究对象由国家科技计划项目数据、政府部门长期采集的科学数据和管理的业务数据,扩展到了广大农业科研人员在研究工作中所产生的大量分布式科学数据。数据共享也需将依靠自上而下的任务推进模式转变为自下而上的应用倒逼模式。因此基于农业科学数据特点及需求,探索面向重用的农业科学数据共享模式,对于推动农业科学数据资源建设,支撑国家及区域农业科技创新有着重要意义。
二、共享模式相关研究
随着技术的进步和需求的变更,共享模式研究的范围不断扩大、研究重点也不断转移。学者们从不同范围、不同层面、不同角度对共享模式进行了研究和实践,按照共享对象可归纳为文献信息资源共享模式、政府信息资源共享模式、科学数据共享模式、知识共享模式四类。其中较多针对文献信息资源共享模式进行研究,科学数据共享模式的研究仍处于探索阶段。上述共享模式的对象、目的和角度不尽相同,但都构建了符合其需求的最佳模式。从发展趋势来看,共享模式将呈现多种形式共存、全方位共享的局面。
在科学数据共享模式研究方面,不同研究角度带给我们纷繁多样的科学数据共享模式,总体来看,在抽象化共享模式研究方面,微观层面上围绕科学数据对象,中观层面关注共享运行组织,宏观层面着眼于共享制度;在具体化共享模式研究方面,针对地球系统科学数据、国家人口和健康科学数据、基因和临床数据等对象开展了实践研究[1]。不同领域的科学数据需求和共享对象特质决定了科学数据的共享模式,例如气象学、遥感、水文等领域研究主要重用大型标准化数据集,其共享模式主要采用政府主导的共享模式;生态等领域研究则更需要一些小型分布式科学数据,其共享模式主要采用个体间或基于数据社区等中间体形态的共享模式;农业领域研究将组合涉农多领域科学数据共同开展,因此其所需模式更为复杂多样,实践更具特色。现有科学数据共享模式研究只着眼于抽象化共享模式或具体化共享模式展开,未见结合抽象化模式和具体化模式的共享模式研究思路。
三、面向重用的农业科学数据共享模式构建
(一)农业科学数据相关特点
前期以辽宁省为例对农业科学数据的用户情况、资源现状、共享现状、重用情况和需求情况进行了调研[2]。通过对调研结果进行深入分析,总结了农业科学数据相关特点:
1.农业科学数据特点:除具有来源复杂、内容复杂、传播复杂、地域性、季节性、多样性、周期性等特点外,还具有以下特点:数据存量大;数据呈现“小集中、大分散”的分布模式;数据类型多样;数据标准化程度低;大部分数据获取方式原始。
2.农业科学数据重用特点:处理程度不高;数据重用行为较少;数据重用方式单一;论文附带的证明数据应用频繁。
3.农业科学数据共享特点:数据共享意愿强烈;可共享的数据资源充足;共享方式单一;共享机制不完善。
(二)科学数据重用模式
科学数据重用模式可归纳为以下三类:1.数据层面的传统科学数据重用模式(包括基于私有数据接口的数据重用、基于SOA等架构接口服务的数据重用、基于数据交换代理的数据重用);2.组织层面的科学数据重用模式(包括科学数据集成检索与服务、科学数据语义化组织与再利用等);3.应用层面的科学数据重用模式(包括特定科学数据处理流程构建、基于科学数据挖掘新知识等)。
(三)农业科学数据共享模式构建
1.农业科学数据共享模式构建思路
研究构建的数据共享模式为抽象化和具体化相结合的共享模式,首先提出抽象化数据共享模式,基于此模式,在实际应用中衍生出与应用场景紧密联系的多个具体化共享模式。抽象化数据共享模式研究路线为:综合分析农业科学数据特点和数据重用特点,设计面向重用的农业科学数据分类。综合分析农业科学数据特点、数据重用特点和数据共享特点,基于农业科学数据分类,在适应需求、适度超前、因地制宜、渐进发展、可持续等共享模式构建原则下,开展农业科学数据抽象化共享模式研究(图1)。
图1 农业科学数据抽象化共享模式研究路线
2.面向重用的农业科学数据分类
数据分类是数据共享和重用工作中不可或缺的环节。国内外进行科学数据共享建设的相关机构也都建有自己的分类体系,但各自独立、差异很大,且更多考虑检索的需求,缺乏面向农业科学数据重用,兼顾农业科学数据特点的数据分类[3-5]。根据农业科学数据重用特点和重用模式,结合文献调研结果,研究认为将农业科学数据分为间证数据、基准数据、一次数据、二次数据四类更为合理(图2)。其中间证数据和基准数据包含于一次数据和二次数据,但根据科学数据重用的特点,间证数据和基准数据作为广泛重用的数据类型,特将其从一次数据和二次数据中分离出来进行考虑。
图2 农业科学数据分类及关系
(1)间证数据。间证数据是指支撑科技论文的科学数据,也是形成论文结论和验证论文结果的必要数据,NIH将此类数据定义为“最终数据(final data)”[6]。其主要作用是作为同行评审的参考依据,以及论文发表后的研究再现。
间证数据目前主要有论文附件、论文补充数据和数据论文三种形式。其中论文附件是指使用的方法、图表、公式等支撑论文主要内容的数据;论文补充数据是指原始与衍生数据集、软件代码、视频与音频文件等不适合印刷的有效电子文件数据[7]。数据论文可被认为是按照学术规范出版的、能够被检索的、用来描述一个或多个可在线访问数据集的数据元数据文件[8]。论文附件、论文补充形式早已有之,较为普遍,数据论文或许是未来的主要形式。
(2)基准数据。基准数据是指农业统计数据、农业常用参数和现代农业基准数据等。
农业统计数据包括全国农业普查数据、中国统计年鉴(农业部分)、省级农业统计年鉴等;在科学研究领域还涉及实验统计、气象统计、论文统计等小门类统计,统计类别及侧重各有不同。其中2005年出版的《中国农业统计资料汇编1949-2004》是目前较为全面、系统的农业统计资料[9]。
农业常用参数有农业物料基本参数、农业环境参数、动植物机理参数(形态结构参数、农林植物生物特性参数、农田养分平衡和循环基本参数等)、农业生产参数(品种参数、动植物营养参数、标准化生产技术参数等)、常用农业机械和信息装备技术参数、农业科技成果经济效益评价指标等。可检索到的描述农业参数的相关书籍是罗庆成于1984年编写的《常用农业参数,系统和定额》。
现代农业背景下,中国农业科学院农业信息研究所于2011年提出了现代农业基准数据这一新理念,是指以农业信息规范和标准为基础,以现代信息技术为手段,收集和整理的产前、产中、产后各环节的基础精准数据。包括农业自然资源环境基准数据、现代农业生产基准数据、现代农业生产基准数据、现代农业管理基准数据四类[10]。
(3)一次数据。经文献和网络调研确定,本研究中一次数据的概念与“一手数据”和“原始数据”的概念相近。已有不同视角的概念界定:以统计视角来看,是指没有经过整理的数据;以数据库的视角来看,是指终端用户存储使用的各种数据;以数据获取方式来看,是指通过问卷、访谈、询问等方式直接获得的数据。本研究将科研活动中直接产生的观察、调查、监测、检测和科学实验数据统称为一次数据。具有时效性好、相关性好、可信度高等特点,能够解决待定问题,回答二次数据不能回答的具体问题。
(4)二次数据。经文献和网络调研确定,本研究中二次数据的概念与“已有数据”和“二手数据”的概念相近。已有的概念将其界定为来源于他人的一次数据,包含发表及未发表数据,也有将其界定为对一次数据进行分析、整理和归纳形成的数据。本研究将按照不同需求系统加工、整理和分析获得的数据产品和相关信息统称为二次数据。
3.面向重用的农业科学数据抽象化共享模式
为了能够最大程度上发挥农业科学数据的作用,同时保护数据拥有单位的利益,基于对已有共享模式的归纳分析,在科学数据共享模式构建原则下,按照农业科学数据共享模式构建思路,提出了结合数据组织与数据分类的两级抽象化共享模式(图3)。
图3 农业科学数据共享模式
在组织层面,农业科学数据组织工作需面向数据重用,满足数据使用者的多元化需求,因此采用集中式与分布式结构相结合的综合组织模式。其中集中式共享模式具有数据集中、平台集中、管理集中的特点,适用于共性的、通用的、利用率高的农业科学数据资源,便于统一组织协调,最大限度减少资源重复建设。分布式共享模式中数据资源由多个数据资源站点(如省院各所、地市农科院等所属资源)的科研部门或人员单级或多级分布存储,隶属关系不同,各具特色;基于统一平台提供数据检索、目录导航和互操作等应用;基于较好的技术支撑和协作机制进行组织和管理。综合以上两种模式,基于统一平台支撑农业科学数据资源的管理与服务。
在数据层面,不同数据分类采取相对应的数据组织方式。其中间证数据和基准数据均为已发表或将要发表的数据,且利用频繁,因此采取集中式方式进行共享更为合适;一次数据和二次数据一般分布在不同的地理位置,往往由不同的单位或个人拥有和管理,且部分只适合在一定条件下和一定范围内重用,需要留在科研团队或科研人员手中,因此采取分布式方式进行共享更为合适。
4.共享模式的可行性分析
所提出的农业科学数据共享模式从数据来源看,支持多单位联合共建;从面向重用的数据分类看,适应农业科研活动规律;从数据类型看,既支持规模化数据,也支持小众化数据;从数据权益性质看,即支持公益性的开放共享,也支持商业性的数据交易;从共享意愿看,满足科研人员对其数据知识产权的掌控需求;从共享路径看,支持横向和纵向的联合;从共享形式看,支持多模式并举,互动式共享;从共享活动看,能够满足数据提供者和数据使用者共享活动需求;从数据重用看,支持个体、组织等多对象的数据重用活动;支持地方数据的原始积累;一定程度上缓解数据共享存在的知识产权保护、运行的可持续性、共享积极性方面的问题;有助于培养数据共享意愿,促进共享文化形成。
四、结论
科学数据本身具有的可复制性和科学数据的综合应用性,决定了科学数据资源的共享性。因此想要最大化地实现科学数据的价值,必须进行数据的充分共享和重用。本研究设计了面向重用的农业科学数据分类,在以下三方面支撑和促进农业科学数据共享与重用:面向数据拥有者,为其拥有的数据进行定位提供参考;面向数据用户,为明确其数据重用需求提供参考;面向数据管理者,通过数据分类梳理出数据资源体系,有助于整体部署科学数据集的生成及进一步重用。提出了抽象化与具体化相结合的农业科学数据共享模式构建思路和技术路线,扩展了农业科学数据共享对象范围,能够较好的支撑农业科学数据共享与重用。