农业科学数据共享技术系统研究
2019-03-25彭秀媛周国民
彭秀媛 ,王 枫 ,周国民
(1.中国农业科学院农业信息研究所,北京100081;2.辽宁省农业科学院信息所,辽宁沈阳,110161;3.中共辽宁省委党校信息中心,辽宁沈阳110004)
农业科学数据既是一种特殊形式的科研成果,也是最为活跃、最为基础的科研要素,推动着农业科研工作不断向深度和广度发展。目前我国在农业科学数据资源管理方面开展了大量工作,取得了一定的成绩,但仍未实现有效共享和重用(即再次利用),数据重用形式主要为数据检索和查询,少见对农业共享数据再分析等数据重用及其支撑相关研究,同时缺少面向问题的、系统的技术解决方案。因此基于农业科学数据特点,针对农业科学数据共享过程中存在的技术问题,开展农业科学数据共享技术系统研究具有重要意义。
1 农业科学数据相关研究
该研究对象为农业科学数据,对其内涵与特点进行分析是该研究开展的前提和基础。
1.1 农业科学数据内涵
以政府数据为参照对象,从数据产生途径、数据内容、数据来源及特点方面对农业科学数据与政府数据进行了比较分析(表1),探索农业科学数据内涵。
1.2 农业科学数据特点
采用文献调研、问卷调查等方法开展研究,总结分析了农业科学数据特点、数据共享特点和数据重用特点[1](表2)。
表1 农业科学数据与政府数据区别
表2 农业科学数据相关特点
1.3 农业科学数据分类
以支撑农业科学数据重用为目的,对农业科学数据分类进行研究,将农业科学数据分为以下四类[2]:①间证数据,指支撑科技论文的科学数据,也是形成论文结论和验证论文结果的必要数据[3]。其主要作用是作为同行评审的参考依据,以及论文发表后的研究再现,目前主要有论文附件、论文补充数据和数据论文3种形式。②基准数据,指农业统计数据、农业常用参数和现代农业基准数据等[4]。③一次数据,指科研活动中直接产生的观察、调查、监测、检测和实验科学数据。④二次数据,指按照需求系统加工、整理和分析获得的科学数据产品和相关信息。
2 农业科学数据共享技术系统研究
2.1 农业科学数据共享存在的问题
从技术角度来看,农业科学数据共享主要存在以下问题。
2.1.1 科学数据增强问题。科学数据增强是指将原来缺少上下文背景信息的农业科学数据进行整体或局部的信息丰富和标准化,加强科学数据的判读和识别效果,增强对科学数据对象的整体理解,以满足科学数据共享和重用的需要。现有大量农业科学数据没有进行增强,存在数据可理解性、数据不匹配、数据语义一致和数据可发现障碍,因此不能进行共享,更不能进行重用。
2.1.2 科学数据互操作问题。科学数据互操作是2个或多个学科系统之间交换数据集信息并且使用所交换数据集的能力[5]。存在数据表示、数据发现和数据查询障碍,进一步阻碍了农业科学数据的共享与重用。
2.2 农业科学数据共享技术系统的提出
为了更好的共享和重用农业科学数据,保证数据共享和重用效果,基于农业科学数据特点,以及数据共享存在的问题,提出了农业科学数据共享技术系统。包括科学数据增强、科学数据互操作和科学数据重用效果评估技术(图1)。其中科学数据增强是基础,科学数据互操作是手段,科学数据重用是目的。通过科学数据重用效果的评估结果体现数据增强和数据互操作技术的实施效果,通过调整数据增强和数据互操作的技术方案能够更好地提升数据重用效果,进而形成了一个良性循环的技术系统。上述技术集合而成的农业科学数据共享技术系统能够较好地解决农业科学数据共享过程中存在的技术问题。
图1 农业科学数据共享技术系统模型
农业科学数据共享技术系统的运行原理:首先对农业科学数据实施数据增强技术方案,进行数据增强,之后对大量分布于科研人员手中的一次数据和二次数据实施数据互操作技术方案,支撑数据交互,从而形成数据共享环境,进而支撑数据重用。
2.3 科学数据增强关键技术方案
2.3.1 明确科学数据增强的“数据项—数据元—元数据—本体”四级技术结构(图2),区分农业科学数据的数据元素和数据项,并在数据外围增加元数据和本体信息,对数据进行逐级标准化,自下而上逐渐增强数据的可理解能力,各层共同支撑农业科学数据的共享和重用。其中,数据元素是对科学数据内部组织结构的描述、定义和规范,元数据是描述科学数据的外在特征,本体是描述科学数据的内容特征。
图2 科学数据增强技术结构
2.3.2 制定科学数据增强的技术方案(图3)。随着相关技术的发展和需求的变化,数据增强的技术结构也将不断发展演变。
图3 农业科学数据增强技术方案
2.3.3 农业科学数据数据元标准制定。制定科学数据实体的数据元素和数据项的属性;基于面向数据重用的科研活动来构建数据元标准,一方面指导农业科学数据收集工作,另一方面从数据重用角度规范数据收集内容。
2.3.4 农业科学数据元数据标准制定。在元数据标准内容和元数据标准支撑的应用方面,对比分析了生态科学数据元数据标准[6]、农业科学数据共享元数据标准[7]、农业科技信息核心元数据标准[8],确定以生态科学数据元数据标准作为农业科学数据元数据标准的主要内容,并在应用过程中,依据制定的元数据标准扩展机制适度修正标准,从而形成农业科学数据元数据标准。确定核心元数据标准。在元数据标准基础上,遵循扩展机制,提出需制定的农业科学数据元数据应用方案框架结构,确定元数据应用方案构建流程。
2.3.5 农业科学数据本体构建。采用基于叙词表的领域本体构建方法构建农业科学数据本体。对上述元数据应用方案采用本体描述语言分别进行本体化描述,采用RDF格式进行表达,逐一构建元数据应用方案本体,并在不同元数据应用方案本体之间建立映射关系,构建元数据本体。
2.4 科学数据互操作关键技术方案
目前涉农研究的机构和个人之间没有形成明确、统一的科学数据互操作结构体系,阻碍了科学数据互操作[9]。因此该研究从技术角度,提出了农业科学数据互操作技术方案,由低到高涵盖技术、语义、组织、法律互操作(图4)。
图4 农业科学数据互操作技术方案
2.4.1 技术互操作。技术互操作是数据互操作有效开展的必要条件,目的是实现科学数据的有效交换和利用。技术互操作形式包括结构化互操作和非结构化互操作两类。结构化互操作对象为结构化科学数据,主要指科学数据库,采用Web服务、Web API接口等开放标准协议,对数据格式、软件接口、通信协议、互操作的方法和工具等进行结构化统一,实现科学数据的技术互操作。针对数据文件等非结构化科学数据互操作,应对文档、图片、音频、视频等数据设定常用的文件格式,采用FTP、WebDAV等普通Web数据共享方法,基于数据集的松散耦合简单服务和内容访问权限管理实现科学数据互操作,不对其进行统一标准化,适用于针对特定问题、特定应用频率和目标多变的技术方案,以支持农业科学数据重用多样性。与结构化数据不同,非结构化数据不能直接进行比较、聚合等操作,因此需根据不同格式的科学数据规定明确的结构化信息提取流程,进一步支撑科学数据分析等重用[10-12]。
2.4.2 语义互操作。语义互操作主要解决科学数据整合和一致性问题,以支持合作与协作。农业科学数据语义互操作,在元数据互操作方面,采用基于核心元数据的互操作方法,实现元数据标准体系内互操作;采用元数据静态映射方法实现不同元数据标准间互操作[13]。在本体互操作方面,采用本体映射方法来确定科学数据本体间对应关系,实现科学数据本体互操作;采用关联数据技术对本体化的元数据进行再组织,并基于关联数据原则在网络上进行发布,构建农业科学数据关联元数据本体,将富含语义关系的农业科学数据元、数据本体与关联数据有机结合。
2.4.3 组织互操作。现有研究更多关注数据交互层面的互操作研究,而对于体系架构层面的顶层设计研究不足。但底层支撑技术的改进无法弥补顶层设计的不足。因此农业科学数据的互操作须关注组织层面的设计,涉及组织策略、协作目标、组织架构、业务流程等,从组织层面分析互操作性问题,确定组织间的协作业务流程,指导协作关系的建立与维护,使组织间具有协作交换数据的能力。
2.4.4 法律互操作。法律互操作性确保在不同法律框架下的组织、政策和战略协同工作。农业科学数据法律互操作需考虑组织间交换数据时,通过明确协议消除实施中存在的法律差异;向公众提供服务时,通过明确协议解决法律层面的数据安全和数据保护等问题[14]。
2.5 科学数据重用效果评估技术框架
借鉴已有研究提出的重要的数据质量维度,及其在评估和选择重用数据方面的作用,采用经验法,提出了农业科学数据重用效果评估框架(图5)。框架可通过数据增强关键技术和数据互操作关键技术进行体现和支撑。其中数据可理解性、数据相关性、数据语义一致性、数据完整性、数据可信性、数据可发现性对应于数据增强关键技术,数据可发现性、数据可访问性、数据易用性对应于数据互操作关键技术。该框架一方面可以通过数据重用效果评估检验数据增强和数据互操作技术方案的实施效果,另一方面可以通过升级数据增强和数据互操作技术方案,作用于数据质量维度,提高数据重用效果。
图5 农业科学数据重用效果评估框架
3 结论
该研究以农业科学数据为对象,综合应用元数据、本体、语义网、互操作、关联数据等技术,采用文献调研法、案例研究法、系统分析法等方法,开展了农业科学数据共享技术系统研究工作。提出了“三位一体”的农业科学数据共享技术系统,有机结合数据增强、数据互操作、数据重用效果评估三部分内容,制定了数据增强和数据互操作关键技术方案,初步解决了农业科学数据共享中存在的技术问题;提出了数据重用效果评估框架,对数据增强和数据互操作技术效果进行评估,建立了数据共享与数据重用的良性循环。上述研究为农业科学数据共享与重用实践奠定了基础,也为相关研究提供了可参考的实例。