渔业科学数据共享平台建设研究
2010-09-13王立华孙英泽葛常水黄其泉
王立华,孙 璐,孙英泽,葛常水,黄其泉,徐 硕,刘 树,肖 慧
(1.中国水产科学研究院渔业工程研究所、中国水产科学研究院信息工程研究中心; 2.中国水产科学研究院渔业信息与经济研究中心,北京100141)
技术报告
渔业科学数据共享平台建设研究
王立华1,孙 璐1,孙英泽2,葛常水2,黄其泉1,徐 硕1,刘 树1,肖 慧1
(1.中国水产科学研究院渔业工程研究所、中国水产科学研究院信息工程研究中心; 2.中国水产科学研究院渔业信息与经济研究中心,北京100141)
根据国家科学数据共享的建设要求,从渔业数据特点和需求分析出发,全面阐述渔业科学数据共享平台建设的设计思路和关键技术的研究方法,包括:渔业科学数据共享涉及的标准体系建设、元数据设计、数据库建设、共享平台网络系统开发技术以及个性化服务体系建设。研究对今后数据平台建设的数据定向服务和数据挖掘技术提出建设思路,对提升渔业信息服务水平具有意义。
渔业科学数据;数据共享平台;数据共享技术;个性化服务
科学数据是人类社会科技活动所产生的基本数据、资料,以及按照不同需求而系统加工的数据产品和相关信息,具有明显的潜在价值和开发价值,并在应用过程中得以增值,是信息时代最基本、最活跃、影响面最宽的科技资源。国际上发达国家和一些国际组织, 1990年代就对数据共享机制进行系统研究,并将科学数据共享视为科技水平及综合实力领先地位的战略保障[1-2]。鉴于科学数据对科技创新、经济发展和国家安全的重要意义,2002年,国家实施科学数据共享工程,以推进信息和数据的共享,并在一些重点领域得以实施[3-5]。
渔业科学数据是科学数据资源的重要组成部分。随着我国经济的发展,对渔业科技投入逐年增加,新型养殖、育种、加工、基础科学实验与试验、渔业基础资源监测调查、渔业水域生态环境监测等科学研究活动,都产生大量的科学数据,这些数据具有专业性、广泛性和多宜性,在农业、海洋和经济相关领域有重要价值,在全社会存在迫切的需求。渔业科学数据平台建设在此背景下提出,其主要内容为研究适合于渔业产业特点的数据共享模式与管理机制,研制数据标准规范,建立渔业科学数据库,利用计算机网络技术设计多元数据展示功能的平台网站,设计解决数据获取的实时动态性、数据发布的可视性、数据服务的定向性等技术难题,以实现渔业科学数据资源的共享,为科技进步与创新、政府决策和经济发展提供支撑。
1 数据资源特点分析
科学数据资源是指科技活动或通过其他方式所获取的反应客观世界的本质、特征、变化规律等原始基本数据,以及根据科技活动需要进行系统处理的数据集,以研究活动、观测、地面监测站(点)、各种试验、宇宙空间的探测、相关数据资源中整理选择等手段和方法来获取基础数据资源[6-7]。渔业科学数据资源以渔业科学数据以观测、监测、调查、试验、实验等以科技活动过程中产生的原始性、公益性和基础性为主体,以具有科学技术价值的渔业生产技术数据为辅数据资料组成,涵盖水域基础生态、渔业基础科学研究、渔业资源与环境野外勘测、渔业经济与管理等科学技术数据
渔业科学实验产出的数据,原始数据多以纸介质、EXCEL表、DBASE存放,以数值型数据为主,有明确的单位量纲,存储形式多样;资源监测调查数据,数据以数值为主,文本类型为辅,调查数据有明确的量纲,具有地理属性;科技生产技术数据,数据以数值、文本、图形类型混合类型,特点是数据大多附带图片、视频等多媒体影像资料;遥感监测数据,以栅格图二值图像存储存放,无明确量纲,特点是数据量大,数据存贮形式特殊;渔业生态数据,内容涉及产卵场、索饵场、洄游路线和水域环境水生动植物资源基础生态信息,数据信息具有地理属性。
综上所述,科学数据具有数据种类多、类型广泛、数据量大、数据格式复杂多样、空间与非空间数据、结构化与非结构化数据共存的特点。需建立数据标准规范,对无序、分散、异构的数据形式进行归类和标准化处理,建立数据库,实现数据的规范性表达,建立元数据,通过元数据进行数据管理与发布,解决多源型数据管理与集成。
2 平台关键技术研究与设计
2.1 数据共享标准体系
研究与制定数据管理体系,是共享平台建设研究的内容之一,是实施科学数据共享、实现数据平台正常运行的保障。
平台共享标准体系,在组织管理、数据资源、发展需求、共享规则和共享技术5要素上进行设计,科学数据共享管理的稳定性是科学数据共享工程实施的要点,是共享5要素关联和相互作用的成果,而资源数据的存储、分布情况以及形态价值特性决定了共享政策和共享方式的多样性[8]。根据渔业数据分布分散、数据所有权复杂、需求迫切的特点,渔业科学数据平台采取谁提供数据,谁进行数据服务的共享机制,即调动发挥数据资源单位参与建设的积极性,又保证国家政策的执行力度,以数据公开发布、交换性共享、认证共享和定向服务的共享模式,建立数据管理规范和技术规范。
渔业科学数据共享标准体系框架见图1。
图1 渔业科学数据共享标准与管理体系框架图Fig.1 Fishery scientific data sharing management and standard
2.2 元数据设计
元数据是对科学数据资源的一种规范性描述,用来描述数据的内容、质量、状况和其它特征的描述信息[9],包括数据内容、主题分类、分发信息、标识等,应用于数据集的查询检索、统计及管理。渔业科学数据元数据遵照DIF(Directory Interchange Format)元数据标准,由系列字段组成,核心元数据元素包括元数据标识、语种、日期、数据集名称、分类、格式、使用局限性、介质、维护和更新频率、联系人等,利用元数据可方便获取数据集的数据指向信息。元数据对科学数据本身各项的专有属性、数据采集时间、采集方式、采集工具、授权使用方式、分发共享方式等进行记录和说明,通过目录发布形式与检索方式查询,用户通过浏览门户网站上的核心元数据,获取所需的信息范围、数据组成、数据形式及数据级别,快速确定浏览对象的定位信息。
渔业科学数据共享元数据信息按照W3CdeRDF/ XML标准保存为XML格式文件,同时保留在数据库,元数据作为渔业网站与农业网站间检索连接的关键数据,也是网站各节点中数据交换的关键数据,元数据库与主网站的元数据实时一致,通过数据库部署的SQL同步设置与主中心网站的复制同步发布设置,实现元数据信息同步更新,同时,保留元数据信息以增量形式发到主中心的电子邮箱。
2.3 平台构架设计
渔业科学数据共享平台网站采用广域网浏览/服务器(B/S)架构,数据集中存储的模式,设计渔业科学数据资源门户,实现统一对外发布。根据渔业数据资源特点,对于带有地理属性的调查数据,使用WEBGIS技术进行位置发布,对数据集的访问统计、文本数据描述带有图片及视频等多媒体资料与数据一并发布。
平台采用Window Visual Studio 2005为开发平台,采用动态网页技术。使用SQL Server 2000关系数据库管理系统存储和管理。采用3层结构设计,平台系统由应用服务层、业务逻辑层、数据层和物理存储(数据库实体)组成。应用服务层提供用户与系统的交互界面;业务逻辑层负责业务逻辑与数据层交互,用于共享网站上检索数据的发布;数据层上有物理存储的数据库,用于数据的存储、访问及其优化,并分别部署在Web服务器,应用服务器与数据库服务器上(见图2)。
图2 渔业科学数据共享平台的逻辑结构图Fig.2 Network structure of fishery scientific data sharing platform
2.4 数据自动部署
数据自动部署为解决数据获取实时动态性的设计,渔业科学数据资源管理采用元数据的形式对数据进行描述与管理,元数据是描述数据的数据,包括数据库的描述信息,数据元则特指数据库的数据元素。数据自动部署平台在入库之后通过启动自动部署完成新数据同相关功能的挂接,自动实现对新数据的权限管理、编辑和发布。
自动部署在“数据元”的基础上进一步细化数据描述,将数据的数据库属性按数据库、数据表、数据字段3个层次记录,针对3个层次制定统一的管理方式,方法是:在数据库中设计“数据库属性”、“数据表属性”、“数据字段属性”3个表,通过存储方式、访问方式、显示方式与权限信息的匹配,处理系统编辑、访问、显示操作,实现数据管理与数据之间访问的统一接口功能,实现自动部署(见图3)。
图3 数据自动部署图Fig.3 Function of data auto deploy
2.5 数据浏览与检索
共享平台根据数据分类标准以目录导航方式分栏设计,每栏显示该类数据的热点数据集。数据浏览设计有三级页面,覆盖此类数据的所有数据集,通过数据集分类、数据列表和详细信息实现三级页面显示,3次点击可见到详细数据。数据浏览程序调取以OLE对象方式保存在数据库中的多媒体格式信息,根据格式标识读取;实现数据资料与图片文档等多媒体数据的输出。
数据检索是渔业科学数据共享平台的重要功能,数据发布的可视性和用户查找所需数据内容的主要手段。数据检索设计数据库关键字跨库检索方式。通过设置变量保存检索式的方式实现“动态跨库检索”功能。当用户在数据库列表中切换不同数据库进行浏览时,系统将调用变量中的检索式或关键词对当前数据库的数据进行检索查询,实现数据信息的跨库检索。
2.6 数据库与分类
科学数据具有数据种类多、类型广泛、数据量大、数据资源分散的特点。渔业科学数据库根据数据分类标准先学科后类型划分,形成主体数据库及下属数据表,数据表以种类划分,分类细致明确,便于数据发现与服务。
渔业科学数据包括5大类主体数据库:渔业水域生态、渔业生物基础科学、渔业生物资源野外观测调查、渔业生态环境野外观测和渔业生产及经济管理数据范畴,数据库设计有数据资源号、名称、时间、数据提供单位等公共信息。监测数据库设计还包括测点经度、测点纬度、监测内容、量纲等字段。遥感监测数据库需包括:空间范围、投影方式、空间分辨率、图片等。
渔业科学数据采用线分类法,分为农业大类、学科分类、主体数据类、数据库和数据表,数据库编码采用数字字母混合代码,代码长度8位,其中第一位固定为字母A,代表农业,具体编码规则见图4。
数据库以数据资源号为主键,便于数据的归类检索。其编码规则见图5。
图4 渔业科学数据数据库编码规则Fig.4 Code rule of fishery scientific database
图5 数据资源号编码规则Fig.5 Code rule of scientific data resource
2.7 WebGIS设计
WebGIS设计主要针对野外观测类数据的可视性设计。通过对抽象数据和涉及地理位置数据的形象、直观显示,丰富用户数据浏览形式和数据查询手段。设计包括WebGIS模块、数据交换模块和数据库系统3个部分,3个部分的协同工作完成WebGIS的查询和显示。实现WebGIS功能,需进行属性数据与空间数据的匹配,按照空间数据格式要求进行转换,制作GIS模块SHP数据格式数据,生成专题图,加载到WebGIS模块中(见图6)。
图6 WebGIS模块与数据库系统Fig.6 The relationship between WebGIS module and database system
WebGIS模块采用SuperMapIS提供WebGIS服务,使用SuperMap DeskPro完成基础空间数据和属性数据管理。WebGIS模块实现的技术环节包括网站发布系统—IIS,WebGIS服务—SuperMap IS,数据处理系统—SuperMap Deskpro以及WebGIS管理的核心组件—SuperMap Object,通过嵌入式SuperMap Object组件调用GIS数据,完成用户查询和显示功能。
2.8 个性化服务技术
一般来说,个性化服务又称为差异化服务,是指针对客户的不同需求,努力提供多种业务应用,满足不同目标客户群的个性化需求。在Web应用的环境中,个性化服务是指网络站点根据用户访问行为分析推断用户的兴趣爱好等特征,然后向用户提供合适的服务。个性化服务打破了传统的被动服务模式,能够充分利用各种资源优势,主动开展以满足用户需求为目的全方位服务,将信息获取模式从“Pull”转变成为“Push”,增强了企业的竞争性,不仅如此,个性化服务还具有实时性,能够及时地为用户提供最新信息。在Web2.0这个凸显个性的网络时代中,个性化服务将成为获取信息的主流方式。
截止到2009年7月,平台拥有23万条记录,200多万次点击量。大量的资源数据和访问数据为平台引入个性化服务,更好地为用户服务提出了必要性,同时也为建立个性化服务体系提供了数据支持。基于渔业科学数据平台的个性化服务体系包括3个方面:数据访问分析、定制化服务和智能化的RSS阅读器。
数据访问分析 获取平台发布数据的用户访问情况,为数据定向服务提供参考决策。当用户浏览数据时,激活监听器,记录用户访问时间、所访问的数据集、用户名等,掌握数据资源使用情况,分析了解用户所关心的数据范围、数据受关注程度,用户群组成等情况,以跟踪平台数据访问效果,掌握用户关注方向,改进渔业科学数据平台管理,提供更有针对性的数据共享服务。
图7 访问分析流程图Fig.7 Flow diagram of data access analyze
图8 智能RSS阅读器的结构Fig.8 Structure of intelligent RSS reader
访问分析功能分别从时间、数据集和用户3个维度统计用户访问信息。通过定制的SQL语句建立3个维度的统计虚表,提取虚表中相关的统计结果并通过柱状图的形式显示,提供给用户时间、数据集和用户维度下各资源的访问情况(见图7)。定制化服务 针对平台建设信息、新闻信息以及数据信息等的频繁更新,提出了基于RSS的定制化服务,方便平台用户更好地使用平台和及时了解平台的最新进展。对于更新的信息,结合用户的兴趣爱好以及行为特征,采用基于RSS的聚合方式个性化地为不同的用户群组织不同结构的RSS文件,然后推送给对应的用户。该服务采用实时聚合,个性化组织等技术为用户提供高效智能的定制化服务(见图8)。智能化的RSS阅读器 由于传统的RSS阅读器无法满足日益加剧的信息数量,信息的更新速度削弱了获取信息的优势,为此提出一种智能化的RSS阅读器。该阅读器采用空间向量模型来表示每一条信息,从信息的题目和摘要中抽取特征词,然后运用TD-IDF函数计算特征词的权值,形成了具体的文本特征向量,更加合理地表示信息内容。根据用户点击的信息条目,采取同样的方法从题目和摘要中提取特征词,计算其权值,形成用户特征向量来表示用户的兴趣特征。将系统推荐的信息表示成一系列的文本特征向量,将用户特征向量作为过滤条件,设置一个文本特征向量与用户特征向量的相关度的阈值,计算文本特征向量与用户特征向量的余弦值,将符合相关度阈值要求的信息根据相关度的高低组织成RSS文件,然后推送给用户,提高了用户获取信息的效率。智能RSS阅读器的提出是一项基于长远考虑的工程计划,随着平台应用的不断发展,涉及的数据量将逐步增加,对于整个互联网来说,更是如此,因此,智能RSS阅读器的提出不仅仅只是针对该平台,对互联网上其他系统应用也是必要的。
3 结果与讨论
渔业科学数据共享平台以上述设计实现,以50M的网络带宽接入国家基础骨干网络,同农业科学数据共享平台协同服务和对外发布。平台使用元数据技术,解决多源性、海量、异构等数据分布管理与关联集成检索问题;使用WEBGIS技术,解决地理位置相关数据的可视化问题;以数据自动部署设计解决数据实时动态发布的问题;以访问分析设计解决数据服务的定向性,为数据管理及分析提供依据。
数据共享平台是基于Internet网络化信息平台,随着现代信息技术的快速发展,数据挖掘技术[10]、网格技术[11]、3G[12]技术等新兴技术也随之兴起,数据平台的建设也应该随着这些技术的发展而进行进一步的研究和开发,这些技术主要体现在数据资源分析挖掘、平台服务技术、共享网络平台技术3个方面。
在数据资源分析,数据挖掘技术在处理更多数据类型、处理更大量的数据和建立复杂关系应用分析模型方面具有更多优势,其表现在(1)对非结构化数据挖掘如文本、图形、视频、声音及综合多媒体数据的处理;(2)用于知识发现的数据分析模型;(3)WEB分析挖掘技术应成为今后数据资源整合、用户访问行为分析及服务的技术研究方向。
数据平台服务技术方面,数据平台基于网络进行数据发布与共享,通过分析挖掘用户的访问行为,提供用户个性化与定制化的服务,利用RSS技术[13]提供个性化、主动性服务,实现信息的推送服务。当今我国进入3G时代,这种新的多媒体传输方式将给信息服务模式带来巨大的发展空间和机会。研究3G技术的应用,解决物理层的无线存取服务与应用层界面的支持问题,优化数据在图像分辨率、数据展示方式及密度适于无线终端特点的方案,是数据平台服务系统研究值得关注的方向。
网络平台技术,关注网格技术及云计算的发展,数据网格(Data grid)是目前正在研制的下一代互联网应用技术,它把Interne所有资源全面联通,包括计算资
源、存储资源、通信资源、软件资源、信息资源、知识资源等,最终实现网络虚拟环境上的资源共享和协同工作,形成信息网格(Information grid)。网格技术提出下一代互联网发展的理念,是今后科学数据平台建设消除信息孤岛和资源孤岛,实现资源共享的技术途径,适用于数据分散、异构、数据量大的信息共享研究。将网格技术、网格计算、数据网格思想引入到平台数据存储与管理中,是数据平台建设技术的研究方向。
[1] 李娟,刘德洪,江洪.国际科学数据共享现状研究[J].图书馆建设,2009(2):19-25.
[2] 美国科学数据共享政策考察报告[J].中国基础科学管理论坛, 2002,5:37-39.
[3] 王卷乐,诸云强,谢传节.地球系统科学数据共享网络平台的设计和开发[J].地学前缘,2006,13(3):54-59.
[4] 李集明,熊安元.气象科学数据共享系统研究综述[J].应用气象学报,2004,15:1-9.
[5] 胡海燕,刘世洪.论“国家农业科学数据共享平台”的内容与服务[J].农业图书情报学刊,2005,17(2):214-217.
[6] 董诚,黄鼎成.科学数据资源的管理[J].中国基础科学,2006 (6):20-24.
[7] 徐枫.科学数据共享标准体系框架[J].中国基础科学,2003(1): 44-49.
[8] 科学数据共享调研组.科学数据共享工程的总体框架[J].中国基础科学,2003(1):63-68.
[9] 肖述清.论元数据格式及其关系和转化问题[J].情报探索, 2007,116(6):60-61.
[10] 陈九龙.科技创新活动中的信息化与数据挖掘[J].自然辩证法通讯,2009,31(2):56-60.
[11] 孙九林,李爽.地球科学数据共享与数据网格技术[J].中国地质大学学报,2002,27(5):539-543.
[12] 杨宏林.中国的3G技术和演进策略[J].电信工程技术与标准化,2001(3):13-17.
[13] 雷丽,杨文花.基于RSS的图书馆信息推送系统[J].现代情报,2008,(7):181-182.
Abstract: According to the national requirement for scientific data sharing buildings,we presents a comprehensive exposition of the design concept and key technologies research methods of the sharing platform of fishery scientific data which have base on the results of the fishery scientific data features and user requirements analysis.The research includes the architecture of fishery scientific data standard,metadata design,database design,network sharing platform development and the architecture of personalized service.The study has put forward constructive ideas about platform building which of data mining and data oriented services,also has importance signification for enhancing the fisheries information service.
Key words: fishery scientific data;data sharing platform;data sharing technology;personalized service
责任编辑 陈呈超
Construction of Fishery Scientific Data Sharing Platform
WANG Li-Hua1,SUN Lu1,SUN Ying-Ze2,GE Chang-Shui2,HUANG Qi-Quan1, XU Shuo1,LIU Shu1,XIAO Hui1
(1.Institute of Fisheries Engineering of Chinese Academy of Fishery Sciences,Fisheries Information Engineering Research Center of Chinese Academy of Fishery Science;2.Information&Economy Research Center of Chinese Academy of Fishery Sciences,Beijing 100141,China)
TP311.13
A
1672-5174(2010)09Ⅱ-201-06
国家基础条件平台建设项目“渔业科学数据平台”项目(2005DKA31800-03)资助
2009-11-04;
2010-04-11
王立华(1961-),女,中国水产科学研究院研究员,从事信息技术在渔业领域的应用研究。E-mail:lihuawang@cafs.ac.cn