APP下载

PVH: 省级数字植物标本馆平台的开发与应用

2018-05-20陈建平郭莉高燕萍肖翠马克平

数据与计算发展前沿 2018年5期
关键词:凭证名录物种

陈建平,郭莉,高燕萍,肖翠,马克平

1.上海辰山植物园,上海 201602

2.中国科学院植物研究所,北京 100093

引言

数字植物标本馆是生物多样性信息学中的一个重要发展方向[1],国内外植物标本馆的数字化工作已经开展了十多年,也涌现了 iDigBio,NSII 等国家级数字标本平台,以及 GBIF 等国际性数字标本平台[2]。中国植物标本数据库的建设成效显著,已经积累了大量的数字化资料,数字植物标本馆建设也从大规模的数字化开始迈向数据挖掘与应用阶段[3-4]。根据科学研究的第四范式判断,信息平台建设应该紧密结合科研工作的实际情况,通过专题性 e-Science 系统的研发,满足具体科研需求,实现标本数据价值的最大化[5-6]。

实际的植物资源调查与分类工作,往往是以行政区划为单位进行,例如省级的植物志调查编撰、经济植物资源调查等,都受到地方政府经济发展需求以及科研发展计划的驱动,区域性特点非常明确。中国数字植物标本馆平台包括三级结构,分别是国家标本资源共享平台 (National Specimen Information Infrastructure,NSII)、中国数字植物标本馆 (Chinese Virtual Herbarium,CVH) 和具体标本馆的管理平台。标本馆是最终的数据源节点,标本数据层层向上集成。在这个体系当中,从具体的标本馆开始,其采集区域虽各有重点,但收集目标往往都是越宽泛越好,实际的数据都是跨行政区划的综合数据。通过 CVH、NSII 汇总后,区域性的数据集就融入了全国的标本数据库当中。对于地方性的植物调查与研究需求来讲,标本查询、修订、在线科研协作都颇为不便。

因此国家标本资源共享平台办公室提出了 PVH 工作计划,即在国家标本资源数据库的基础上,创建省级的数字标本馆平台 (Provincial Virtual Herbarium,简称 PVH),通过 NSII 的数据 API 对标本数据进行筛选与集成,为省级用户创建标本数据子集,将该省内的用户组建为在线社区,实现数据库的高效应用,并提供 e-Science 工具集,为数据校对、修订、新内容创作提供实用工具,将具有非常多的优点。例如:(1) 可以直接服务于以省为单位的植物资源调查、分类学研究、植物志的修订编撰、自然保护区规划与管理等具体工作,直接发挥 NSII 标本数据的价值。(2) 可以与省级的植物学会、研究机构等直接对应,方便创建在线的研究社区。(3) 对 NSII 的标本数据资源按省级行政区划分为数据子集,由对应的省级 PVH 站点进行维护与修订,改进数据质量,可以实现分而治之,推动 NSII 标本数据质量的持续性改进。

1 需求分析

PVH 的工作思路是,首先通过创建省级网站,聚合该省的分类学者及植物学研究工作者,形成在线研究团队,研究团队根据该省的植物志、名录、最新的分类学文献、以及野外调查,整理出省级植物名录,以名录作为 PVH 省级子站的核心数据。然后根据植物名录,通过调用 NSII 中的标本数据 API,筛选出该省的标本数据子集,由在线专家团队对标本进行修订、审核,选出可信度较高的标本形成凭证标本数据集。其次,根据植物名录,创建物种的形态描述、引证文献,形成基于 wiki 编辑机制的在线的植物志。其次,创建在线图像库,由专家上传野外考察拍摄的活体植物图像,作为物种发现的照片凭证。最后,网站上线后,通过植物名录集成标本、照片、植物志、文献等资料,形成百科全书式的物种综合数据库体系,服务于网站的最终用户。

通过对以上工作思路的分析,PVH 主要的数据产出包括六个方面:(1) 在线专家社区;(2) 省级植物名录;(3) 省级标本数据子集;(4) 在线植物志与物种文献;(5) 活植物图像库;(6) 集成的物种百科服务。这也是 PVH 数据库设计的主要依据。

PVH 的主要工作流程就是围绕以上数据产品的加工处理过程,包括 (1) 在线虚拟社区管理流程:如用户注册、登录与验证、授权、创建群组、群组成员添加与注销、群组成员角色分配,以及用户积分、勋章等激励机制。(2) 植物名录管理流程:如名录数据批量上传、批量校对、名录查询、名录编辑等。(3) 基于 Wiki 机制的植物志、物种文献编辑流程:具备简洁语法的编辑系统、附件上传、历史版本管理等。(4) 植物图像库管理流程:包括图库创建、照片批量上传、快速鉴定、图像在线浏览器等。(5) 物种信息的集成服务流程:包括物种数据的搜索、集成展示、API 服务等。

2 系统设计

2.1 基于 NSII 的 PVH 专题网站架构设计

国家标本资源共享平台 (NSII) 为了提供专题网站建设,以及个性化、专题化数据库项目的建设需要,开发了专题网站服务系统,包括用户群组管理体系和网站内容管理体系两大核心基础框架。基于此系统,可以创建自定义的专题网站。省级数字植物标本馆 (PVH) 平台基于 NSII 的专题网站服务开发,功能体系包括:(1) 利用 NSII 的网站创建服务注册新的 PVH 子站,所有的 PVH 子站都自动属于 PVH 网站联盟。(2) 每个 PVH 子站都可以利用 NSII 的用户群组管理机制为网站用户提供新用户注册、用户加入群组、群组角色分配、验证与授权等用户管理服务。(3) 利用网站内容管理体系,可以在网站内创建网站菜单、栏目,并可以在线创建编辑网页内容。(4) PVH 特有的核心功能体系,以植物名录管理为核心,包括活植物图像库、在线植物志、凭证标本数据库、物种文献数据库等模块。网站模块关系如图 1 所示。

2.2 PVH 核心功能体系设计

根据 PVH 网站的功能定位与需求分析,PVH 数据库以物种名录为核心,以凭证标本库、活植物图像库、在线植物志数据库、物种文献数据库为主要建设内容。因此功能体系设计上,是以名录管理作为系统的核心功能,要支持常用的 Excel 格式物种表格数据的批量上传,以快速创建在线名录,并辅以单条名录的添加、修改、删除作为补充,实现植物名录的在线管理。通过名录界面,实现两种集成:(1) 物种信息的集成展示,包括名录基本信息、植物志描述信息、活植物图像信息、凭证标本信息等;(2) 物种相关的记录编辑功能集成,即在一个物种页面中,实现植物志描述记录的编辑、图像上传、凭证标本审核、物种文献添加等功能的集成。最终设计的 PVH 核心功能体系如图 2 所示,功能列表如下:

F1 省级植物名录 Provincial Plant Checklist

F1.1 名录数据批量导入 Checklist Bulk Data Import

F1.2 名录下载 Checklist Data Download

F1.3 名录单条记录的编辑 Record Edit

F1.4 物种查询 Species Query

F1.5 基于物种的信息集成 Information Integration Based On Species

F2 省级在线植物志 Online Flora

F2.1 在线植物志编辑 Flora Online Edit

F2.2 Wiki式版本管理 Wiki Version Management

F2.3 附件管理机制 Attachment Files Management

F2.4 扩展的Markdown编辑语法 Extended Markdown Syntax

F3 凭证标本数据库 Voucher Database

F3.1 NSII标本数据集成 NSII Specimen Data integration

F3.2 凭证编辑 Voucher Record Edit

F3.3 凭证查询 Voucher Query

F3.4 凭证下载 Voucher Data Download

F4 活植物图像库 Living Plant Gallery

F4.1 图像批量上传 Bulk Image Uploader

F4.2 基于文件名的自动鉴定 Automatic Identification By Filename

F4.3 在线鉴定 Online Identification

F4.4 图库Web展示 Web Species Gallery

F5 物种文献数据库 Literature Database

F5.1 文献记录编辑 Literature Edit

图2 PVH 功能体系Fig.2 PVH Website Function Architecture

F5.2 文献附件上传 Attachments Upload

F5.3 外部文献关联 External Literature Integration

F5.4 文献查询API Literature Query API

2.3 系统的数据结构设计

PVH 在数据存储上采用了 MySQL 数据库,每一个核心数据产出都对应着专用的表,主要包括植物名录元数据表 (site_checklist_meta)、植物物种名录表 (site_checklist)、网站内容表 (site_content)、内容附件表 (site_attachments)、相册图集表 (site_albums)、照片表 (site_photos)、鉴定信息表 (site_idents)、数字标本馆信息表 (site_virtualherbarium)、凭证标本表 (site_vouchers)。植物志描述 (site_f lora) 及文献内容 (site_literature) 的数据结构与网站内容表一致 (site_content),实际保存于内容表中,在逻辑上以视图方式独立存在。因为篇幅关系,每个表的数据字段的详细设计不再赘述,数据表之间的逻辑关系如图 3 所示。的.NET 平台,以 C# 为后端服务开发语言,以 MySQL 作为主要数据存储系统,以 REST API 为后台服务的应用接口,JSON 作为 API 的主要数据格式。前端采用 jQuery、Html5、EChart 等 JS 技术进行用户交互界面设计。

3 系统的实现与应用

3.1 系统的技术选型

根据设计方案,系统采用了基于 Windows Server

3.2 系统的功能实现

以下以网站建设流程为主线,概要介绍 PVH 最终实现的功能。

(1)网站创建与自定义

网站基于模版技术创建,支持自定义网站的标题、版权声明、Banner、配色、网站的菜单。需要特殊设计效果的子站,可以单独设计模版。

(2)用户注册与群组管理

用户信息包括了基本用户注册信息、个人档案信息、用户加入的群组列表与群组内角色与群内名片。群内用户包括管理员与普通用户两种基本级别,管理员具有群内最高权限,并可以管理其他普通账户。用户账号还包括角色、优先级等设置,由管理员负责设定。

(3)植物名录管理

图3 PVH 数据库结构Fig.3 PVH Database Architecture

图4 PVH 网站配置Fig.4 PVH Website Config

图5 PVH 用户群组管理Fig.5 PVH User Group Management

图6 PVH 植物名录管理Fig.6 PVH Checklist Management

支持 Excel 格式的名录数据表的上传,名录将被批量导入到 MySQL 格式数据库中形成标准名录记录。名录库还支持以 Excel 格式下载。除了批量操作,名录日常维护中可对错误记录进行编辑修订,以及增加新的物种记录,删除错误记录等记录级别操作。

(4)在线植物志编撰

植物志编辑基于扩展的 Markdown 语法,即在纯文本的基础上,通过添加简单的语义标记符号,借以标明标题的层级,注释、插入的图像与网址、引用文本块等关键语义,实现以纯文本内容为主的内容编辑管理。简单易用。Markdown 格式不会引入复杂的显示样式等多余编码,即使在没有转换的情况下,也能保证可读性,通过 Markdown 格式化器处理后,可以生成标准的网页格式,具备更好的阅读体验。我们在 Markdown 语法的基础上,添加了植物检索表、物种名称等扩展语法,可以非常方便地应用于植物属性性状的描述。编辑页面除了文本编辑外,也支持附件图像的上传与自动插入。为了支持多用户协作编撰,系统引入了 Wiki 编辑机制,提供历史版本保存与恢复的功能,保证内容在被其他编辑者误修改的情况下,还能轻易地实现版本恢复。

图7 PVH 在线植物志Fig.7 PVH Online Flora

图8 PVH 凭证标本管理Fig.8 PVH Voucher Specimen Management

(5)凭证标本管理

在物种信息页面上,通过 NSII 的标本数据库 API,PVH 可以调用 NSII 标本列表,提供给 PVH 子站用户审核,PVH 用户可以将质量较好、鉴定准确、参考价值高的标本选作凭证标本,保存于子站的凭证标本库当中。凭证标本可以嵌入物种页面单独浏览,也可以在凭证管理器中检索、浏览,凭证管理器还提供了凭证数据的 Excel 格式下载,为数据的进行一步分析处理提供了方便。

(6)活植物图像库创建

PVH 子站内建了图像库服务,用户可以在 web 界面上批量上传植物图像,上传服务采用了最新的 Html5 上传技术,无需 Flash 等浏览器插件,适用于任意版本的现代浏览器。照顾一般分类学者的习惯,只要图像文件名中包含了学名、中文名等物种名称,在上传到后台时,系统自动分析,并根据网站的植物名录进行自动匹配,匹配成功的,图像会被自动鉴定,对应的科属种的学名、中名等信息会被一次性填充正确,无需用户在页面上逐项操作。当然,图库也支持在线互助鉴定、照片信息编辑等常规功能。有鉴定的照片,会被物种集成页面自动集成和索引。

(7) 物种百科信息集成

以上是内容编辑功能,对于网站的最终用户来说,需要的是基于物种的集成信息浏览服务。PVH 通过物种名录的物种树浏览,引导用户到达最终的物种页面,物种页面是以物种学名为关键索引,自动集成植物志、文献、标本、图像等内容模块,形成统一的最终浏览视图。另外一种方式是物种检索,PVH 支持中名、学名的模糊搜索,最终也会将用户导向物种集成信息页面。

3.3 系统的应用

PVH 子站已经开通了上海站,完成了植物名录、植物志等核心内容建设,包括了物种名录 3652 条,活体植物图像 7000 余张,也集成了 NSII 标本库、上海辰山植物标本馆 (CSH) 的馆藏标本信息,目前上海 PVH 已经移交分类学家团队正式管理,网站处于内容的持续建设中。通过半年时间的测试,结合上海 PVH 子站的内容建设,PVH 的系统框架与核心功能经过了大量的改进,已经基本稳定,实现了 PVH 设计的主要目标。PVH 网站计划也已经进入推广阶段,江苏、福建、天津、江西等站点已经开始建设。PVH 也将随着应用的深入,不断探索新的需求,持续改进。

图9 PVH 活植物图库Fig.9 PVH Living Plant Gallery

图10 PVH 物种信息集成页Fig.10 PVH Integrated Species Information Species Information Integration Page

图11 PVH 网站联盟Fig.11 PVH Affiliate Program

4 结语

PVH 实现了预期的功能体系建设,也开始了正式的推广。但要获得真正的成功,成为分类学家愿意接受的日常工作平台,还有很多问题需要深入探讨,不断研究最佳的解决方案。其中最为关键的问题是如何找到科研工作的真正需求和用户的兴趣点,打造活跃的在线社区,形成自驱动的、自进化的系统。这就需要信息学与分类学两个领域的密切合作,让分类学者真正参与研发,不断提出改进意见。因此如何吸引用户就成为信息平台面临的核心发展问题。

PVH 在实践当中,对此也做了探索,包括 (1) 加强易用性,帮助用户克服学习障碍。 使用新系统需要用户付出一定的时间成本。因此 PVH 在设计上力求简单明了,无须学习即可使用是设计理念,但总有一些概念和流程需要解释,PVH 采用了屏幕录像制作小视频教程,比起说明书或图解教程更快捷明了,收效非常好。(2) 增加信息集成,提高网站附加值。通过物种名录,PVH 集成了站内外的很多相关资料,通过技术集成一次性提供给用户,提升了网站的吸引力。(3) 社区激励机制的引入。核心用户群的培养与网络社区的形成,需要突破一定的规模,才能形成自激发的网络效应,形成自我发展的良性科学社区。PVH 已经创建了用户积分、荣誉勋章机制,将在下一阶段积极尝试。

中国的生物多样性信息学平台,大部分都是由权威研究机构和科研管理机构主导创建和运行管理,由科学家群体维护管理的严肃 e-Science 平台还很少见,而 PVH 则是基于 NSII 的二次开发性体系,每个 PVH 子站都将由科学家自主管理。这也是国家标本资源共享平台的一次积极的探索和尝试,希望能够为中国 e-Science 的发展提供积极的发展经验。

猜你喜欢

凭证名录物种
吃光入侵物种真的是解决之道吗?
带您了解医保电子凭证
2022.3上榜派出所名录
已完成汇交并出具汇交凭证的项目统计
回首2018,这些新物种值得关注
同贺名录
电咖再造新物种
作者名录
生产商名录
(2018年)《中国司法》