大洋样品管理分类代码设计
2022-08-15卜文瑞宋成兵候成飞姜静
卜文瑞宋成兵候成飞姜静
(1.自然资源部海洋地质与成矿作用重点实验室 青岛 266061;2.自然资源部第一海洋研究所 青岛 266061;3.青岛海洋科学与技术试点国家实验室海洋地质过程与环境功能实验室 青岛 266200;4.中国大洋矿产资源研究开发协会办公室 北京 100860)
0 引言
自20世纪70年代末我国科学家发现深海多金属结核(锰结核)以来,在原国家海洋局、地质矿产部及中国大洋矿产资源研究开发协会(以下简称“中国大洋协会”)组织下,经过几代科学家的努力,我国已组织开展了60余个大洋调查航次,调查对象由国际海底区域(简称“区域”)内多金属结核一种资源拓展为面向多金属结核、富钴结壳、多金属硫化物和深海富稀土沉积物等多种资源,调查区域也由富集多金属结核资源的太平洋CC区拓展至世界三大洋。在中国大洋事务管理局的组织下,已申请获取了包括多金属结核、富钴结壳和多金属硫化物资源等3种多金属资源5块矿区,使我国成为世界上唯一一个拥有5块国际海底多金属资源矿区的国家[1]。在30余年的多金属资源调查活动中,采集了大量多金属结核、富钴结壳和多金属硫化物等深海矿石及各类岩石、深海沉积物、海水和生物等珍贵样品,为深海资源评价、科学技术研究积累了丰富的样品资源。
“区域”内多金属资源勘探工作量大,选定资源矿区,申请获得国际海底管理局核准后,承包者需与国际海底管理局签订期限为15年的勘探合同[2]。我国大洋调查持续时间长、空间范围覆盖大、参与单位多、人员更替频繁,大洋调查采用调查手段多样、获取的样品类型复杂、形态多样,且普遍存在同一站位采集多类样品、同类样品不止一件的现象,也普遍存在同一站位,甚至同一件样品由多个学科、多个单位和多个研究团队共享使用的情形,在工作实践中极易出现原始样品“身份”界定不清、分割切割产生的衍生样品与原始样品之间的关系难以精准描述等问题。样品“身份”涉及样品采集信息、处理加工信息、存储信息和共享使用信息等内容(图1),准确厘定同一站位不同类型、同一类型不同件样品“身份”,尤其是多个单位、多个研究团队自同一件样品上所分取衍生样品之间的关系,以及各件衍生样品之间的关系,是样品高效管理的基础,也是大数据条件下样品知识图谱构建、相关科学数据集成,服务海洋科学研究与深海资源评价的关键所在。
图1 大洋样品“身份”相关信息
1 国内外现状
从国际上看,分布于美国德州农工大学、德国不来梅大学和日本高知大学的IODP计划岩心库及美国地质调查局岩心研究中心、英国海洋沉积物岩心研究中心保存的样品多以岩心为主。岩心样品“身份”标识相对简单,以IODP岩心样品为例,利用航次(leg)、站 位 号(site)、钻 孔 号(hole)、岩 心(core)、岩心段(section)及样品在钻探岩心上的深度范围等信息[3],即可准确标识样品“身份”及其在岩心上的空间位置,对我国形态多样、类型复杂的大洋样品“身份”管理借鉴意义并不大。
为集成不同来源样品及相关信息,隶属于美国自然科学基金会的多学科地球数据联盟(Interdisciplinary Earth Data Alliance,IEDA)使用了由9位字符组成的“国际地学样品代码”(International Geo Sample Number,IGSN),并以此为基础开发了地学样品登记系统(System for Earth Sample Registration,SESAR)[4],统一标识在该系统登记的样品。“国际地学样品代码”由两个代码段、9位字符组成,第一个代码段为5位字符,用于标识用户(登记者个人或机构)的唯一性,第二个代码段由4位随机字符(0~9,A~Z)组成,可表达样品“身份”的唯一性及与样品相关的采样信息(如,站位、地层等)。总体来看,国际地学样品代码较短,便于使用,不仅可以直接作为样品编号在出版物中出现,而且有足够多的代码容量(每个注册用户理论上可登记364=1 679 616件样品),但因该记录信息有限,加之第二个代码段为4位随机字符,仅能记录样品与登记用户之间的隶属关系,虽在一定程度上满足了不同样品“身份”唯一性的要求,但不能精准标识原始样品之间、原始样品与衍生样品之间,以及同一原始样品分割切割所产出衍生样品之间的逻辑关系。
我国的海洋样品管理起步较晚,除大洋样品馆和专项海洋地质样品库外,多为单位内部样品库,样品来源和共享使用范围都十分有限,对样品“身份”管理的要求并不高,几乎没有对样品进行编码管理的需求。
2 大洋样品管理分类代码总体设计
2.1 设计原则
样品分类管理代码的编码对象为大洋样品及样品使用成果实物,代码设计遵循以下基本原则。
2.1.1 唯一性原则
样品分类管理代码由馆藏码、状态码、原始码和衍生码等4部分组成(图2),以保证不同调查平台、不同任务来源各站、各类原始样品的唯一性,以及原始样品分割切割所产生各件衍生样品的唯一性。
图2 大洋样品分类管理代码唯一性设计
2.1.2 可溯性原则
样品分类管理代码包含了原始样品采集信息及衍生样品分割切割信息,可实现原始样品采样位置、采样方式和采样任务的准确追溯,以及衍生样品与原始样品之间在“身份”上和空间位置关系上的精准追溯。
2.1.3 可扩展性原则
样品分类管理代码顺序码采用0~9等10个阿拉伯数字和A~Z(除“O”外)等25个大写拉丁字母编制,为35进制,具有充裕的编码容量,可在不改变代码总体结构的情况下扩展样品类型、采样任务、采样方式和采样位置等类目代码,具有较强的可扩展性。
2.1.4 适用性原则
样品分类管理代码所涉及样品类型以肉眼观察或借助放大镜鉴定为基础,不涉及通过样品处理加工或借助仪器设备分析鉴定后的分类命名,以满足在样品分类整理过程中“身份”前置的工作流程需要,具有很强的适用性。
2.1.5 分级性原则
本分类代码采用面分类法为主、线分类法为辅的混合分类法。其中样品类型、采样位置等类目采取线分类法,分为若干个层级,每个层级又分为若干个类目,同位类类目之间为并列关系,相互不交叉、不重复、不隶属,下位类与上位类类目之间构成隶属关系[5],以方便数据库建设和信息分级统计、分级管理,以及样品类型和采样位置等信息精准查询和模糊查询的需要。
2.2 代码总体结构
样品分类管理代码设计为30位等长代码,总体上采用面分类法[6-7],分为馆藏码、状态码、原始码和衍生码等4个部分,13个类目(代码段)(表1)。各部分代码组成、代码位数及含义及如下。
表1 样品分类管理代码总体结构
(1)馆藏码,由“存储信息”1个代码段组成,占1个代码位,为代码总体结构第一位,用以标识样品保存库房,或样品不在馆藏机构原因。
(2)状态码,由“状态类型”1个代码段组成,占1个代码位,为代码总体结构第二位,用以标识样品的分割状态或加工试样的类别。
(3)原始码,由“样品分类、采样任务、采样方式、采样位置、站位序号、重复站位识别码和站位同类样品序号”等7个代码段组成,占21个代码位,为代码总体结构第三位至第二十三位,用以标识原始样品的唯一性及不同原始样品之间的逻辑关系。
(4)衍生码,由“剖分序号、分段切割长度、分段切割序号和分取试样份次号”等4个代码段组成,占7个代码位,为代码总体结构第24位至第30位,用以标识原始样品分割、切割产生的衍生样品与原始样品之间,以及自同一原始样品所获取各衍生样品之间的逻辑关系。
2.3 代码设计
2.3.1 编码字符
样品分类管理代码采用阿拉伯数字0~9和大写拉丁字母A~Z(为避免与阿拉伯数字“0”混淆,不含字母“O”)编制,以满足代码容量的需要;利用“#”“$”“%”“&”“*”及“@”等可由键盘直接输入的特殊字符,标识具有特殊含义的编码对象,不仅方便输入,而且具备很强的识别度。
2.3.2 代码组成
样品分类管理代码采用约定代码和编码方法相结合的方式,由9个约定代码表和10项主要编码方法组成。
3 大洋样品管理分类代码编制
3.1 代码编制规则
样品分类管理代码按如下规则编制:
(1)顺序码优先采用阿拉伯数字1~9,超出相应代码位容量时,依次采用大写拉丁字母A~Z(除O外),即以“A”代表10、“B”代表“11”依次类推;
(2)顺序码为多位的,超出相应代码位容量时,首位和第二位阿拉伯数字合并编码;
(3)采用线分类法分为多层的代码段,如上位类不分出下位类,下位类代码编为“0”;
(4)采用线分类法分为多层的代码段,分别以“X99”“X9”或“X”等代码标识不同分类层级的收容项。
3.2 约定代码表
存储信息、状态类型、样品类别、样品类型、采样方式和采样位置等类目,采用列举编码对象、分别赋予代码的约定代码。约定代码表的设计,包括编码对象分级分类和代码赋值两个方面。
3.2.1 编码对象分级分类
采用约定代码的存储信息、状态类型、样品类别和采样方式等类目,均只有一位层级,不存在分级问题,编码对象采用列举法逐一列出。
样品类型和采样位置等一级类目分级分类如下。
3.2.1.1 样品类型分级分类
样品类型代码采用线分类法,分为“大类”“中类”“小类”和“亚类”4层。其中第一层分为“富钴结壳”“多金属结核”“生物残骸”“热液多金属矿石”“岩石”“沉积物”“海洋生物”和“海水”等8个类目。
富钴结壳、多金属结核、岩石和沉积物等在相关国家标准中已有分级分类的,参照国家标准中的已有分级分类方案[8-10];热液多金属矿石依据大洋工作实践及大洋领域专家共识分级分类(图3);海洋生物类型复杂,本分类代码体系中按相关分类体系[11-12]仅列出了大洋调查工作中常见的类型(图4);在“生物残骸”“热液多金属矿石”和“海洋生物”等一级类目之下的“中类”“小类”和“亚类”等层级设“其他”类目作为隶属于上位类,但不属于已有同位类样品的收容项。
图3 热液多金属矿石样品管理分级分类方案
图4 海洋生物样品管理分级分类方案
3.2.1.2 采样位置分级分类
采样位置代码,参照已有标准[13],采用线分类法,分为“洋区”“海域”“海区/海山群”和“海山/区块”4层。其中第一层分为“中国近海及毗邻海域”“西北太平洋边缘海”“太平洋”“大西洋”“印度洋”“北冰洋”和“南大洋”等7个类目。
采样位置分级分类及命名原则如下:
(1)中国近海及毗邻海域、西北太平洋边缘海等调查程度高、地理分区细的区域提升采样位置分类级别,将隶属于“太平洋”的“西北太平洋边缘海”及隶属于“西北太平洋边缘海”的“中国近海及毗邻海域”分别由第二层和第三层提升为第一层。
(2)已有大量海上调查工作的深海资源合同区、资源调查区,按已有地理实体分级分类详列,以满足实际工作需要;潜在工作区略列,以保证分类体系的适用性。
(3)既有地理实体名称,又有调查区域代号的,以地理实体名称命名“采样位置”,以调查区域代号为“简写”,无地理实体名称的,以调查区代号命名“采样位置”[14-15]。
(4)根据需要在“海域”“海区/海山群”和“海山/区块”等层级有关类目之下设“其他”,作为隶属于上位类,但不属于已有同位类采样位置的收容项。
3.2.2 约定代码赋值
约定代码采用无含义代码和有含义代码相结合的方法编制。无含义代码一般采用顺序递增码,有含义代码一般以编码对象英文字母、汉语拼音首字母为基础,参照已有工作习惯编制,并将特定编码对象的代码赋值为特殊字符,以增强特定编码对象的识别度。
编码对象分为多个层级的,同类同层级编码对象的约定代码一般自“1”开始依次编制。因多个层级的约定代码表中,各分类层级只占一个代码位,同类同层级编码对象个数超过“9”时,自大写拉丁字母“A”开始依次编制。
编码对象分为多个层级,设置收容项的,收容项代码编为大写拉丁字母“X”。收容项分类层级存在下位类的,各级下位类代码均编为数字“9”。
3.3 编码方法
对采样任务、站位序号、重复站位识别码、站位同类样品序号、剖分序号、分段切割长度、分段切割序号及分取试样份次号等难以列举编码对象的类目,设计相应的编码方法。采用编码方法的类目,在分层分类后,可采用约定代码对不同层级或类目的编码对象赋值。
3.3.1 代码结构
同一类目,可采用线分类法,先分层,后编码,必要时可多级分层,分别编码。如先采用线分类法将“采样任务”分为“任务类别”和“任务编号”两层,其中“任务类别”采用1位约定代码;“任务编号”采用线分类法进一步分为“航次”和“航段”两层,分别编码。
同一类目,可分不同情形分别设计编码方法。如“站位序号”分“连续编号采样作业”和“重新编号采样作业”等情形分别设计编码方法。
3.3.2 代码赋值
非约定代码编码对象的赋值方法如下:
(1)不涉及剖分、分段切割、分层分取试样的,相应代码段赋值为“0”。
(2)重复站位识别码、站位同类样品序号、剖分序号、分取试样份次号等无含义代码,采用递增顺序码,一般自“1”开始顺序连续编制。
(3)站位序号、分段切割长度和分段切割序号等有含义代码,以编码对象相关信息为基础编制,如“站位序号”代码以采样站号中代表站位次序、采样作业次序的数字为基础编制;岩心“分段切割长度”代码按以厘米为单位的岩心长度数值为基础编制;岩心“分段切割序号”代码按以厘米为单位的岩心分段切割起始深度数值为基础编制。
4 大洋样品管理分类代码技术特点及应用
大洋样品管理分类代码具有如下若干特点:
(1)该分类代码设计以解决大洋样品管理工作需要为目标,并经长期工作实践不断验证、优化调整形成的,具有很强的针对性和适用性。
(2)样品分类包含样品类别与样品类型两个类目,其中“样品类别”以满足样品馆藏管理、信息追踪,方便代码体系中样品衍生码设计等需求为目的;“样品类型”以肉眼观察或借助放大镜鉴定为基础,不涉及经复杂的处理加工,或借助显微镜等大型设备鉴定获得的样品分类命名,既能满足样品“身份”前置的工作流程需要,又能适应海上调查现场及样品管理工作环境条件。
(3)该分类代码体系编码对象除馆藏样品外,可扩展至样品处理加工形成的成果实物,以及不在馆样品(现场丢弃样品、馆内缩减样品、分配使用样品、加工耗尽样品等),奠定了样品全生命周期管理的技术基础,是基于样品产出科学数据自动整合、大数据分析、科学信息深度挖掘的技术基础。
(4)该分类代码体系以大洋样品管理为基础设计,可扩展至其他来源样品,能够满足不同采样任务获取、来自世界大洋不同海域、各种类型样品管理工作的需要,具有面向海洋各学科领域、不同部门任务采集样品管理工作推广的可能性。
以该分类代码为基础,已建立了面向大洋样品管理的大洋样品管理信息系统,管理了自2001年以来50余个大洋调查航次的馆藏样品及共享使用样品,并拓展至国家专项海洋地质样品管理,在样品的高效管理、共享使用和成果汇集等方面产生了积极影响,并将为样品使用效益持续发挥、良好科研生态打造、服务海洋强国建设产生积极推动作用。参考文献
[1] International Seabed Authority.Exploration Contracts[EB/OL].[2021-10-10].https://isa.org.jm/exploration-contracts.
[2] 中国大洋协会办公室.国际海底区域资源探矿和勘探规章[M].北京:海洋出版社,2015,191.
[3] ODP Information Technology and Data Services.ODP prime scientific data:collection,archive,and quality,ODP tech Note 37[EB/OL].[2021-10-10].http://www-odp.tamu.edu/publications/tnotes/tn37/INDEX.HTM,doi:10.2973/odp.tn.37.2007.
[4] Interdisciplinary Earth Data Alliance.IGSN Documentation[EB/OL].[2021-10-10].http://igsn.github.io/
[5] 中华人民共和国国家质量监督检验检疫总局,中国国家标准化管理委员会.GB/T 20001.3—2015标准编写规则 第3部分:分类标准[S].北京:中国标准出版社,2015.
[6] 中华人民共和国国家质量监督检验检疫总局.GB/T 7027—2002信息分类和编码的基本原则与方法[S].北京:中国标准出版社,2003.
[7] 中华人民共和国国家质量监督检验检疫总局.GB/T 10113—2003分类与编码通用术语[S].北京:中国标准出版社,2003.
[8] 中华人民共和国国家质量监督检验检疫总局,中国国家标准化管理委员会.GB/T 12763.8—2007海洋调查规范第8部分:海洋地质地球物理调查[S].北京:中国标准出版社,2007.
[9] 国家海洋局.GB/T 17229—1998大洋多金属结核矿产勘查规程[S].北京:海洋出版社,1998.
[10] 中华人民共和国国家质量监督检验检疫总局,中国国家标准化管理委员会.GB/T 35572—2017大洋富钴结壳资源勘查规范[S].北京:中国标准出版社,2018.
[11] 李太武.海洋生物学[M].北京:海洋出版社,2013:388.
[12] 张士璀,何建国,孙世春.海洋生物学[M].青岛:中国海洋大学出版社,2017:410.
[13] 国家海洋局.GB/T12462—1990世界海洋名称代码[S].北京:海洋出版社,1990.
[14] 中国大洋矿产资源研究开发协会办公室.中国大洋海底地理实体名录(2016)[M].北京:海洋出版社,2016:512.
[15] 中国大洋矿产资源研究开发协会办公室.中国大洋海底地理实体名录(2017)[M].北京:海洋出版社,2017:558.