地学类标本资源的规范数字化及质量控制
2017-10-13何明跃
杨 眉 何明跃 施 爽 严 薇
(中国地质大学(北京),北京 100083)
地学类标本资源的规范数字化及质量控制
杨 眉 何明跃 施 爽 严 薇
(中国地质大学(北京),北京 100083)
地学类标本作为自然科技资源之一,是人类认识和研究地球科学和生命演化的不可再生的科技资源。标本资源信息数字化是促进资源开放共享,使资源利用效益最大化的最有效手段。本文对多渠道官方公开数据进行收集和统计,分析全球地学类标本资源的存量及数字化现状。结合地学类标本资源数字化工作实践经验,提出标本资源的数据标准、数据采集的详细流程、数据质量控制和数据存储及备份等方案。最后探讨标本资源数据库开发利用的主要方向。
地学标本;数字化;数据标准;质量控制;标本资源;资源共享
1 引言
地学类标本资源是指地质工作者从事区域地质调查和科学研究采集、整理、研究和收藏的以矿物、岩石、矿石和化石为主要类型的标本以及与之相关的数据和研究资料[1-2]。地学标本资源为人们研究和复原地球演化历史提供了最为直观、科学的证据,是地球科学研究的重要支撑材料,是人类社会生存发展和社会经济长远发展重要的战略资源。
随着地学领域大规模的考察和研究的深入及信息技术的发展,国家越来越重视国土资源大数据建设和开放共享,推动地学类标本资源信息的开放共享,有利于摸清家底,促进资源的统一管理和保护,促进形成便捷高效的科技资源共享服务体系,也有利于挖掘和释放标本资源的潜在价值。
我国地学类标本资源种类丰富,拥有省部级、市级、县级地学类资源保存单位100余家,其中拥有地学标本资源量5000号以上的单位约40家,保存各类地学标本共计138万件。2015年,国家岩矿化石标本资源共享平台依托国家科技基础条件平台中心组织各平台共同开展《国家科技资源指数报告》数据采集统计专项工作,对全球45个主要国家,900多家标本资源保存机构官方公开数据进行了收集和统计分析,获取了世界主要国家地学类标本资源保存数量(表1)。结果显示,资源保存量排名前三位的国家依次是美国、英国、德国,我国排在第9位。
表1 主要国家地学类标本资源保存数量及排名
在地学类标本资源的数字化建设方面,美国和欧洲发达国家的资源保存单位早在20世纪七八十年代就开展了标本数字化工作,建立数据库,并对外提供信息共享服务。当前,国际上已建成较大的地学类标本资源数据库机构有:美国国立自然历史博物馆、美国自然历史博物馆、美国亚利桑那大学矿物博物馆、英国自然历史博物馆、英国牛津大学博物馆、比利时皇家自然历史博物馆。另外,还有跨国的标本数据平台,如美国的Fossilworks、欧洲的Geocase等(表2)。
表2 世界主要地学类标本数据平台信息统计表
随着我国地学领域的进步与创新,20世纪90年代以来,依托科技基础性工作项目及地质调查项目的启动,我国逐步开展了地学类标本资源整合与数据库建设工作。“十一五”期间,科技部启动了“科技基础条件平台”计划[3],在全国范围内,推动了八大类自然科技资源[4]的整合共享。作为国家科技基础条件平台系列成果之一的“国家岩矿化石标本资源共享平台”整合了我国16家重点地学标本资源保存单位收藏和收集的13.5万件标本,包括中国地质大学(北京)、中国地质博物馆、中国科学院古脊椎动物与古人类研究所、中国科学院南京地质古生物研究所、中国地质科学院矿产资源研究所、中国地质大学(武汉)、吉林大学、北京大学、自贡恐龙博物馆、河南省地质博物馆、成都理工大学博物馆、昆明理工大学博物馆、桂林理工大学、新疆地质矿产博物馆等,完成我国10%的地学标本资源的数字化及共享,建成了我国最大的地学类标本资源共享平台,并在科技部、财政部的支持下,向全国省级地质博物馆及其他地学特色标本资源保藏单位推进,不断扩大资源整合的范围。
通过对目前世界上主要的8个地学类标本资源数据平台的资源规模和信息内容进行对比[5-13](表2),发现我国地学类标本平台在资源和数据量上较美英等发达国家有较大的差距,但数据项数量和完整度(即数据项信息完整程度)均高于国外平台,可见我国地学类标本资源数字化工作细致,数据质量控制较好,数据可用性较高。
通过信息化、数字化手段实现地学类标本资源的整合及开放共享,需要经历“数据标准规范制定—标本数字化—数据集成整编—建立数据库及信息平台—数据与实物资源共享”5个关键步骤。标本数字化过程包括了数据采集及数据质量控制,是决定数据价值的关键环节,直接影响标本资源管理和共享的效益,也反映了一个国家科技资源的管理水平。本文在总结近20年来国家岩矿化石标本资源共享平台标本数字化工作经验的基础上,提出一套地学类标本规范数字化的方法流程。
2 标本数据的标准与采集
建立统一的数据标准是信息互通共享的基础。按照同时满足收藏标本和科研标本的数据采集的需求,并在今后较长时期内数据的补充扩展性,以及与国家平台兼容的设计思路,根据标本的属性,制定了地学类标本共性描述规范和数据标准,再在此基础上设计了岩矿化石标本共性信息表及若干个性信息表。共性信息表记录了标本的基本信息,包含护照信息、标记信息、特征信息、保存信息及共享信息等29个数据项[4],详见《自然科技资源共性描述规范》。共性信息规范表在2014年被科技部“科技基础性工作数据集成与规范化整编”项目采纳,作为科技基础性工作项目获得的地质领域标本资源数据汇交标准。
化石标本因具有独特的标本属性,除共性特征外,还需对其个性信息进行描述,其个性信息数据项包括:属名、属征、词源、模式种、材料、系统分类位置、模式类型、详细特征描述、比较与讨论、采集者、采集时间、文献资料[2]。
标本资源数据采集是指将原始资料整理、标本鉴定、特征描述、拍照获取的文字信息和图像信息输入到数据表,便于通过数据库系统来管理标本信息的过程,是标本数字化的主要步骤。
数据采集的常规流程:标本清理—编号—原始数据记录—鉴定—描述—拍照—数据录入与校对—标签制作—入库[14](图1)。
图1 标本数据采集流程
(1)标本清理
清除标本表面的灰尘、泥土等附着物,与原始标签一起放入标本盒。
(2)标本编号
按库房规定进行编号,并作相应的记录。在标本上涂漆,然后用油性笔将编号写在油漆上。盛放在样品袋或玻璃瓶中的小颗粒标本,可将标注标本编号的标签纸贴于样品袋或玻璃瓶上。
(3)标本原始信息记录
将原始信息录入对应的数据项。标本的原始标签、野外采集记录、购置或捐赠记录、鉴定报告等原始资料记录了标本产地、采集人、采集号、采集时间及前人鉴定描述与研究信息,具有重要的参考价值。
(4)标本鉴定
运用各种鉴定方法并结合标本野外定名和相关文献资料,确定标本的名称,古生物标本需鉴定到种或属。用肉眼、放大镜、显微镜等常规鉴定地学类标本:观察矿物标本的颜色、晶形、条痕色、光泽、解理、断口等,得出其矿物种名称;观察岩石的颜色、结构、构造、矿物组成,确定其岩石种类和名称;观察和分析化石标本的地层时代、外形、生物特征、分类特征等,确定其种属。此外,还可进一步利用现代测试分析技术进行鉴定和分析,得到更多的数据和信息,如电子探针成分分析、化学成分全分析、X—Ray单晶和粉晶衍射晶体结构和物相分析、红外光谱谱学分析、拉曼光谱谱学分析、扫描电子显微镜观察及分析等。
(5)标本描述
标本描述是指尽可能全面地描述标本的特征。矿物标本需描述其颜色、晶体习性、条痕、透明度、光泽、摩氏硬度、密度、解理等特征[1];岩石和矿石标本需描述其颜色、结构、构造、矿物组成、成因产状、矿化、蚀变程度、风化程度等特征[1];化石标本需描述其外形、生物特征、分类特征等[2]。具体描述内容可参照《矿物、岩石、矿石标本资源及矿床描述标准》《无脊椎动物化石标本资源描述标准》《脊椎动物、植物、牙形类化石及旧石器标本资源描述标准》。
(6)标本拍照
标本拍照是指用数码相机采集标本的图像信息,力求真实反映实物原形。拍照的设备应选用像素2000以上的单镜头反光数码相机,通常选配100mm定焦镜头。拍照时左右各固定一个较高位置的灯光,光线角度尽量小,使其尽量不出现阴影。另外,在相机和标本中间附近准备1~2个照明灯,在拍照的时候用来微调局部明暗,白色、浅色或反光强的标本不要在过强的光线下拍摄。
标本为浅色矿物时底色选黑色背景,深色选白色背景,中间过渡色用白色背景效果更佳。标本下方应放置适当长度的比例尺作为参照,比例尺不宜过长或过短。拍摄时应选取标本较为典型的一面,然后对其进行对焦。无法拍出各个面都较清晰的效果时,可以尝试将目标适当缩小再尝试。细小矿物晶体可局部放大拍摄。拍摄后可用图片处理软件对相片进行精修,调整目标大小,使标本图像占图布一半以上,为获得较好的标本效果可抠图去除背景。薄片标本可在偏光显微镜下利用数码显微照相装置获取高清照片,如OLYMPUS DP系列产品。
(7)标本数据录入与校对
对照数据表逐项录入标本信息,并进行校对,确保数据的准确性。
(8)标本二维码标签制作
带二维码的标本标签可用电子设备通过扫码直接读取标本信息,大大提高了标本的核对和管理工作效率。在平台资源号前加上数据发布页面网址作为二维码信息,利用SaZZY.QR_v 2.5将此信息转换成QR Code矩阵二维码,用Adobe Indesign CS 6制作标签模板,然后导入标本数据和对应二维码图形,再用Adobe Acrobat制作成PDF文档,打印裁剪,即可获得如图2所示的二维码标本标签。
(9)标本入库
将标本连同新老标签及薄片一起放入标本盒,按库房管理要求收入库房标本柜并在标本保存信息中记录标本的库存位置号。
3 标本数据质量控制
3.1 数据采集过程质量控制
(1)从业人员培训
避免人为因素对数据质量的影响。这是保障标本数据质量的一个重要因素。
图2 标本二维码标签
对具有地学专业知识背景的从业人员,进行标本数字化技术培训,使其明确数据采集主要流程各个环节采用的技术方法和数据标准与规范,
(2)实物状态核对与更新
标本在保存过程中,可能因展示、借出、迁移或共享消耗等活动发生实物状态的变化。因此,对分散保存在各单位的标本资源,应定期开展实物标本核对工作,动态更新数据,以确保数据与实物的一致性和数据的可靠性。对实物标本状态进行核对的重点内容包括:实物名称、标本编号、库存位置、保存数量、照片与数据信息是否一致。若实物与数据不一致,需及时更新标本数据,若查无实物,则要求撤消此类无实物支持的数据。
3.2 数据审查
虽然通过数据采集过程质量控制能够有效地减少数据的质量问题,但人工控制难免存在一定的局限性和疏漏,还需要通过质检软件自动检查、配合人机交互验证检查和人工综合检查[15],来完成数据库质量评估与认定。
(1)质检软件自动检查
质检软件将在数据入库操作过程中对载入的数据质量进行全面、自动的核查。在指定数据目录后,利用软件将该目录下的数据库结构和字段内容与标准模板进行测试比对,并以检测报告的方式将问题数据的唯一标识、错误字段以及判别原因按照目录树的形式给出,以便溯源查看。利用质检软件进行自检内容包括:提交数据与数据库中已有数据是否重复、必填字段是否完整、计量单位是否符合标准、经纬度字段内容是否处于合理范围、图片路径是否与数据项相符等。
(2)人机交互核查
质检软件基于标准模板比对的检查方式虽然具备快捷高效的质量控制能力,但软件的机械化判别方式,将可能产生缺乏专业性的误判[16]。因此,软件的质检报告可能存在误判,只有工作人员结合实际情况对数据进行综合对照与核实,才能进一步判断是否存在真正的质量问题。
(3)人工综合检查
质检软件自动检查、人机交互核查有效保证了数据格式的规范性、字段的完整性,但对于数据内容的关联性和规范性的综合检查,仍需由人工来完成。经过人工综合审核,最终形成《数据审查报告》,反馈给数据提交方经修改完善后再次提交数据。
3.3 数据文档存储和备份
数据存储是将数据安全保存在计算机内部或外部存储介质上,数据文档命名规则:数据内容关键词+最后修改时间,如:云南澄江动物群化石标本20150521。为防止误操作造成不可还原的损失,数据修改后不得覆盖原有文档,需另存为一个文档,如同一日期建立的文档,文档名称须在日期后加“-1”“-2”以表示更新版本,数字越大表示文档版本越新。标本图片与文档需保持在同一个文件夹中。
数据备份是为了防止由于操作失误或软硬件故障导致的数据丢失,因此,同一数据集需在两台以上存储设备中保存。
4 数据库开发利用
标本资源数字化是一项长期性、基础性的工作,需要在人力和财力上持续的投入。建设国家级的地学类标本资源大数据平台,实现资源开放共享,需要逐步整合全国各级地学类标本资源保存单位收藏的标本资源,以及地学领域重大科研项目、地质调查项目收集保存的标本资源,按照统一的标准进行数据采集和建库,最终整合汇入国家平台,为地学领域科学研究、科技创新、专业教学、科学普及提供服务。
将海量分散的地学类标本资源数据,按照某一个或多个相同要素,汇集整合为专题数据集,并扩展相关专题信息进行融合加工,以标本为核心,形成知识化链条。例如,国家岩矿化石标本资源共享平台已经在标本数据基础上,开发了一系列地学专题数据产品:系统矿物学数据库、古生物化石群专题、典型矿床专题、地质剖面专题、珠宝玉石专题、岩矿化石精品图片库、原创科普视频、3D矿物精品等,有利于提高数据的使用效益,创造价值服务。
标本资源的数字化不仅有利于对标本进行分类统计、科学管理和数据共享,而且有利于通过开发功能强大的数据统计分析工具软件,更为准确地分析挖掘数据的潜在价值,发现数据的内在联系,为获取更有价值的信息和知识提供支持。例如,开发基于GIS技术的数据可视化系统,读取矿床标本数据包含的空间信息(产地形成区划、经纬度、高程),将其投影到地质图、地形图、剖面图、古地理图等数字地图上,以分析矿产资源时空分布特征,揭示其成矿机制,指导找矿等。
5 结语
通过调查发现,我国地学类标本平台在资源和数据量上较美英等发达国家仍有较大的差距,但数据项数量和信息完整度均高于国外平台,体现出近十多年来,在实施国家科技资源开放共享战略下,地学类标本资源整合与共享工作取得显著成效。本文对标本资源整合与共享中的关键步骤“标本数字化过程”进行分析研究,提炼出一套地学类标本数据采集和质量控制的技术方案,包括采用的数据标准、标本数据采集流程、数据质量控制体系,重点对标本数据采集9个环节所采用的技术方法进行详细描述,可操作性强,具有较高的实用价值,可向全国地学类资源保存单位推广,为我国地学类标本资源数字化建设和共享提供指导和示范作用。
本文初步探讨了在当今大数据时代背景下,建设国家级的地学类标本资源大数据平台需要在扩大资源整合范围、加强增量资源建设、开发专题数据产品、挖掘数据的科学价值等方面开展的工作,但是其中的关键技术还有待进一步研究。
[1]何明跃, 吴淦国.矿物、岩石、矿石标本资源及矿床描述标准[M].北京: 地质出版社, 2013: 92-123.
[2]吴淦国, 何明跃.无脊椎动物化石标本资源描述标准[M].北京: 地质出版社, 2016: 4-8.
[3]国家科技基础条件平台中心.国家科技基础条件平台发展报告(2011-2012)[M].北京: 科学技术文献出版社, 2013: 2-9.
[4]曹一化, 刘旭, 等.自然科技资源共性描述规范[M].北京: 中国科学技术出版社, 2006: 85-86.
[5]国家岩矿化石标本资源共享平台[DB/OL].[2017-07-03].http: //nimrf.net.cn.
[6]MUSEUM COLLECTION RECORDS.Smithsonian National Museum of Natural History[DB/OL].[2017-07-03].http: //collections.nmnh.si.edu.
[7]DIVISION OF PALEONTOLOGY.American Museum Natural History[DB/OL].[2017-07-03].http: //research.amnh.org/paleontology/search.php.
[8]THE DATABASE RRUFF™. The University of Arizona Mineral Museum[DB/OL].[2017-07-03].http://rruff.info.
[9]DATA PORTAL.Natural History Museum[DB/OL].[2017-07-03].http: //data.nhm.ac.uk/.
[10]EARTH COLLECTIONS: SEARCHABLE DATABASES.Oxford University Museum of Natural History[DB/OL].[2017-07-03].http: //www.oum.ox.ac.uk/collect/earthcoll2.htm.
[11]RBINS-COLLECTION DATABASE.Royal Belgian Institute of Natural Sciences[DB/OL].[2017-07-03].http: //darwin.naturalsciences.be/search/geoSearch.
[12]PALEOBIOLOGY DATABASE. Fossilworks[DB/OL].[2017-07-03].http: //fossilworks.org/?a=collectionSear chForm&type=view.
[13]GEOCASE DATA PORTAL.Geocase[DB/OL].[2017-07-03].http://www.geocase.eu/portal? terms Accepted=true.
[14]何明跃, 吴淦国.岩矿化石标本资源收集整理保存技术规程[M].北京: 地质出版社, 2015: 4-75.
[15]左群超, 杨东来, 宋越, 等. 中国矿产资源潜力评价成果数据质量控制及方法技术[J].中国地质, 2013,40(4): 1314-1328.
[16]许嘉玲, 陈柏堃, 王东, 等. 地面观测月数据质量控制的人机交互问题与处理[J].气象研究与应用, 2011,32(Z2): 147-148.
Digitization and Quality Control of Geological Specimen Resources
YANG Mei, HE Mingyue, SHI Shuang, YAN Wei
(China University of Geosciences, Beijing 100083)
Geological specimens are one of the eight categories of natural science and technology resources.Digitization of specimen resource information is the most e ff ective means to promote the opening and sharing of resources and maximize the e fficiency of resource utilization. This paper accordings to the collection and statistics of multi-channel official public data, analyzes the stock and digitization status of global geological specimens. Moreover, combining with the practice experience of geological specimen resources digitization, it proposes some very e ff ective programs of the data standard of specimen resources, the detailed process of data collection, the data quality control, the data storage and backup method and so on, fi nally discusses the key direction in the development and utilization of the specimen resource database.
geological specimens, digitization, data standards, quality control, specimens resource, resource sharing
G312
A
10.3772/j.issn.1674-1544.2017.05.006
杨眉(1980—),女,中国地质大学(北京)助理研究员,研究方向:标本资源数字化与共享;何明跃(1963—),男,中国地质大学(北京)教授,研究方向:矿物学岩石学矿床学(通讯作者);施爽(1992—),女,中国地质大学(北京)硕士研究生,研究方向:矿物学岩石学;严薇(1993—),女,中国地质大学(北京)硕士研究生,研究方向:矿物学岩石学。
科技基础性工作专项重点项目“科技基础性工作数据资料集成与规范化整编”(2013FY110900);国家科技基础条件平台项目“国家岩矿化石标本资源共享平台”。
2017年7月14日。