数据期刊科学数据质量评审主要问题研究
——以《全球变化数据仓储电子杂志(中英文)》为例
2022-06-21石瑞香
石瑞香 刘 闯
中国科学院地理科学与资源研究所《全球变化数据学报(中英文)》编辑部,北京市朝阳区大屯路甲11号 100101
数据既是科技活动的产物,又是支撑国家科技创新和经济社会发展的重要基础性、战略性资源[1]。在2018年国务院印发的《科学数据管理办法》中,将“科学数据”定义为“包括在自然科学、工程技术科学等领域,通过基础研究、应用研究、试验开发等产生的数据,以及通过观测监测、考察调查、检验检测等方式取得并用于科学研究活动的原始数据及其衍生数据”[2]。科学数据在进行实证研究、演绎研究和计算研究的基础上,开拓了科学方法的一次新的革命[3]。
近年来,数据出版和预出版成为推动国内外科学研究数据共享的新途径。无论是采取数据中心注册DOI发布的方式[4],数据中心或存储库与数据论文期刊联合出版的方式[5-6],还是将数据作为论文附件的发布方式[7],都在一定程度上保护了数据作者的权益,有助于实现数据FAIR原则——可发现、可访问、可互操作、可重用[8]。
采取编辑审核、同行评议对数据质量进行评审,是数据出版过程中的一个关键环节[5,9-10]。Peer等[11]将数据评审定义为“评估数据和相关文件的过程,并采取必要的行动以确保文件可以独立理解,以便进行知情重用,这个过程包括审查文件、文档、数据和代码”。Austin等[12]认为,数据评审涉及元数据的准确性、数据文件与文档的充分性、数据计算与分析结果的准确性。此外,评审还取决于数据出版者的要求、研究者的期望或数据敏感性等因素。涂志芳[9]将数据评审的内容归纳为科学性评审、技术性评审和监护性评审3个维度。孔丽华等[13]提出了科学数据的质量评价指标体系,并在《中国科学数据》的数据评审中试行。关琳琳等[14]认为国际数据期刊的出版质量控制政策重点强调数据提交规范、数据论文结构、同行评议模式、同行评议标准,并重视拓展作者服务。汪春播等[15]提出基于元数据的开放政府数据质量自动评估系统。练海荣等[16]提出基于智能化数据探索的数据质量管理方法。现有研究多集中于数据质量评审的指标、理论、管理与政策等方面,基于数据质量评审实践的研究比较少;以数据论文期刊为对象进行数据质量研究较多,以实体数据期刊(数据仓储期刊)为对象进行数据质量研究较少。本文以《全球变化数据仓储电子杂志(中英文)》为例,归纳、总结在全球变化科学研究数据质量评审实践中发现的主要问题,并分析其原因等,以期为提高科学数据质量,建设数据期刊评审标准与规范等提供参考。
1 研究对象与研究方法
1.1 研究对象
《全球变化数据仓储电子杂志(中英文)》是以出版全球变化科学研究数据为核心内容的期刊[17]。全球变化科学研究数据是指在科学研究活动中应用和产生的记录人类生存环境,特别在地理、资源、环境、生态、人文等领域,在全球、区域、国家、地方各种空间尺度,在地质年代、历史年代至近实时等时间尺度为内容的数字化成果[18]。全球变化科学研究数据常见的数据格式有.xlsx、.xls、.tif、.shp、.nc、.prj、.dbf、.sbn、.sbx、.txt、.dat、.data、.mdb、.gdb、.img、.hdf、.hdr、.jpg、.bmp、.kmz、.grd、.csv、.mp4、.vob、.pdf等[18]。本文以《全球变化数据仓储电子杂志(中英文)》数据出版过程中,全球变化科学研究数据质量评审发现的主要问题为研究对象。
1.2 研究方法
数据质量评审涉及对元数据、实体数据(即数据集)和数据论文的评审。从实体数据出版的角度,主要从元数据质量评审、实体数据质量评审、元数据-实体数据-数据论文初稿对照评审三个方面开展,评审的主要内容详见图1。
图1 数据质量评审的主要内容
全球变化科学研究数据的质量评审主要从数据的科学性、准确性、完整性、一致性和规范化等方面进行。数据质量评审参考的主要资料有《中华人民共和国数据安全法》《中华人民共和国测绘法》《出版管理条例》《地图管理条例》《科学数据管理办法》《中华人民共和国行政区划手册》、“全球变化科学研究数据出版与共享指南”等。
本文从全球变化科学研究数据质量的评审实践中归纳、总结发现的主要数据质量问题,并分析产生这些问题的原因,提出解决问题的思路和建议。
2 数据质量评审发现的主要问题及原因分析
2.1 元数据质量评审发现的主要问题及原因
元数据是描述实体数据的数据。元数据的完整性和规范性直接影响对实体数据的认知和理解,也影响到数据的检索、发现和重用。《全球变化数据仓储电子杂志(中英文)》的元数据包括数据集标题、数据集作者、作者单位、摘要、关键词、基金(可选)、关联论文网址和引用方式(可选)、可视化图和参考文献等。其中,摘要部分需要阐述数据集的研发方法、精度验证、数据集组成、数据集存储格式等内容。元数据质量评审发现的主要问题有:元数据内容不完整,表达不规范,可视化图没有基于实体数据制作等。例如:摘要过于简单,甚至只有一个句子;中英文作者与单位没有一一对应;参考文献格式不规范等。出现上述问题,主要原因有:(1)作者不了解数据集元数据的内容要求;(2)部分作者工作不够认真。
2.2 元数据-实体数据-数据论文初稿对照评审发现的主要问题及原因
实体数据往往由一个或多个数据文件组成。借助元数据和数据论文,厘清实体数据包括的内容和对应的数据文件是实体数据质量评审的前提。元数据-实体数据-数据论文初稿对照评审是数据质量评审不可缺少的一个环节,也是数据质量评审中最容易出错的一个环节。对照评审发现的主要问题有以下两种情况。
(1) 实体数据和元数据、数据论文中的数据描述不一致,主要体现为两类:①数据集组成不一致。例如,在元数据和数据论文中提到,数据集内容包括1980—1982年每月的水体分布数据,而实体数据中只有1980—1982年31个月的水体分布数据,出现实体数据数量比元数据和数据论文中描述数量少的现象。②时空间分辨率、数据格式、数据文件数量等不一致。上述问题是由作者准备材料时粗心造成的;也有部分原因,是作者清楚数据的情况,但是没有表达清楚,缺少对数据集特殊情况的说明。
(2) 尽管实体数据和元数据、数据论文中的数据描述一致,但是实体数据的研发方法有疏漏,或缺少科学依据。例如,有一些数据,基于它写作的研究论文已经出版,甚至发表在影响因子比较高的期刊上,但在评审实体数据质量时,发现数值有异常,与实际不符。与数据论文初稿对照评审,仔细检查后发现研究方法有疏漏。常见的问题主要包括:建立的模型缺少一些关键变量,或者阈值的设定缺少科学依据,以致于产生的数据结果不具有科学性,或与实际不符。之所以出现这种问题,主要是因为作者研发数据时考虑不周,缺乏理论联系实际等,而在得出数据结果以后,没有对其质量和精度进行检查和验证。
2.3 实体数据质量评审发现的问题及原因
2.3.1 实体数据与实际情况不符
实体数据与实际情况不符,主要有以下三种情况:
(1) 实体数据范围与研究区域法定范围不一致,或范围界线误差大。例如:沿海省份丢失了岛屿上的数据;中国分省数据丢失了台湾省、香港特别行政区和澳门特别行政区的数据。出现上述问题的主要原因是作者治学态度不够严谨,缺少国家版图意识,对地理名词及其法定范围不清晰。《中华人民共和国测绘法》第七条规定:各级人民政府和有关部门应当加强对国家版图意识的宣传教育,增强公民的国家版图意识;新闻媒体应当开展国家版图意识的宣传[19]。另外,地理上,行政区常包含飞地,尤其不同国家之间的飞地,必须谨慎对待。
在数据质量评审中,还经常发现流域范围的界线数据误差大,比例尺不匹配等问题。例如,图2所示为局部放大后的黄河流域边界与遥感影像数据的匹配情况。此段流域边界并没有沿分水岭划分,而是沿着河流划分,且流域边界与其最近的分水岭的距离约10 km。这是因为作者使用数据以前,并没有检查不同比例尺的数据在空间上的匹配情况。
注:黄线为流域边界。图2 流域边界与遥感影像数据的匹配误差大
(2) 由于数据研发方法有疏漏,或者缺少科学依据,所产生的数据结果与实际不符。例如,作者研发物候数据时,一般基于NDVI数据提取;物候参数用生长季长度、返青期、枯黄期等指标表征。在数据质量检查时,发现生长季长度、返青期等数据与研究区域的植被类型明显不符。分析其原因,是作者采用的研发方法有疏漏,选取的阈值没有基于研究区域的植被情况设定;数据研发以后,缺少检查、验证的步骤。
(3) 数据格式转换以后,所得数据与实际情况不符。以水域分布数据为例,基于遥感影像提取的水体分布数据为栅格数据,转为矢量数据时,经常出现图3(a)所示的情况,即多边形交叉为点,这种情况与实际不符。现实中,水域或者相连[图3(b)],或者断开为两处[图3(c)],不会交叉于一点。这种情况是由数据格式转换引起的。作者在转换数据格式以后,没有对数据质量进行检查,缺少必要的后处理。
图3 某湖泊水域分布局部放大图(a) 修改前;(b)修改后(相连);(c)修改后(断开)
2.3.2 实体数据内容不完整
实体数据内容不完整,主要有以下三种情况:(1)时间上,数据内容不完整,见2.2节所举的例子;(2)空间上,数据内容不完整,见2.3.1节的例子;(3)部分数据文件缺失,或文件里面部分内容缺失。譬如:有的表格数据的部分栏缺少表头,造成其意不明;有的缺少变量单位;有的缺失部分数据,但是没有用注释说明原因。这些问题多数是由作者做事粗心导致的。
2.3.3 实体数据内容不一致
实体数据内容不一致,主要有两种情况:(1)同一地点不同类型的数据之间地理位置不一致。譬如某动物栖息地分布,存储为多边形数据和点数据。评审时发现表达同一个栖息地的“点”在“多边形”以外[图4(a)],即不同类型的数据出现了地理位置不一致,此时需要建议作者修改为图4(b)。(2)同一类型的数据出现内容不一致。譬如:表格数据的标题和表格内容不一致;表格数据的左、右栏内容在时间尺度上不一致;同一栏数据的上、下内容不一致。出现上述问题,多是因为作者粗心或者没有意识到数据的一致性。
注:1为点状栖息地;2为面状栖息地。图4 同一地点的点状数据与面状数据地理位置必须一致(a)修改前;(b)修改后
2.3.4 引用实体数据不标注出处,或者标注不规范
很多作者引用了别人的数据,但不标注引用数据的出处;或者标注引用了,但是不规范。常见标注 “数据来自某某数据中心”,而没有标注数据集的作者、出版者、出版年份等重要信息。
除了上述主要问题以外,数据质量评审中发现问题比较多的有:不符合数据出版的格式要求、英文术语表达不准确等。与期刊出版对论文的格式有要求一样,数据期刊出版对元数据、实体数据和数据论文也有格式要求,例如数据的存储格式、字段命名、文件命名、单个文件数据量、参考文献格式等。
3 解决数据质量问题的思考及建议
科学数据质量评审是完善数据内容和提高数据质量的过程。数据由自用变为他用,有一个被认知和理解的过程。针对上述数据质量评审发现的主要问题及原因分析,提出以下思考和建议。
3.1 科研人员需要加强数据质量和精度检查,加强数据产权意识
科研人员在开展研究过程中,无论是从哪里拷贝或下载的数据,在使用以前,都需要检查数据的质量和精度,判断是否能用,以免拿来就用,造成错误传递。研发了数据以后,也需要检查数据的质量和精度,检查数据结果的科学性,是否与实际相符等。尤其对数据格式转换以后,需要检查是否会出现新的问题,必要时进行数据的后处理。在发表数据以前,需要对数据集内容的完整性、一致性等进行检查。加强数据产权意识,引用数据一定要标注来源,而且遵循引用记录不超过10%的原则[18]。
3.2 将数据成果纳入科研成果评价体系,使科研人员发表数据能够得到认可和回报
目前,数据质量的很多问题与科研人员的数据工作不够严谨、细致有关系。笔者认为,科研人员对数据的学术态度和工作状况与目前的科研评价体系有一定关系。数据往往是科研人员在经费支持下,花费很长时间、很多精力进行实验、观测和处理得到的。但是,在目前的科研评价体系中,并没有将数据作为成果纳入到科研成果评价体系。数据成果与科研工作者的绩效评价和职称评定等脱节。数据作者的辛苦付出得不到认可和回报,致使很多人不愿意出版与共享自己团队研发的数据,或者不愿意在数据整理方面花费更多的精力和时间。建议管理部门制定政策,将科学数据作为科研成果,纳入科研人员对科学贡献的评价体系[20]。
3.3 编辑部加强数据出版相关内容的宣传和普及
尽管在《全球变化数据仓储电子杂志(中英文)》的网站上,“技术文档”栏目已经有元数据、数据论文等的模板,但是作者可能没有看到,或者理解不透彻。因此,编辑部需要利用微信公众号或者讲座,定期或不定期开展数据出版相关内容的宣传和普及。
3.4 逐步创建和完善数据期刊数据质量评审的行业标准和规范
数据期刊作为新生事物,无论是发表数据论文的期刊,还是发表实体数据的数据仓储期刊,目前还缺少与数据质量评审相关的标准和规范。不同学科的数据有其独特性和复杂性,在数据类型、数据格式和数据软件等方面都有很大不同,使得制定统一的数据质量评审标准和规范有难度。建议根据学科特点,制定通用格式的数据质量评审标准和学科专用格式的数据质量评审标准或规范,以供数据期刊质量评审参考。
4 结语
目前,对于全球变化科学研究数据,无论是元数据、数据论文,还是实体数据,在质量评审过程中发现的问题都比较多。这与当前的科研评价机制、作者对待数据的态度等有密切关系。希望本研究阐述的数据质量评审过程中发现的主要问题、原因分析、相关思考和建议,能对从事数据期刊出版的编者、评审专家和数据作者等有益,共同促进科学数据质量的提高,也为数据期刊制定质量评审的行业标准和规范等提供参考和借鉴。
本研究也存在局限性:只归纳和总结了《全球变化数据仓储电子杂志(中英文)》在数据质量评审实践中发现的主要问题,可能存在很重要,却没有发现的问题;在分析的过程中也有考虑不周之处。希望在以后的工作实践中,不断积累与精进。
致谢感谢住房和城乡建设部政策研究中心袁利平老师在论文修改方面提供的帮助。