基于引用的科学数据评价研究*

2014-04-14丁楠黎娇李文雨泽白晋铭潘有能

图书与情报 2014年5期

关键词：评价研究

丁楠黎娇李文雨泽白晋铭潘有能

（1.浙江大学图书馆浙江杭州 310027）

（2.浙江大学公共管理学院信息资源管理系浙江杭州 310058）

·信息分析与科学评价·

基于引用的科学数据评价研究*

丁楠黎娇李文雨泽白晋铭潘有能

（1.浙江大学图书馆浙江杭州 310027）

（2.浙江大学公共管理学院信息资源管理系浙江杭州 310058）

科学研究离不开数据的支持，科学数据评价是对科学数据实施有效管理、促进数据共享与重用的基础。文章借鉴引文分析方法，选取数据发布量、数据被引量、数据平均被引频次及h指数等指标，构建了基于引用的数据评价体系，并以DCI中的人口调查数据为例进行了实证研究。研究发现通过数据引用可以有效地对科学数据的发布及存储机构的影响力进行评估，而DCI虽然由于建立时间较短而不够成熟，但仍可为科学数据的定量评价提供强有力支持。

数据共享数据引用数据评价引文分析

1 引言

现代科学经过数百年的发展，产生了数量庞大而又结构复杂的科学数据，在这些已有数据的基础上开展进一步研究是科学研究的一种重要模式。从某种程度上来说，基础数据的质量直接决定了研究的质量，因此科学数据的评价具有重要意义。然而目前国内外学界尚缺乏统一的数据引用规范，也没有完整的科学数据评价标准，这为科学数据的评价带来了很大的困难，也影响到了作者和机构共享数据的积极性。本项研究试图借鉴传统的引文分析，探讨基于引用的科学数据评价方法，选择合理的评价指标，从而达到对科学数据及相应的机构和数据仓储进行客观、有效地评价的目的，促进数据的共享与利用。图书情报学领域的专家学者在引文分析研究中已经积累了宝贵的经验并形成了一些较为成熟的方法，这些经验与方法可为数据引用分析提供借鉴。但数据引用分析与引文分析仍有明显区别，引文分析的对象主要是文献，而数据引用分析的对象是原始数据或派生数据，在科研素材体系中处于更底层的位置，其粒度也相对更细。对数据引用进行分析可以从更原始、更基础的层面上了解科研产出情况，从而提供一个新的对科研机构或学者进行评价的视角。

2 数据评价概述

目前专门针对科学数据评价的研究尚不多见，绝大部分的相关研究都是直接针对“数据”这一概念，大致可以分为两种类型：一种是如何评价一般开放数据，即对数据本身的评价；另外一种则是如何评价特定数据环境中的数据，即将数据置身于数据库或信息系统中进行评价。

（1）对数据本身的评价。对数据本身的评价方法可分为单维度准确性评估和基于多维度指标的评价等。在单维度准确性评估中，针对总量数据，可采用逻辑规则检验、经验参数比对、相关指标变动趋势对比、基于模型的异常数值识别与参数稳定性分析等方法，针对个体数据，则可采用统计分布检验与基于统计分布的异常数值识别、基于事后重复调查的偏差估计、误差效应的测量及其模型建构等方法。基于多维度指标的评价方法通常在给出精确性（给定数据集合与相应正确实际的相符程度）、可达性（数据可以得到的程度）、一致性（数据能以相同格式表达的程度）、完整性（数据无缺失的程度）、时效性（数据的时间特性对应用的满足程度）等指标的定义和计算方法的基础上，对计算结果进行再加工。

（2）对特定数据环境中的数据的评价。根据所处数据环境的不同，该类评价方法又可细分为基于数据库的评价和基于信息系统的评价。在基于数据库的评价中，依照用户的不同可将评价指标分为数据使用质量和数据质量两方面。数据使用质量包括数据查询率、安全性、敏捷性、可响应性、可使用性（可采集到的数据是否在数据超市中得到应用）、有效性（数据的更新频率）；对数据质量的评价存在于数据仓库其他模块对数据的操作当中，是反映数据仓库物理层数据的固有属性，包括完整度（非法空值记录的条数）、可信度、正确度（缺省值的记录条数）、一致性、唯一性等。在基于信息系统的评价中，数据被视为有生命周期的产品，从数据表示质量、数据值质量、数据模型质量和数据体系结构质量4个维度，对数据质量进行评价。

以上两种方法在进行数据评价时，尽管针对层面和开展角度有所不同，但都需要建立一个评价体系并设立各种指标，此外还需确定指标的权重，从而不可避免地具有较大的主观性。更为重要的是，该类评价方法的适应性在复杂的数据环境中将遭受极大的考验，正如很难有一套指标体系直接对各个学科中的论文质量进行评价一样。因此，本项研究将摒弃直接对数据质量进行评价的思路，而试图通过科学数据被引用的情况来评价其影响力，并从侧面反映数据的质量及重要程度，从而保证了该评价方法的客观、有效及广泛的适用性。

3 基于引用的科学数据评价

数据引用类似于文献引用，是指作者在论文中以参考文献、脚注或文中注等方式，对其所引用的数据提供来源出处的做法。与文献引用类似，数据被引用意味着数据进入了交流领域被获取和使用，并产生影响。数据引用不但意味着使用者对被引用数据及其所有者的认可，还可在数据管理与共享中起到重要作用。首先，科研工作者可通过数据引用信息定位并获取数据，从而促进数据的共享与重用；其次，科研人员或管理者可通过数据引用获取科学研究的原始数据，重现研究过程，从而对其结果进行验证；最后，数据引用可以增强数据生产者的被认同感，激励研究人员进行科研创造和共享。

目前，基于文献引用的引文分析方法在长期发展中已趋于完善和成熟，并被广泛应用于各个层面的测度评价研究，包括微观层面（作者个人、研究小组）、中观层面（机构、期刊）和宏观层面（国家、跨国区域）。常用的引文分析指标则有发文量、被引量、篇均被引次数、影响因子、h指数等，其中发文量和被引量是两个基本的测度，篇均被引次数和影响因子主要用于衡量机构或期刊论文的平均影响力。由于影响因子可以消除由于载文量不同和论文质量参差不齐所造成的对期刊被引率的影响，从而能够在不同期刊间进行比较，目前已在引文分析和期刊评价中得到广泛应用。h指数是近年新出现的一种评价指标，综合考虑到了论文发表的数量和质量，在各个层面的测度评价中具有较强的适应性。因为数据引用与文献引用之间的相似性，这些指标也可以被数据引用分析所借鉴。参照引文分析方法，并综合考虑数据评价的特点与可行性，本项研究拟选取微观层面的团体作者和中观层面的数据仓储作为研究对象，统计其数据发布量、数据被引量、数据平均被引频次及h指数。其中，数据发布量即一定时间段内某研究团体或数据仓储发布的总数据量，发布数据是被引用的前提，所以该指标是基于引用的数据质量评价的基本指标；数据被引量即发布的所有数据被引用的总次数，用于衡量某研究团体或数据仓储所发布数据的总体影响；数据平均被引频次即数据被引量除以数据发布量，该指标用于衡量某研究团体或数据仓储所发布数据的平均影响；h指数则综合考虑数据的质和量，某个研究团体或数据仓储的h指数为n是指其发布的数据中至少有n条数据每条被引了至少n次。

2012年10月，全球领先的信息供应商汤森路透旗下的知识产权与科技事业部宣布推出数据引用索引（Data Citation Index，DCI），并将其作为Web of Knowledge平台上一个新的研究资源，旨在推动对数据的检索、引用与评价，并把这些数据与Web of Knowledge中的文献连接起来。借鉴SCI、SSCI等引文索引系统的成功经验，数据引用索引试图为数据的管理、共享、评价提供强有力支持。使用者只需在数据引用索引中进行检索，便可获得所需要数据的元数据信息，包括数据的创建者、机构、标题、创建日期等，还可链接到所在数据仓储（Data Repository）中。数据仓储是数据的实际存储地，其中包含数据研究（Data Study）和数据集（Data Set）。一个数据研究中往往包含了若干个数据集，例如某数据仓储中存有大量人口普查数据，所有这些数据可作为一个数据研究，而这些数据又可分为20世纪70年代的人口数据、20世纪80年代的人口数据等，这些不同年代的人口数据即是多个数据集。对数据仓储来说，数据引用索引的出现不但能提高其数据的被引率，还完善了其元数据，提供了引用信息，让数据生产者知道有哪些作者或机构利用了其数据，也让数据使用者了解到哪些数据属于高被引数据。数据引用索引的出现有利于建立有效的数据评价机制，激发数据生产者和拥有者共享数据的积极性。

4 应用实例

4.1 方法与数据

考虑到数据的相对全面性和完整性，本项研究选择Web of Science的DCI数据库作为数据来源。因为DCI目前所收录的数据量还较为有限，其中图书情报学领域的数据尤为少见，本项研究选取了和图书情报学同属于社会科学大类的人口调查领域进行研究，即在主题检索中输入Population Survey进行查询，时间范围为1900～2014年，共获得13796条数据，然后将数据以txt形式下载并导入Excel中进行处理及统计分析。需要注意的是，不同于Web of Science核心合集，DCI目前的功能尚不完善，平均被引频次及h指数等均需下载数据后自行计算，而作者及机构信息也需进一步精炼。

4.2 数据仓储引用分析

经统计，人口调查领域被引次数排名前10的数据仓储如表1所示。

可以看出，英国国家数据仓储（UK Data Archive，UKDA）和美国高校校际政治与社会研究联盟（Inter University Consortium for Political and Social Research，ICPSR）的总被引次数和h指数均遥遥领先。其中UKDA是英国最大的人文社会科学数据收藏机构，由英国埃塞克斯大学（University of Essex）、经济与社会研究会（Economic and Social Research Council，ESRC）和国家档案局（National Archives）等机构合作建设，其数据收录范围涵盖了人文社会科学及环境保护中的各个领域，资源丰富、类型多样。而ICPSR是全球最大的社会科学数据中心，成立于1962年，隶属于美国密歇根大学。ICPSR拥有涵盖约6000个主题的50余万种数据资料，主要以会员制的形式提供服务，目前已有约700家学术机构会员遍布全球，包括中国的北京大学、中国人民大学等。UKDA和ICPSR中均收录有大量的人口调查数据，并得到了广泛应用。

UKDA和ICPSR之所以能在社会科学领域产生如此大的影响，其原因不但在于收录的数据量较大，还和这两个机构非常重视服务与推广有关。例如，UKDA自1975年起便发行数据通报，2007年起发行电子报，2010年开始举办数据使用案例的征集活动。ICPSR同样也非常重视数据的有效使用，自1963年开始便在每年暑假举行社会科学定量研究方法培训班，近年来均吸引到全球近千名青年教师与学生前往学习与交流。

澳大利亚南极数据中心（AUSTRALIAN ANTARCTIC DATA CENTRE，AADC）虽然被DCI收录的数据只有41条，但总被引达3082次，平均被引频次达到75.17，说明这些数据的权威性和认可度较高。而Figshare是创立于2012年的为科研人员提供发布各类研究产出的平台，其理念是可发现（discoverable）、可共享（shareable）和可引用（citable），数据是其主要的发布形式之一，任何用户均可在Figshare上面发布数据。因为数据发布者的分散性和成立时间较短，目前Figshare上的数据被引较少。

表1 被引次数排名前10的数据仓储

综合来看，目前DCI中人口调查领域具有较大影响力的数据仓储主要是UKDA和ICPSR，而Figshare由于其先进的理念和广泛的用户群，有望在数据引用领域产生更大的影响。

4.3 机构引用分析

经统计，人口调查领域被引次数排名前10的机构如表2所示。

表2 被引次数排名前10的机构

可以看出，数据被引次数排名前十的机构中大部分为政府机构，其中英国的政府机构占据4席，包括被引次数最多的英国国家统计署（Office for National Statistics，ONS），英国国家统计署成立于1996年，由原英国中央统计署（Central Statistical Office，CSO）和人口普查与调查署（Office of Population Censuses and Surveys，OPCS）合并而成，而CSO和OPCS在合并前的数据引用次数分别排在第6和第8。美国的政府机构占据3席，其中美国商务部（United States Department of Commerce）的数据被引次数仅次于英国国家统计署，主要原因在于其下属的美国人口调查局（United States Census Bureau）负责全美的人口普查，并提供除人口数目之外的经济指标、商业统计等数据。此外，美国卫生和公众服务部（United States Department of Health and Human Services）以及美国司法部（United States Department of Justice）也在人口调查数据领域具有较大的影响。除英美两国的机构外，澳大利亚就业部（Department of Employment）虽然发布的数据量不大，但其数据平均被引频次远远高于其他机构，体现出较强的影响力。

除政府机构外，英国的伦敦大学学院（University College London）及英国国家社会研究中心（National Centre for Social Research）也具有较强的影响力，二者发布的数据量较小，但总被引次数较高，数据平均被引频次均超过10。

5 讨论

从上述案例可以看出，通过数据引用可以有效地对科学数据的发布及存储机构的影响力进行评估。对人口调查领域的数据引用现状进行分析后发现，该领域的被引数据主要集中于UKDA和ICPSR这两个著名的数据仓储，其h指数远远超过其他数据仓储。而数据被引次数较多的机构大多为英美等发达国家的政府机构，这也从一个侧面说明这些国家的政府信息公开度较高，政府机构发布的数据也得到了较为广泛的应用。综合来看，h指数作为一个兼顾数量和质量的指标，可以较好地用于评价科学数据的影响力。

同时，由表1和表2中可以看出，基于数据引用h指数体现出的一些特征与基于文献引用的h指数相类似：如果数据发布量和总被引次数较大，那么h指数也相对较大，但是h指数的大小同时还极大地受到被引次数结构的影响，换而言之，高被引数据集的数量决定了数据引用h指数的大小。

DCI是数据引用分析与评价的重要工具，但目前仍存在一定的问题：首先，DCI目前收录的数据量较小，且主要来自于较为知名的数据仓储，其他大部分数据仓储及更多的未进入到仓储中的数据尚未被收录；其次，DCI目前所收录数据的地区及学科分布不均衡，其数据主要来源于英国和美国，且集中在生命科学、物理学和社会科学；第三，DCI目前的检索与分析功能较弱，机构及作者甄别功能的缺失增加了数据筛选的难度，h指数等评价指标也需手工计算。

更重要的是，DCI至今尚未正式公布其工作机理，如数据来源如何甄选、数据如何搜集、数据被引情况（是否被引及被引次数）如何甄别等，事实上，这些问题至关重要。对数据引用进行检索、利用与评价，总体上来说可以从两个方面进行：一是建设数据引用数据库，类似于目前较为成熟的引文数据库，将每篇论文的数据引用情况进行统计和标引，使用时直接检索获取。由于数据引用长期以来一直未形成统一规范的格式，各个学科或期刊根据自己的特点和要求提出了不同规范，而这些规范在形式和严格程度上均有较大区别。面对甄别数据引用现象时可能出现的各种复杂情况，目前的计算机程序尚无法独立完成数据标引工作，必须加以人工干预。因此，数据引用数据库的发展和完善将需要较长时间。另一种方式是建设数据引用搜索引擎，即利用现有的数据库，根据用户要求通过对引文（甚至原文）的检索获取某个数据仓储、机构或个人的数据被引情况。这种方式的优点在于可以利用现有成熟且丰富的引文和全文数据库资源，而无需专门建设数据引用数据库。但如何判断某条引文乃至某处正文属于数据引用是一个待解决的难题，需要综合运用文本挖掘技术和引文分析技术以提高准确度。

尽管有种种不足，但DCI毕竟是新推出的数据库产品，所涉及到的又是全新的研究领域，有SCI、SSCI等引文索引成功案例在前，凭借汤森路透强大的经济实力和技术支持，相信DCI将日趋完善，并为科学评价与分析发挥重大作用。

6 结语

本文参照引文评价方法，选取数据发布量、数据被引量、数据平均被引频次及h指数等指标，构造了一个基于引用的数据评价体系，该体系既适用于数据生产者（作者、团体作者），也适用于数据储存者（数据仓储）。为验证该评价方法的可行性，本文利用Web of Knowledge平台新推出的DCI数据库中的人口调查主题数据进行了实验，发现虽然由于DCI数据库的建立时间较短、不够成熟，其功能相较Web of Science核心数据集合有较大缺失，但仍可为科学数据的定量评价提供强有力的支持，从而促进科学数据的共享与重用。

［1］Hailey M.，Mark P.The anatomy of a data citation：Discovery，reuse，and credit［J］.Journal of Librarianship and Scholarly Communication，2012，1（1）：1035.

［2］侯经川，方静怡.数据引证研究：进展与展望［J］.中国图书馆学报，2013，39（1）：112-118.

［3］墨愚.数据引用的学术规范［J］.编辑学刊，2004，（3）：68-69.

［4］王华，金勇进.统计数据准确性评估：方法分类及适用性分析［J］.统计研究，2009，26（1）：32-37.

［5］袁满，张磊.数据质量多属性加权评价算法［J］.齐齐哈尔大学学报（自然科学版），2010，26（1）：26-28.

［6］丁海龙，徐宏炳.数据质量分析及应用［J］.计算机技术与发展，2007，17（3）：236-237.

［7］孟巍.数据仓库数据质量评价研究及其应用［D］.河北：河北工业大学，2004.

［8］向上.信息系统中的数据质量评价方法研究［J］.现代情报，2007，27（3）：67-70.

［9］丁楠，潘有能.数据引用索引工作机理与应用现状综析［J］.情报理论与实践，2014，37（6）：59-62.

Scientific Data Evaluation based on Data Citation

Data is the footstone of science research.The evaluation of scientific data can promote the management of scientific data，then facilitate the sharing and reuse of data.Based on themethod of citation analysis，the authors propose a scientific data evaluation system which includes indices such as data publication，data citation，citation per data and hindex.An experiment is implemented w ith the data of population survey in DCI.The result shows this system is useful for the evaluation of institutions which published and stored scientific data.The result also shows DCI can provide strong support to the quantitative evaluation of scientific data.

data sharing；data citation；data evaluation；citation analysis

G250.25

：A

：1003-6938（2014）05-0095-05

丁楠（1980-），女，浙江大学图书馆馆员；黎娇，女，浙江大学公共管理学院信息资源管理系本科生；李文雨泽，女，浙江大学公共管理学院信息资源管理系本科生；白晋铭，女，浙江大学公共管理学院信息资源管理系本科生；潘有能（1977-），男，博士，浙江大学公共管理学院信息资源管理系副教授。

*本文系浙江省哲学社会科学规划项目“社会科学数据引用行为与评价机制研究”（项目编号：13NDJC130YB）和国家自然科学基金项目“基于关联数据的信息聚合模型与实现研究”（项目编号：71273225）研究成果之一。

2014-09-05；责任编辑：刘全根