科学数据使用统计应用及关键流程研究

2017-08-25丁培

现代情报 2017年7期

关键词：评价

丁培

[摘要]科学数据使用统计是科学数据使用计量的重要构成，是科研学术评价的重要参考依据。对比三类数据使用计量的效果及应用难度，文章认为使用统计计量有良好的可信度和可操作性。在梳理研究现状基础上，文章分析数据使用统计的利益相关方，结合数据自身特点，总结流程，并重点阐述数据收集、规范、清洗、报告等关键流程问题，最后提出思考与建议。

[关键词]科学数据；数据计量；使用统计；评价；在线电子资源使用统计

科学数据是现代科学研究的基础支撑之一。它既是科研产出的重要内容，也是后续科学研究、科研创新的基石。近年来，学术界日渐重视科学数据的公开、共享以及重用。科研机构在数据长期保存、数据监护、科学数据开放及数据出版等方面取得诸多实质性的进展。科研人员也逐渐关注科学数据共享及重用所产生的价值，他们关注自己的数据被谁使用，自己的数据价值多高，使用他人的数据是否可靠等问题。科学数据的使用绩效和影响评估已成为推动科学数据公开、共享以及重用的重要助力。

绩效分析与影响评估包括定性与定量两个方面，数据的使用计量则是定量分析的基础。目前，科学数据的使用计量分三类，分别是科学数据的引用计量，科学数据的使用统计以及科学数据的替代计量。它们从不同角度计量科学数据的使用，并提供多样化的数据以便评估。本文关注科学数据使用计量中的使用统计部分，梳理现状，分析关键问题，并探讨如何利用它为机构、学者、科学数据提供商、图书馆等角色提供科学数据的使用绩效评价。

1科学数据使用计量

現有学术评估体系中，科研人员倾向于认可数据引用和数据下载作为科学数据的影响评价指标。研究数据联盟（Research data alliance，RDA）文献计量学小组的调查发现，研究人员认为评价数据影响力的前三个指标分别是数据引用计量、数据下载和同行评议文章中被提及的数量，社交媒体、博客等使用排序靠后。2014年的另一个在线调查中，95%的研究人员表示引用或者正式出版是获知自己数据影响力的最佳方式，而60%左右的研究者认为数据下载量也是反映自身数据影响力的重要方式。

引用是传统科研学术评估体系中的重要一环，在科学文献领域广泛应用。作为文献领域中成熟的影响力评估数据，引用计量在科学数据影响力评估中也获得优先考虑。科学数据引用计量是三类使用计量中最早进入研究，也获得最多关注。文献方面，几乎所有关于科学数据评价计量的文献都会涉及引用计量，研究角度包括引用规范、引用行为研究、引用评价模型等。实践上，Datacite、英国数据监护中心（The Digital Curation Centre，DCC）、ESIP、RDA、英国联合信息系统委员会（Joint InformationSystems Committee，JISC）等机构对数据引用标准、引用原则、引用应用等方面进行研究实践。Springer、Nature，Elsevier等出版商也在生物医学领域开展数据引用试点项目，获得了许多的一手数据。

尽管数据引用计量被认为是最权威的评估数据来源，然而数据引用计量的广范围应用存在四大障碍。第一，鉴于数据出版成本高、出版流程不完善及研究者缺乏出版动力，科学数据公开出版还不具备广范围实施的条件；第二，尽管DataCite、PANGAEA、Dataverse、ICPSR、中国西部环境与生态科学数据中心、冰川冻土科学数据中心、基础科学数据共享网等重要学术组织、数据仓储和研究机构都提出了相应的科学数据引用和著录标准，但世界范围内缺乏统一的科学数据引用标准；第三，数据引用行为匮乏，许多作者在数据二次分析时不标明数据引用；第四，数据仓储商对科学数据引用的不重视。Making Data Count项目调查了71个科学数据仓储库，结果显示仅有23%的仓储追踪数据引用。

数据下载是科研人员认可的另一大计量数据。它是数据使用统计的主要构成之一。NISO定义数据使用是用户访问以及下载一个公开出版的数据集的行为，其统计范围包括数据的下载、数据访问、数据集标注等。相比引用计量，科学数据的使用统计计量具有预先、直观的特点。预先性指我们可以在数据正式被引用发生前就洞悉数据的可能影响，而直观性表现为我们能够从数据的浏览或者下载直观了解数据或者数据集受欢迎和关注的程度。此外数据使用统计比引用更为广泛。John等调查71个数据仓储，发现90%的仓储提供数据下载统计，仅有23%的数据仓储引用独立数据集，20%的引用将数据仓储作为整体引用。由此看出，数据使用统计比数据引用计量更具可操作性。但使用统计数据并不能完全反映出数据本身质量的问题。数据使用统计具有来源复杂、数据量庞大的特点，尤其需要在统计来源、数据清洗、数据标准等方面进行大量工作，本文第三部分将对这些内容详细阐述。

替代计量学是文献计量学领域的新宠。它作为传统引用计量的补充，主要关注学术资源的网络使用。科学数据的替代计量学内容和文献的替代计量学内容区别不大，主要统计对象包括科学数据的社交媒体提及、评论、访问等。近年来也有部分研究探索科学数据的替代计量模型。如NISO的替代计量小组将计划研究科学数据的替代计量方式。虽然替代计量学的研究在持续增加，但由于缺乏标准化的数据集以及数据统计来源，其应用的普遍性受到限制。

目前而言，数据引用、数据使用及数据替代计量尚未形成完整的评估体系，其中数据引用和替代计量受制于数据来源较少，短期内无法普遍适用。而科学数据的使用数据一直存在于数据仓储的日志中，获取难度低，其评价绩效的效果也得到科研人员的肯定，因此，利用科学数据的使用数据来帮助评价科学数据的影响力具有可行性。

2数据使用统计研究现状与实践

科学数据作为科学研究的另一个重大产出，其成果管理、利用、评估的发展路线基本上遵循科学文献的模式。科学数据早期作为科学文献的附加材料，仅仅在保存和数据验证上发挥作用。伴随着科学数据日渐受到科研机构、科研人员的重视，科研数据的使用统计也得到关注。

仓储机构及数据中心是最早利用科学数据使用统计的主体之一。它们基于使用统计数据评价科学数据的传播和推广的力度。随着科研人员反思引用作为学术评价计量指标的单一性和绝对性，利用使用统计评价学术影响的研究逐渐兴起。Bollen等提出基于使用且覆盖整个研究过程的影响计量方法，计量内容涵盖引用、发现、下载、同行评议邮件数、阅读以及保存等。Fear指出学术数据集的评价计量不能依据单一指标，应多因素考虑，如数据引用计量、二次影响（如G指数）、数据重用的学科广度以及数据下载量。

2009年，Chavan等提出数据使用索引（Data usageindex）是数据出版框架中三大技术基础设施之一，其统计指标涵盖访问、下载频率、下载量、使用度等。这是学术界第一次正式提出数据使用统计，并将其作为单独对象进行研究。GBIF数据出版工作组进一步细化数据使用索引中指标的统计及用途，提出利用下载、检索、记录数量、数据集数量等数据可以计算出数据使用影响、兴趣影响、使用率、使用评分等评价指标。Rodrigo Costas（2012）提出数据计量的概念，认为数据使用统计也是计量的重要组成。NISO报告认同研究数据使用统计是重要评价衡量，建议研究数据共享平台（包括数据仓储）为研究数据使用统计建立标准和最佳实践。国内目前主要关注科学数据引用对数据影响评估的作用，尚未对专门研究数据使用统计，仅在科学数据共享平台绩效评估指标中提及或科学数据出版环境中建议包含使用统计的科学数据评价指标。

国际上已有多个项目对科学数据使用统计进行研究和实践。如研究数据联盟下的数据出版计量小组正在研究如何对数据计量概念化；NISO的替代计量指标小组考虑将替代计量指标扩展到非传统的软件或科学数据；JISC资助的数据计量项目准备基于COUNTER标准进行数据使用计量实践；由NSF资助，加州数字图书馆、PLOS和DataONE共同参与的Making Data Count项目创建了一个数据计量的试点网站。

3科学数据使用统计流程及关键问题

3.1科学数据使用统计的利益相关方

3.1.1数据提供者

数据保存是数据使用的最基本前提。使用统计数据最主要的来源是数据仓储。英国数据监护中心DCC将数据仓储分为公共获取的科学数据仓储数据中心或科学数据库、通用的数据仓储库、机构数据仓储库、期刊的补充材料存储服务、项目、部门或者个人主页五类。表1对这五类数据仓储的优缺点及使用统计数据提供的力度进行对比。

可以看出，机构仓储、数据中心、通用的数据仓储库是科學数据使用统计的主要数据提供方。从供应方的角度，使用统计能直观的了解其资源的利用情况，为后续资源推广、用户行为分析、资源个性化加工、提供数据分析服务奠定数据基础。

3.1.2数据消费者

科研人员、科研机构、学术资助机构既是统计数据产生过程中的数据使用者，也是使用统计数据消费的主体。科研人员可利用科学数据使用统计帮助评估个人科学数据的受关注程度，利于开展同行甚至是跨行业的科研合作，有条件的情况下，还可将其作为自身科研绩效评价的一项佐证数据。科研机构可以利用使用统计数据评估机构的学术影响力和传播范围，还可以基于数据分析热点活跃的学科及主题，进行针对性的学科建设。使用统计数据还可以作为机构特色科学数据资源建设的依据；对于学术资助机构而言，国外许多机构，如美国自然科学基金会（NSF）、英国人文研究委员会（AHRC）等机构要求科研人员在项目中提交科学数据的仓储及管理计划，而科学数据的使用统计可以作为资助成果绩效评价的一个参考。

3.2科学数据使用统计流程

科学数据的使用统计并非简单的数字统计，而是一个完整的数据分析流程。它涵盖了数据准备、数据采集、数据清洗、数据规范化、数据分析及报告以及最终使用统计数据报告应用等一系列流程。数据和文献同作为科学研究的产出，在成果保存、传播及共享等方面有诸多相似之处，因而其使用统计在流程和方法上也类似。然则科学数据缺乏成熟共享的传播模式，加之其具备分布式仓储、表现粒度不一、缺乏统一描述及应用标准等特点，所以数据的使用统计也需具体情况具体分析。

3.2.1数据准备

数据采集的稳定性和可靠性关系到最终数据应用的效果。无论是数据引用、数据使用或者是数据的替代使用，都需要保证数据来源的可靠、稳定以及效率。数据的使用统计需要在以下方面进行准备。

首先是使用统计数据的可信度。数据中心、通用数据仓储以及机构数据仓储库，拥有较完善的数据提交审核机制，提供数据的元数据描述，还基于唯一数据标识符追溯数据来源，可以保证数据的稳定获取，是合适的使用数据来源。

其次是数据版本。区别于文献，数据具有多版本的特点。例如研究者提交一份数据后，后续新的研究对原有数据进行了增改删除，新的数据是原有数据的高级版本。此种情况下，数据的版本控制需要发挥作用。版本控制前需要明确一个问题，即同源数据不同版本是属于一个还是多个处理对象？现有的数据管理实践将科学数据的不同版本认定为原始数据的升级，作为同一个对象处理，同时保留数据的版本信息。例如UK DATA ACHIVE、Leicester大学的数据仓储实践。因而我们建议在数据命名上体现出版本信息，采用唯一标识符定位数据，跟踪数据保存位置，并在统计数据使用量时，将同源数据集的不同版本在不同平台上的使用量归一。此外我们也可借助版本控制工具，在数据库中对科学数据进行版本化，并基于算法和工具来追踪数据版本。

第三是数据粒度。汤森路透（Thomson Reuters）公司的数据引用索引DCI将科学数据粒度划分为三个层次：数据仓储，数据研究，数据集。数据仓储是数据的实际存储地，包含数据研究和数据集。数据研究是指某一项研究或者实验中产生的一系列关联的数据集合，通常包含若干数据集，可根据项目或主题分类。数据集是DCI中的最小单元。也有研究关注更细粒度的科学数据。如数据使用索引以文献数据作为基准，把科学数据统计粒度分两层：第一层是数据集，相当于期刊；第二层是数据集的记录，相当于期刊文章。

原则上，数据统计的粒度越细越好，然而在实际操作中，数据仓储范围太大，数据研究适用性较窄，数据记录则由于不同数据仓储或数据中心对数据记录的定义不一致，导致统计困难。目前科学数据的数字标识主要集中数据集层次，异构数据仓储中对于数据集的定义和描述相比更为统一，因而在数据集粒度层进行使用数据的统计更具有效率。

第四是數据标识符。持续独特的标识符可以永久保证一个数据集甚至是一条数据记录独立、唯一的位置，它在保证数据的可访问性以及重用性上有着非常重要的作用。同时在数据使用中，应用数字对象唯一标识符可以合并不同版本的同源数据使用以及同一数据在不同的数据仓储中的使用。目前国际范围内有多种数字对象标识符应用，如Digital Object Identifiers（DOIs），Archival Resource Keys（ARKs），Persistent Uniform Resource Locators（PURLs），Uniform Resource Names（URNs），Life Science Identifiers（LSIDs）等。其中DOI应用范围最广，也得到许多机构的承认。

3.2.2数据采集

仓储平台的两种主流使用数据采集方式是日志文件和页面标签。

日志文件记录了所有记录的原始使用情况，涵盖各种类型的访问，访问来源、响应情况、IP地址等，内容详细但琐碎。因而日志文件需要清洗和转换后才可作为使用统计来利用，转换过程中还涉及日志数据和统计标准对接的问题。日志数据可以直接在数据仓储平台下载，或借助协议自动、定时采集。下载方式直接简单，但面对多个平台使用日志时，用户或者机构需要手动搜集、保存和整理使用日志，这样的方式复杂、低效。协议收割方式可以解决多平台数据自动采集和统一处理，是最理想的数据收集方式。

页面标签方法是在每一个页面上使用JavaScript，当页面被浏览器访问时，JavaScript将通知第三方服务进行统计。

这两种数据采集方式各有长短。日志统计方式不需要额外改造网站和查询DNS，因而不会增加服务器的负担，但其数据噪音大，无法直接去除无效访问和网络爬虫访问等；页面标签方式在数据噪音处理上优于日志，日渐成为网络分析的一个标准。它允许第三方服务访问网络服务器，以页面激活打开作为计数，并非以请求作为依据，可排除未响应请求和爬虫请求，但是其不能追踪下载完成事件和搜索引擎蜘蛛，对服务器负担大。

科学数据的使用统计具有跨平台、海量的特点，在内容丰富化，实时性和标准化上有较高的要求。因而经过标准化清洗并且可以自动收割的日志方式是优秀的解决方案。标准化清洗可基于标准进行，自动收割则需要标准化的数据交换和采集协议。SUSHI（Standardized Usage StatisticsHarvesting Initiative，标准化使用统计收割协议）是由NISO发起的项目。它是一个请求数据的网络服务模型，可以实现通过一个XML框架将使用数据在不同的系统中自动传递。SUSHI协议解决了符合COUNTER规范的使用统计报告自动收集及跨平台双向传递的问题。但是国外的实践也只是解决了SUSHI自动收集符合COUNTER规范数据的问题。

3.2.3数据规范

使用统计的最大障碍在于缺乏对下载、浏览等统计的标准。只有规范化的数据，才能相互比较并发现资源的价值。

在线电子资源使用统计（Counting Online Usage ofNetwork Electronic Resources，COUNTER）是规范电子资源使用统计报告数据处理、审核和提交的国际化标准，于2002年由高校、出版界和中间商共同发起，其统计报告解决了使用统计数据的统计标准和格式的一致性问题，并对数据库、电子期刊、电子图书和参考文献的统计格式分别进行了规定。目前已经被数十个数据库商所支持，还有多个基于COUNTER标准的使用数据分析平台。科学数据的使用统计缺乏规范，鉴于文献和数据的同源性，部分研究实践尝试利用COUNTER标准规范科学数据的使用统计。例如JISC的数据计量项目与IRUS-UK合作尝试基于COUNTER统计数据集使用；Making Data Count项目组对150000个数据集进行了COUNTER规范的统计实验；NISO的替代计量指标小组的报告中建议基于COUNTER标准并考虑特殊情况对科学数据使用进行统计。

科学数据使用统计借鉴COUNTER规范益处良多。首先它可以利用COUNTER标准在数据清洗、数据标准化、数据审核、标准化报告格式方面的丰富经验。其次，SUSHI和COUNTER已经建立了一套完整的数据交换方式，基于两个规范可以实现标准化使用数据的自动收集。

但是COUNTER标准应用于科学数据还存在一些问题。如COUNTER标准中未定义科学数据资源类型，所以没有对应的使用统计报告；COUNTER对机器自动获取的数据实行完全过滤，这在科学数据使用统计中不可取。

3.2.4数据清洗

通过日志或页面标签方式获取原始的使用数据后，我们需要清洗和处理数据。这些处理包括对数据分类、识别有效的使用等。

数据分类主要是对数据使用的用户分类，可以参照IP地址、机构用户、个人注册用户等类型对使用数据分类。

在COUNTER规范中，使用数据的有效计数有严格规定，如只计算成功和有效的请求、HTML格式链接上间隔不足lOs的双击只计数一次、PDF格式链接上不足30s的双击只计数一次等。但是COUNTER规范并非完美。如COUNTER并未定义检索行为是服务器端响应还是用户端实际接收完整结果。但实际操作中多数以服务器端响应来进行统计，未考虑用户是否成功接收到数据，也未明确定义服务器端会话不完整和用户自行点击取消下载情况如何计数。

科学数据的使用与电子资源使用有一明显区别，即利用APIs或者爬虫等所产生的使用应计入科学数据的使用统计。COUNTER针对电子资源使用，专门提供一个附录记录已知的集成和自动搜索引擎列表以及网络机器人、网络爬虫、网页、爬虫等列表，并在头标区中设有参数来排除非人下载以及消除同一个机器的重复下载。这并不适合科学数据的使用统计。因而NISO建议采用两种方式统计科学数据下载，一种針对人类使用，另一种包括合法的机器访问和下载，可以通过白名单的方式，保存合法的机器访问数据。

3.2.5数据分析和报告

收集、清洗和规范化使用数据，其最终是为了分析数据，以帮助科学数据提供和使用的各方来评价科学数据的效果和价值。

基于数据集的使用统计数据，科学数据使用统计报告可从数据仓储、数据研究以及数据集三个维度展示。表2参考COUNTER规范，结合科学数据存储和使用方式，大致对科学数据的使用数据报告的内容和字段进行说明。

4思考与建议

4.1重视对科学数据使用统计

随着科学数据共享和开放程度提高，科学数据的使用绩效评估日渐受到重视。鉴于引用在学术评价中正的重要地位，科学数据引用的机制、行为、规范等内容得到广泛关注。而科学数据使用统计作为第一手评价数据，关注明显少于引用。

事实上，使用统计数据比引用数据更容易获取，有广泛的基础数据来源。一手的使用统计可以直观了解数据资源使用情况、追踪和分析用户使用行为、检验科学数据仓储商的服务品质，还能够快速反映出科学数据领域内的研究热点，甚至可以基于使用数据来测量学者的学术影响力。已有多个学者研究发现学术资源下载和引用问存在很强的正关联。因此科学数据仓储平台、研究机构、科研资助机构以及研究者都要重视科学数据使用统计。

科学数据仓储平台应该积极探索、解决科学数据使用统计实际操作过程中的技术问题，例如为科学数据分配机器可读的永久标识符、创建科学数据的登录页面、使用数据下载接口提供等，并且致力于为用户提供基于标准（例如COUNTER）的使用数据报告，多角度、多层次的分析用户使用行为。

科研资助机构和大学等学术机构应该积极鼓励研究者制定详细的科研数据管理计划，并鼓励他们将科学数据保存到合适的数据仓储库中。同时，学术机构可以考虑将数据使用统计引入到学术绩效评价或职业奖励结构体系中，这样有助于使数据共享与数据发布成为学者常规工作中的重要活动，激励数据共享。

科研人员应该重视科研数据的长期保存，建立良好的数据管理计划，共享科学数据，主动利用科学数据使用统计，积极从中寻找合作机会。

4.2科学数据使用统计标准建设

只有遵循规范，才能产生一致性的数据，才能合理分析数据。现行背景下尚未有专门的科学数据使用统计标准，这是使用统计应用过程中的最大障碍。标准的制定是一个复杂的过程，它需要多方参与，并且可以用于指导实践。COUNTER标准是一个成熟的学术电子资源使用统计规范，其在使用数据收集、清洗等处理过程、标准化的统计报告的经验和大量数据库商与图书馆推动的COUNTER实践都能够在科学数据使用统计应用过程中提供有力指导。

我们建议标准制定机构、科学数据仓储平台及科研资助机构通力合作，以COUNTER规范为基础蓝本，结合科学数据使用的独有特点，制定合适科学数据的COUNTER报告规范。科学数据仓储平台也可以自主探索并实践新的科学数据使用规范。同时需要将数据仓储商纳入到SUSHI注册商体系内，确保可以基于SUSHI协议自动传递标准化的科学数据使用统计报告。

4.3建设统计平台

使用统计平台是一站式的收集、集成、浏览、下载、保存及分析利用数字资源使用统计数据门户。借助SUSHI协议，统计分析平台定期从不同的数据仓储平台中自动收集标准化的使用统计数据，并整合数据。统计平台可以对统计数据长期保存，即使源数据已经被删除。基于标准化的报告，统计平台为科学数据使用中参与各方提供丰富数据报表，例如仓储库访问的年、月度变化，国家下载排名、机构下载排名、热点学科科学数据下载排名等。

目前已经有使用数据统计平台在尝试科学数据使用计量分析。IRUSdata-UK是代表之一。IRUS-UK是JISC资助的国际服务，为机构提供机构仓储内容的使用统计，并提供基于COUNTER标准的可对比统计报告。IRUSdata-UK项目是IRSU-UK项目基础上针对科学数据集的使用统计数据分析项目。该项目与UK Data Service等15个科学数据仓储（类型涵盖EPrints，DSpace和Fedora等）合作，利用仓储自身后台日志文件，统计数据集级别的科学数据下载，基于COUNTER标准，过滤噪音内容（多重点击、不完全下载、网络机器人反复随机下载链接等），最后分析使用绩效。

尽管目前国内并未有科学数据的使用统计平台实践，但国内已经有基础数据的整合平台，如基础科学数据共享网等。建议由图书馆或数据出版商推动研制专门的科学数据资源使用统计平台，基于出版商提供的符合COUNTER规范的使用统计数据，侧重数字资源使用数据的收集、集成和分析。

4.4图书馆积极参与科研数据影响评价

一直以来，图书馆是科学数据管理及共享的积极推动者和实践者。尤其是高校图书馆和研究型图书馆。它们创建机构存储库对科研数据长期保存，帮助科研人员制定数据管理计划，参与科学数据共享规范的研究，帮助学校或机构创建科研数据管理政策，与出版社一道推动数据出版实践，可以说，图书馆是科学数据管理领域的先驱者和重要贡献者。

参与科学数据影响评价实践也是图书馆参与数据管理的重要方向。一方面，图书馆应继续推动科学数据共享及重用理念的传播，为学校或者机构的科研人员提供数据管理相关服务，例如提供科学数据长期保存、元数据规范、数据工作流管理等。另一方面，图书馆可以多方式参与到科学数据影响评价过程中。图书馆可以积极推动学校或机构的决策层将科学数据使用纳入科研学术的绩效评估体系，并提供相应的科学数据使用计量数据；提供科学数据机构仓储的图书馆可以尝试基于COUNTER规范提供科学数据使用统计分析报告；图书馆还可以参与数据使用统计标准规范的制定和测试过程。

5结语

在未来的时间里，科学数据的影响绩效评估将会变得愈发重要。全面综合的科学数据计绩效评估，不应仅仅将数据引用作为考量标准，科学数据使用统计和替代计量也应纳入考核的数据支撑。科学数据的使用统计应用的主要障碍在于数据采集和数据标准化。而建立一个长效、规范化、多层次的科学数据使用统计体系，需要科学数据仓储平台、科研机构、科研资助机构、科研工作者、图书馆、标准制定机构各方的积极参与及合作。