科研人员数据重用现状研究
——以管理学期刊论文为例
2021-03-09张若晗
张若晗
(黑龙江大学 信息管理学院,黑龙江 哈尔滨 150080)
1 调研目的
科学数据的共享和重用近年来开始蓬勃发展,政府机关、学术机构与期刊出版商纷纷鼓励科研人员共享科学数据,但是数据共享的操作流程繁复,会耗费数据共享者的时间和精力,数据的引用标准尚未规范,数据重用者在利用二手数据进行科学研究中也遇到一些障碍。本研究探讨管理学领域科研人员的数据重用现状,为促进科学数据的发布和再利用提供建议,支持科学数据的长足发展。
2 调研对象
为了保证样本论文的质量,根据CNKI数据库学科期刊导航提供的期刊影响因子数据,本研究选取国内管理学领域影响因子排名较高的4种期刊,分别为《管理世界》《公共管理学报》《管理科学》《管理学报》,这些期刊在管理学领域具有较大的影响力,对稿件的数据使用规范性要求较高,有利于提高本文统计分析结果的可信性。为了更好地体现管理学实证研究中数据重用的现状,选择2010年~2019年刊载的期刊论文,通过中国知网检索主题为“数据”的文献,共检索到论文492篇,去除其中编辑寄语、会议报道、简讯等文献后,最终共获取467篇样本。具体样本的分布,如图1所示。
图1 样本期刊论文分布情况
3 数据处理方法
为了便于样本统计,通过内容分析法对上述467篇文献的科学数据重用行为进行识别与标注。由于数据引用尚未有可靠的机器标识方法,主要通过人工识别的方式。笔者对文章中有关数据来源的说明性文字等也进行了标注,一般常见的表达方式是“数据说明”或“数据来源”“变量与数据”等。借助Excel对收集的数据进行批量分析与处理,具体统计的内容包括5个方面,分别是:①数据是否重用,包括样本数据重用的比例;②数据来源类型;③数据评估判据;④数据获取障碍;⑤数据处理方式。
4 依据和说明
对上述5个方面的内容进行识别,其中论文内未涉及的部分识别为空值,并在此基础上计算了每一篇有数据重用的文献的重用规范程度,具体详见表1。
表1 统计内容具体细分及示例
4.1 数据是否重用
此类目根据数据重用的定义确定,指的是论文的主体部分是否应用二手数据对新的研究问题进行研究,有重用取值1,无重用取值0。
4.2 数据来源类型
统计不同数据来源类型出现的次数,由于同一篇文章会存在各种类型数据同时使用的情况,每一种类型都进行统计,但同一篇文章内同类型数据只统计一次。此类目用来反映数据重用者的数据来源类型使用偏好。
4.3 数据评估判据
数据评估判据指的是数据重用者对数据评估时有哪些判断依据,本研究将数据质量的评估判据归纳为:完整性、可获得性、适用性、准确性。
4.4 数据获取障碍
数据获取障碍反映科研人员在搜集各类数据时存在的障碍,具体细分为:可获得性受到限制、数据缺失、定义模糊、数据异常。
4.5 数据处理方式
数据处理方式体现科研人员根据具体情况对缺陷数据处理方式的差异。本研究具体分为剔除、匹配合并、调整、补充4个方面。
5 调研数据分析
2010年~2019年管理学领域4本期刊的数据重用论文数317篇,占总论文数的67.9%,说明管理学科研人员的数据重用占实证研究的比重较大,数据重用现象较为普遍。具体统计结果如表2,仅有8篇文章未明确表明数据来源类型,说明大部分数据重用文章会标明数据来源;有165篇文章未标明评估数据时有哪些判断依据占比较高;有141篇没有标明数据获取遇到的障碍以及147篇文章没有提及对于二手数据的处理方式。可见,在重用数据时,数据来源是管理学科研人员在文章中几乎都会交代的要素,对于如何评估数据、获取数据的障碍以及如何处理数据等问题关注较少。
表2 具体统计结果
5.1 数据来源类型的偏好分析
管理学科研人员使用的数据主要来源于政府数据(37%)、数据库数据(26%)和网络数据(14%),其中政府数据比重最大,大多来自统计年鉴,主要由国家统计局进行收集,规范性强。其次,占比较大的是数据库数据,通过调研可知,管理学科研人员使用微观数据库作为数据来源的情况较为普遍。政府数据和数据库数据统计结果较为可靠,并且统计数量较大,特别是微观数据库代表性高、针对性强,对数据的收集和存储更加细化,受到科研人员的青睐。公共服务部门、政府机关在一定情况下会公开发布调查研究所得的相关数据,大数据环境下互联网平台为各个来源的科学数据传播提供了新渠道,提高了科学数据的多渠道获取。网络数据主要由于获取较为便利,科研人员可以通过网络爬虫有针对性地搜集数据。科研项目与论文数据(6%)主要是为特定的研究目的进行的数据收集,有特定的情境,适用性有限。档案馆的开放程度较低,其科学数据的易获取性较弱,并且档案数据有些属于非公开文件,一般作为补充数据,单独使用情况较少。详细数据来源类型分布,如图2所示。
图2 数据来源类型
5.2 数据评估判据
从调研数据看,管理学科研人员者评估数据主要关注数据的适用性(37%),原始数据一般是由数据生产者在研究过程中收集的,数据重用者在使用数据时会考虑数据是否适用于自己的研究内容,而且一般会选取具有代表性的数据,所以关注度较高。数据的完整性、数据覆盖是否全面对于研究者也十分重要。另外,科研人员会倾向于使用数量多、时间跨度大、地域跨度大的数据,数据的准确性也是科研人员在评估数据时的标准,使用的数据准确与否对研究结果有直接影响。数据可得性也在评估时有提及,尽管占比(15%)比较低,但这也是数据重用的前提。
5.3 数据获取障碍
数据获取最大的障碍因素是数据缺失(43%)。数据缺失一般由于一些原因产生空缺,对研究者获取数据产生了一定程度的限制。数据由于误差因素导致的数据异常也成为研究者获取数据的另一大限制 (29%)。数据的可获得性既作为数据评估的一个标准,也是数据获取的障碍。另外,原始数据中对于数据定义模糊,导致重用者不能准确理解数据,也造成一定的障碍,但是占比较小(11%)。
图3 数据评估判据
图4 数据获取障碍
5.4 数据处理方式
通过调研分析,剔除成为管理学科研人员处理数据的主要解决方式。因为在数据处理中,对于缺失或者不可获得的数据来说,剔除最为简便,并且一般研究使用的数据量较大,剔除少数变量对研究结果影响不大。对于数据异常的情况,剔除相对容易。但是,每个研究的内容不同,数据处理方式也有差别,例如:将数据整理后匹配合并,或者用其他数据源进行补充、调整。
图5 数据处理方式
6 调研结果
研究结果显示,重用论文有317篇,占总论文数的67.9%,重用情况较为普遍说明管理学科学研究对数据的依赖程度较高。本研究主要从数据是否重用、数据来源类型、数据评估判据、数据获取障碍、数据处理方式5个方面具体分析管理学科研人员的数据重用特征。
在数据来源方面,本研究的结果与沈婷婷(2016)对社会学研究者二手数据利用行为分析的结果一致,几乎全部的作者都对数据来源进行明确标注。管理学科研人员较常使用来自大型数据库与政府部门的资料,Zhang(2011)之处使用过SDSS数据库(天文领域)的200篇论文中,其中有51.9%是来自公开的数据库,这样的研究结果与本研究的调研结果大致相符。
在数据评估评估方面,管理学科研人员在重用数据时,会受数据的完整性、可获得性、适用性、准确性等因素影响。例如,在完整性方面,会考虑调查问卷题项的丰富程度,或者数据的缺失情况是否影响研究内容;在可获得性方面,作者在选择具备相同条件数据时,会优先考虑方便取得或免费获得的数据;在适用性方面,会观察收集数据的方法是否符合自己的研究,题项的设计、问题是否吻合;在准确性方面,作者会观察资料内容与题项设计是否吻合,或者通过统计方式检测数据的信效度。此外,对于部分科研人员来说,数据的时间跨度和时效性也是非常重要的。
在数据处理方面,与Rolland和Lee(2013)的研究结果类似,本研究的管理学科研人员同样会对数据进行清理,多数采用剔除缺失数据和异常的数据变为可用的状态,在缺失数据时,会视情况匹配整合,或者用替代数据进行补充。
但从调研情况来看,仍存在一些不规范之处,在数据使用方面还有较大提升空间。调查发现,大多数作者在引用数据库数据与图表数据时,仅对数据来源在文中做描述性标注或者列出部分引用元素,这种数据重用行为使读者难以通过查阅数据引文来定位原始数据,阻碍了数据的传播与再利用。