APP下载

教育领域科研数据复用的现实图景与发展建议

2024-11-03魏小贞李澜涛

科技资讯 2024年19期

摘要:教育领域近十年来的实证论文占比明显上升;教育领域数据复用比例略低于管理学领域和经济学领域,但领先于社会科学整体水平。在分析教育领域实证研究范式整体趋势基础上,从数据复用基本情况、复用数据来源,以及对复用数据的评估、处理和引用等角度,描绘实证研究范式下教育领域数据复用的现实图景,为多学科交叉印证社会科学科研人员数据复用规律提供参考,为图书情报机构数据服务和科研数据管理政策制定提供参照。

关键词:教育领域科学数据数据管理数据复用

中图分类号:G203文献标志码:A

CurrentSituationandDevelopmentSuggestionofDataReuseinEducationField

WEIXiaozhenLILantao

(1.HebeiUniversityofEconomicsandBusiness,InternationalExchangeCenter;Shijiazhuang,HebeiProvince,050061China;2.CapitalNormalUniversity,CollegeofEducation;Beijing,100048China)

Abstract:Theproportionofempiricalpaperineducationresearchhasincreasedsignificantlyinthepastdecade.Datareuseineducationdisciplinesisslightlylowerthanmanagementscienceandeconomics,butaheadofthesocialscience’averagelevel.Basedontheanalysisoftheoveralltrendofempiricalresearchintheeducationfield,thepapertriestoexplorethecharacteristicsofresearchers’datareusebehaviors,toprovidereferenceforthemultidisciplinarycross-evidenceofsocialscienceresearchers’datareusepatterns,researcherdatamanagementpolicies’formulationandlibraries’dataservices.

KeyWords:Educationfield;Scientificdata;Datamanagement;Datareuse

随着信息技术的迅速发展,世界已进入大数据时代,基于数据的研究与决策已成为国际教育研究与教育决策的基本趋势。数据复用(DataReuse)也译作“数据重用”或“数据再利用”,指的是科研人员为了新的研究目的对数据的二次使用,即科研人员利用由其他机构、个人调查或实验产生的数据开展进一步的研究[1]。2018年3月,国务院办公厅印发的《科学数据管理办法》指出,“科学数据使用者应遵守知识产权相关规定,在论文发表、专利申请、专著出版等工作中注明所使用和参考引用的科学数据[2]。”自然科学领域的知识突破需要大量数据,故不同研究团队必须共享珍贵研究数据,例如,生命科学、基因学、地球科学、天文学、物理学等领域的数据复用较为普遍。对社会科学而言,无论量化或质性研究,均须仰赖对数据的分析来描述现象和解释成因,进而提出研究结论或形成理论。

1文献综述与研究设计

在人类对知识的追求和探索中,产生了思辨研究和实证研究的历史分野[3]。近年来,对于教育研究的范式分类也逐渐趋近于思辨与实证两大类。实证又包括定量研究、定性研究和混合研究,这3种研究方法都离不开数据的支持,一手数据和复用数据均是实证研究的重要数据来源,对数据复用的把握必须从了解教育领域实证研究的整体情况入手。此前,已有学者关注到教育研究范式,围绕其变化趋势进行了统计和讨论。郑日昌等人[4]通过对1981—1998年间我国教育研究范式的研究指出,1981—1998年间,定性研究在整个教育研究中占有重要地位,定量研究逐步受到重视。姚计海等人[5]抽取2001—2011年期间《教育研究》《教育研究与实验》《教育发展研究》《教育科学》和《华东师范大学学报(教育科学版)》5种综合类期刊文章样本1073篇,探讨发现该时段思辨研究是我国教育研究领域的主要方法,但量化研究呈现逐年上升趋势,实证论文占比约为12%左右,这是我国较早的关于教育研究方法运用情况的综合分析。在对国际期刊教育研究范式的研究方面,HUTCHINSONSR等人[6]和WELLSRS等人[7]分别对1996—2000年和2006—2010年的《高等教育杂志(TheJournalofHigherEducation)》《高等教育研究(ResearchinHigherEducation)》《高等教育评论(ReviewofHigherEducation)》这3本期刊的文章进行比较,发现定量研究一直是该领域的主导研究方法,并且中高级统计技术被越来越多地使用。王树涛等人[8]以2010—2019年国际教育科学领域10本代表性SSCI期刊的同行评议文章为研究对象,探讨发现实证研究处于国际教育科学研究的主导地位,近十年来,量化研究、质性研究等实证研究占样本期刊的70.29%并仍有上升,而思辨研究仅占20.12%且有所下降。也有学者对我国教育科学具体领域的研究方法进行分析,如高等教育[9]、职业教育[10]和中外教师教育[11]等领域,研究结果趋于一致,即国外期刊以实证研究为主,国内期刊则以思辨研究为主,但国内的量化和质性等实证研究呈现逐渐增多趋势。

基于上述研究背景,本研究将延续前人研究,在厘清2012—2021年教育研究领域实证研究趋势基础上,分析教育领域与其他社会科学领域数据复用情况有无学科差异,同时了解教育领域实证研究中复用数据的主要来源,以及教育领域科研人员对数据的评估、处理和引用情况。

结合研究的连续性和研究成果发表的时滞性,在咨询教育研究领域专业学者及综合考虑期刊影响力基础上,本研究选取2012—2021年《教育研究》《华东师范大学学报(教育科学版)》《高等教育研究》《清华大学教育研究》《课程·教材·教法》全部刊载文献9201篇为研究对象,窥探我国教育研究领域实证研究现状及趋势。这5种期刊是国内教育领域具有代表性的学术刊物,以此作为数据统计分析源具有较强的代表性,在一定程度上能反映我国教育领域科学研究的现状、水平和趋势。在清查论文时,主要通过人工辨识的方法,排除非研究性文章(如书目推介、丛书介绍、书评、寄语、启事、会议通知、投稿须知等),再去除非实证论文(如阅读札记、概念研究、年会综述、思辨审思文章及未采用实证数据印证者),只保留实证论文,最终获得1398篇实证论文。

2教育领域实证研究整体趋势

表1为5种期刊十年间实证论文载文占比情况。数据显示,在刊期不变情况下,教育期刊近十年载文量呈逐渐下降趋势,这一结论与李祖超等人[12]的研究一致。《华东师范大学学报(教育科学版)》载文量变动较大,因其在2017年由季刊转为双月刊,2020年由双月刊转为月刊。故用实证论文占期刊载文量的比例反映实证论文发文趋势更为客观合理。

在姚计海等人[5]的研究中,2001—2011年,我国教育类期刊中实证研究占比约为12.3%,思辨研究方法占87.7%且使用呈下降趋势。对比表1可知,2012—2021年,教育领域实证论文占比总趋势已由12.79%升至15.19%,呈明显上升趋势,但与国际教育研究中70.29%的实证研究占比相比还有较大差距[7]。其中,《华东师范大学学报(教育科学版)》增速最为显著,最大值在2020年,实证论文占比42.11%,近十年平均占比为29.21%;《清华大学教育研究》实证论文占比长期高于均值,最大值在2016年,实证论文占比34.78%,近十年平均占比为22.38%;《教育研究》和《高等教育研究》均接近均值15%。可以看出,上述五5种教育研究期刊中,实证研究论文的占比不同,尽管总体来看实证研究论文占比在上升,尤其是《华东师范大学学报(教育科学版)》增速迅猛,但就整体而言,实证论文占比数量上下波动并没有明显的规律,期刊对是否采用实证研究没有明确的要求。

从图1趋势图可以看出,2012—2021年十年间,《教育研究》实证论文占比趋势与平均水平最为接近,同时也是我国最具代表性的综合性教育理论权威学术刊物之一,故本研究选取《教育研究》为数据复用研究来源,以2012—2021年期刊刊载文献为基础,分析教育领域科研人员数据复用状况。

3教育领域数据复用的现实图景

3.1数据复用基本情况

2012—2021年,《教育研究》共刊发实证研究论文389篇,其中,215篇复用论文,占全部实证论文的55.27%。从表2各年度复用论文占实证论文的比例来看,复用论文占比从2012年的46.34%上升到2021年的74.36%,整体呈上升趋势,说明教育领域科研人员数据复用已成为实证研究的普遍现象,并呈现稳定状态。与已有研究对比,2017—2019年间,教育研究领域数据复用论文占实证论文比例的平均水平(58.22%)略低于管理学领域(74.16%)[13]和经济学领域(79.6%)[14],但领先于社会科学整体水平。另外,从数据复用类型看,量化数据的占比高达64.19%(138篇),质性数据占比仅为26.51%(57篇),还有9.3%(20篇)的研究既使用了量化数据,也使用了质性数据。

3.2复用数据来源分析

复用数据来源用以反映数据复用者的数据来源类型使用偏好。按照数据收集汇编的来源组织,数据来源划分为政府部门与组织、国际组织、高等学校与科研机构、商业数据库、个别研究者、网络和其他等类别。一篇论文若同时使用不同来源的数据,则识别并分别记录每个类别;若其同时使用多个同类型的数据来源,不作重复识别。在所有复用论文数据来源中,来自政府部门的数据占比最高(47.44%),高等学校及科研机构(占比37.21%)、国际组织(占比25.11%)和商业数据库(占比21.39%)次之。

政府部门类别中,以中国人口普查数据、各级各类统计年鉴和统计资料数据、各级各类教育政策文本,以及来自教育部、财政部、留学基金委、国家统计局、卫健委等各部委的数据为主,如《中国统计年鉴》《中国教育统计年鉴》等。来自高等院校及科研机构的复用数据占比37.21%,远远大于管理学领域的6%,具体数据包括中国教育追踪调查(ChinaEducationPanelSurvey,CEPS)、中国综合社会调查(ChineseGeneralSocialSurvey,CGSS)、中国家庭追踪调查(ChinaFamilyPanelStudies,CFPS)、中国大学生学习与发展追踪研究调查(ChinaCollegeStudentSurvey,CCSS)、中国家庭收入调查(ChineseHouseholdIncomeProjectSurvey,CHIPS)等大型调查数据,高等院校和科研机构是我国社会科学调查的主要执行力量。教育领域复用的国际组织数据以来自经合组织、教科文组织和世界银行的数据为主,如经合组织的国际学术测评项目(ProgrammeforInternationalStudentAssessment,PISA)、教师教学国际调查(TeachingandLearningInternationalSurvey,TALIS)等。商业数据库以国内外各类数据库为主,如知网、中经网、德温特专利数据库、WOS、SCOPUS等数据库。来自互联网和个别研究者的数据比例最低,互联网数据有学信网、各门户网站等,以先前个别研究进行衍生的原创分析在整体样本中只占3.72%。

数据复用的主要理由多是因为研究主题需要宏观层级、大规模且个人无力能及的数据资料,宏观视角的实证研究对数据复用的依赖程度较高。研究主题偏向宏观现象,取用外部数据就可能是必要且唯一的研究途径。因社科领域的个别研究者的数据一般有其特定问题意识和时空情境,故复用效用较低。多类别的数据来源为教育领域科研人员针对教育现象和教育问题开展不同视角不同层次的研究提供了可能。

3.3数据复用前的评估

数据评估指的是研究者在选择复用数据时有哪些判断依据,借鉴现有研究的处理方式[13-14],将其划分为可得性、适用性、代表性、数据质量、国际可比性、权威性、数据量和其他。获取障碍反映各类数据存在的缺陷或获取障碍,如可得性受限、数据缺失、匹配混乱、数据平衡性差或其他。

从数据评估看,教育领域科研人员评估数据主要评估数据的适用性(55.09%)、代表性(31.02%),可得性(15.74%)、国际可比性(13.89%)、数据量(8.8%)、权威性(7.87%)等,也有部分论文未作评判(19.91%)。数据可以来自各种公开的统计文献,可以来自研究者本人的调查,或者来自教育实验。但在将数据作为论据时,应认真评估数据的可靠性及数据对研究问题的有效性。国际可比性这一指标反映了全球化背景下教育领域科研人员对本国、国别与国际数据的需求。

从数据获取障碍看,数据获取最大的障碍因素是数据缺失(48.4%)、可得性受限(25.7%)和匹配混乱(18.8%)。数据缺失和匹配混乱体现了对数据质量的要求,可得性受限体现了对数据获取渠道的要求。

3.4对复用数据的处理和引用

数据处理指科研人员在使用数据之前对复用数据的处理,如筛选、补充、校正、合并和匹配等。数据引用主要指研究者以参考文献、脚注或文中注等方式对引用的数据内容和来源出处进行参考标注的信息行为,按照数据引用方式,其分为四大类:一是在正文中进行数据说明或通过表下注释、文后注释等加以注释;二是以文后参考文献形式引用;三是文中、文后相结合;四是以标准引用格式,按照《科学数据引用》国家标准引用。

研究者对复用数据的处理行为位居首位的是筛选,其次为校正、补充、合并和匹配。在数据引用方式上,正文说明或加注释的形式最为普遍(84.72%),其次为文中、文后相结合(9.26%),尚未有标准引用格式,此外也有部分文章无引用说明(5.56%)。学者在调研期刊论文科学数据引用时发现,管理学、经济学、社会学和图书情报领域的规范引用比率逐年提高,但非规范引用情况仍然明显[15]。与其他学科领域数据引用行为相比,教育研究领域无引用行为占比较低,但也存在标注方式多样化缺乏规范性的现象。

4教育领域数据复用的发展建议

4.1加强平台建设,完善科研数据管理

我国尚未形成健全的科研数据政策保障体系[16],亟待建立覆盖数据创建、数据保存、数据访问、数据利用、数据共享、数据处理、数据迁移和数据安全等整个数据生命周期,关涉不同学科领域的科研数据管理政策体系。同时,构建社会科学数据共享平台,应在遵循科研数据管理FAIR原则[17]基础上,兼顾国内数据与国际数据、宏观数据与微观数据、量化数据与质性数据的采集,不仅要明确描述科研数据的元数据属性,还应揭示数据的评估、获取和引用信息,重视国际可比性。半个世纪以来,经合组织正是凭借其一系列国际教育调查项目和对国际可比教育指标的研发获得了对其涉足教育领域合法性和必要性的认可[18]。我国各数据共享平台应积极参与国际项目,同时应积极开展评估认证工作,如CoreTrustSeal核心认证、ISO27001最高国际安全标准认证等,以提高平台的影响力和可信赖性。

4.2正确认识数据,提升数据素养

数据是实证研究的基础,不同的数据集有不同的调查对象、调查内容、调查起始时间、调查频率、覆盖范围和不同的调查模式。为了发表高水平学术论文,做深入教育科学研究,研究者应了解不同数据来源的特性,清楚自己的研究和数据及变量之间的关联,能够根据自己的研究问题和需求对数据进行再利用。同时,在倡导教育实证研究的同时,不应弱化或抛弃教育思辨研究。量化的数据通常局限于“是什么”的解释,但很少能够洞察“如何”“为什么”[19]。尤其在教育领域,有时数据无法揭示所有情况,有时数据不易采集,例如,表达学习者创造力的数据综合使用量化和质性数据,可能会产生更稳健和有效的研究结果。此外,数据共享是助力科学研究高度协作、开放获取、研究透明的重要途径。目前,国际科学数据开放共享氛围日益成熟,国内科学数据管理逐渐规范,科研数据共享正逐步成为学界趋势。从样本数据看,教育领域科研人员对复用数据缺乏明确、统一的引用规范,不同作者的引用形式差别较大,教育研究领域科研人员应提升数据共享和规范引用意识。

4.3优化资源建设,加强科学数据服务

教育领域科研人员使用的复用数据主要来自政府部门及组织、高等学校、科研机构、国际组织和商业数据库等,图情机构可根据学科特点配置相应的数字资源,加强对统计年鉴、事实数据类资源的购置。为了应对跨国别和跨学科的研究需求,当前信息素养培训应拓宽培训内容,为科研人员打开数据视野、提高数据素养提供有力支持。为满足研究人员日益增长的数据复用需求,科学数据服务已成为图书馆服务的新领域,高校图书馆在科学数据管理和服务方面发挥着重要作用[20]。高校图书馆现有服务有:为研究人员介绍管理、保存和共享研究数据的原因及价值;帮助研究者了解如何管理他们的研究数据,如编写数据管理计划、文件格式和转换、文档和元数据、数据存储和安全、数据保护和访问,研究数据共享;为研究者推荐所需的数据管理工具和资源,包括开放的研究数据平台和课程;为研究者培训统计分析相关的技能,如SPSS、SAS、STATA、R、NVIVO和Atlas.ti等;通过选择、组织和提供与研究相关的数据,支持科学研究,尤其跨学科研究等。针对以上内容,哈佛大学图书馆、剑桥大学图书馆、康奈尔大学图书馆、麻省理工学院图书馆和加拿大图书馆等已经在不同方面展开了大量工作[21]。国内科研活动中的数据大部分分散在课题组或研究者手中,一些高价值科研数据未能得到充分利用,目前只有北京大学、武汉大学、复旦大学图书馆等少数高校图书馆明确开展了数据服务,我国高校图书馆在科学数据服务方面还有很大改进空间。

5结语

本研究采用逐篇检视、全面清查的方式,在分析教育领域实证研究整体趋势基础上,从数据复用基本情况、数据复用来源,以及对复用数据的评估、处理和引用等角度,描绘实证研究范式下教育领域数据复用的现实图景。教育领域科研人员数据复用已成为实证研究的普遍现象,不同学科领域数据复用规律有较大差异。为扩展教育学科领域研究的更多可能性,政府部门应完善科研数据管理、加强数据共享平台建设,科研人员应提升数据素养,图书情报机构应按照学科特点优化数字资源建设、提供针对性的数据素养培训和科学数据服务。

参考文献

  • 孙玉伟,成颖,谢娟.科研人员数据复用行为研究:系统综述与元综合[J].中国图书馆学报,2019,45(3):110-130.
  • 国务院.科学数据管理办法[EB/OL].(2018-04-02)[2023-06-27].http://www.gov.cn/zhengce/content/2018-04/02/content_5279272.htm.

[3]王卫华.教育思辨研究与教育实证研究:从分野到共生[J].教育研究,2019,40(9):139-148.

[4]郑日昌,崔丽霞.二十年来我国教育研究方法的回顾与反思[J].教育研究,2001(6):17-21.

[5]姚计海,王喜雪.近十年来我国教育研究方法的分析与反思[J].教育研究,2013,34(3):20-24,73.

[6]HUTCHINSONSR,LOVELLCD.Areviewofmethodologicalcharacteristicsofresearchpublishedinkeyjournalsinhighereducation:implicationsforgraduateresearchtraining[J].ResearchinHigherEducation,2004,45(4):383-403.

[7]WELLSRS,KOLEKEA,ELIZABETHA,etal.“Howweknowwhatweknow”:Asystematiccomparisonofresearchmethodsemployedinhighereducationjournals,1996-2000v.2006-2010[J].JournalofHigherEducation,2015,86(2):171-198.

[8]王树涛,顾建民.国际教育科学研究范式的演变与趋势:基于2010—2019年文献计量的分析[J].教育研究,2020,41(9):135-145.

[9]陆根书,刘萍,陈晨,等.中外教育研究方法比较:基于国内外九种教育研究期刊的实证分析[J].高等教育研究,2016,37(10):55-65.

[10]张慧,查强.我国职业教育研究方法之研究:基于2012—2017年CSSCI期刊文献的计量分析[J].高等工程教育研究,2018(3):186-195.

[11]王晶莹,弋草,尚巧巧.中外教师教育研究方法的比较研究:基于国内外十本教师教育期刊的文本分析[J].外国中小学教育,2019(11):57-64.

[12]李祖超,陈庆庆.教育学CSSCI期刊发表学术论文现状及趋势分析:以2013—2015年的数据为例[J].教育研究,2016,37(11):19-27.

[13]张莹,戚景琳,孙玉伟.管理学科研人员数据复用行为特征探析[J].信息资源管理学报,2020,10(04):79-87.

[14]戚景琳,张莹,孙玉伟.社会科学科研人员数据复用行为研究:以经济学为例[J].情报理论与实践,2020,43(9):72-78.

[15]丁文姚,李健,韩毅.我国图书情报领域期刊论文的科学数据引用特征研究[J].图书情报工作,2019,63(22):118-128.

[16]秦顺,戴柏清.国际科研数据政策导向解析[J].图书情报工作,2022,66(13):48-60.

[17]邢文明,郭安琪,秦顺,等.科学数据管理与共享的FAIR原则:背景、内容与实施[J].信息资源管理学报,2021,11(2):60-68,84.

[18]丁瑞常.经合组织国际教育指标的演变及其全球教育治理功能[J].清华大学教育研究,2019,40(5):69-74,90.

[19]戴杰思,谢萍.多层混合法研究设计:挑战与优势[J].教育研究,2021,42(2):140-150.

[20]黄茂汉,邱瑾.基于区块链技术的高校图书馆科学数据管理模型研究[J].图书馆工作与研究,2022(8):53-62.

[21]刘少芳.网络安全视角下加拿大图书馆研究数据管理的启示[J].河南图书馆学刊,2023,43(11):94-97.