高校文理科研究生数据素养比较*
2016-08-23郝媛玲沈婷婷
郝媛玲,沈婷婷
高校文理科研究生数据素养比较*
郝媛玲,沈婷婷
文章以高校研究生为调查对象,采用问卷调查法收集数据,对上海地区高校文理科研究生的数据素养现状进行分析与对比,揭示文科和理工科研究生在数据意识、数据知识、数据技能、数据引用以及科研团队管理科学数据方式等方面的特征及存在的问题。建议高校图书馆优化数据素养教育资源和平台,注重合作共享,制定科研团队的数据管理政策,并重视数据伦理教育,分学科、分层次地开展规范化的数据素养教育。
数据素养高校研究生数据素养教育调查研究
引用本文格式郝媛玲,沈婷婷.高校文理科研究生数据素养比较[J].图书馆论坛,2016(8):126-132.
0 引言
随着数据密集型科研第四范式的快速兴起,科学数据逐渐成为重要的学术信息资源之一。研究者遭遇越来越多关于元数据、数据策管、数据引用、数据共享和数据出版等方面的问题[1],数据素养也开始引起社会各界,特别是图书馆界的重视。如何增强科研人员的数据意识,提升数据获取与分析技能,推进数据管理与共享等数据素养及教育问题成为当下的热门话题。
数据素养的重要性已得到了全球科学界的广泛认可,欧美一些科研资助机构开始制定相关的培养计划,开展数据素养教育活动。2012年,美国博物馆与图书馆服务协会(Institute of Mu-seum and Library Services,IMLS)资助了“数据素养”项目,旨在培养研究者查找、组织、处理、共享科研数据的能力[2]。此外,美国国家科学基金会(NationalScience Foundation,NSF)为了应对未来数据人才的缺乏,已开始实施一项长期的培养战略,包括从数据中获取知识的新途径、数据管理基础设施建设、教育实践和团队建设的新方法等[3]。
国内关于数据素养及其教育的研究起步较晚,目前主要集中于对国外研究现状的介绍,以及数据素养教育模式的探讨。这些研究大多局限于教育者的视角,较少基于高校研究生的现状与需求来探讨数据素养教育。本研究旨在通过定量分析,揭示高校文科和理工科研究生数据素养的实际情况和突出问题,以引起高校对数据素养教育的关注和重视,为建立适合我国国情的数据素养教育机制、推动高素质创新型人才的培养提供参考。
1 调查过程与方法
为了了解文科和理工科研究生数据素养的现状和特征,本研究采用问卷调查法,针对数据意识、数据知识、数据技能、科研团队数据管理方式、数据伦理道德五方面的内容,设计了26道选择题和1个开放性问题。笔者选择了10名教师和研究生进行预调研,并根据反馈对个别问题进行深入访谈,最终确定调查问卷内容。本次调查开展于2015年5-6月,包括纸质问卷调查和电子问卷调查两种方式。调查选取上海地区6所高校为样本框:上海交通大学、同济大学、上海大学、上海财经大学、上海电力学院、上海应用技术学院,覆盖“985工程”高校、“211工程”高校和普通院校,共发放问卷200份,回收有效问卷174份,有效回收率为87.0%。在被调查人员中,硕士生占75.9%,博士生占24.1%;文科专业的学生比例为54.0%,理工科为46.0%;科研项目承担者占4.6%,项目参与者占74.7%,没有参加过项目的占19.0%(注:有效卷中有1.7%对此题未作答)。本研究通过对高校研究生的数据素养水平和高校数据素养教育的现状与特征进行摸底,将文科和理工科这两种不同学科背景的研究对象作对比,力图发现制约不同专业背景研究生数据素养提高的主要原因,最后提出改善高校研究生数据素养状况的参考方案。
2 调查结果与分析
2.1数据意识
数据意识是指对数据和数据问题敏锐的感受力,以及对数据价值的洞察力和判断力,它决定了获取、判断和利用数据的自觉度。在“数据对科学研究重要性”的问题中,认为“重要”的研究生文科为92.5%,理工科为90.4%,这组比例说明绝大多数的文理科研究生已经意识到数据对科研的重要影响;另外,表示开展数据素养教育“有必要”的文科研究生达83.8%,理工科为59.5%,这组比例反映大部分的文理科研究生认可数据素养的作用和价值,且文科生对数据素养教育的接受意愿更高。
关于数据获取途径的调查结果显示,文理科研究生中只会使用1-2种获取途径的比例达到43.7%,且集中在“网络搜索”“公开发表论文中附带的数据源”和“专业科学数据库”三种方法上,而使用“联系作者获取”和“合作团队间的学术交流”方式的占比相对较低。进一步对比分析发现,联系作者获取数据的文科研究生仅有13.8%,理工科为18.1%;通过“合作团队间的学术交流”方式获取数据的文科研究生比例为22.5%,低于理工科20个百分点。这在一定程度上反映了研究生的数据获取意识差别较大,数据获取途径有一定局限性,所掌握的方法和手段较少,且基本上依靠自身力量来获取,与他人交流合作甚少,科学数据的利用处于较封闭状态;在文科研究生中,这种情况更为突出。
图1 文理科研究生对科学数据的共享意愿
文理科研究生对科学数据的共享意愿如图1所示。文科研究生较多选择“一对一的索取”或者“团队内部”共享科学数据;而绝大多数理工科研究生则更愿意在“团队内部”共享数据,两类学科支持“国内开放”或者“国际开放”的比例均较低。这说明整体上文理科研究生对科学数据的开放范围较小,数据共享意识较弱。差别是,文科学生支持“一对一索取”的比例比理工科高出31.4%,而理工科学生愿意“团队内部”共享和“国际开放”科学数据的比例比文科分别高出25.8%和10.7%,体现了理工科研究生对科学数据的开放共享意识更强。
2.2数据知识
拥有广博的数据知识是良好数据素养的表现,它包括对本学科数据特征、数据管理工具及其使用方法、数据效用等方面的认知。掌握前沿数据知识能帮助研究者灵活运用数据,深层次挖掘数据价值。
通过调查研究生对本学科主要科学数据平台的了解程度发现,文理科整体上呈现相同的状况。表示“非常了解”学科数据平台的文科和理工科研究生比例均不到10%;表示“不太了解”和“不了解”的文科和理工科研究生比例分别为11.3%和18.1%;这两类学科表示“一般”了解的研究生均超过3成。可见大部分研究生对本学科主要的科学数据平台了解较少,数据搜索知识欠缺,这将大大限制学生的数据获取能力和数据利用水平。
元数据可以使信息的描述和分类实现格式化,是信息共享和交互的基础。若将元数据知识用于数据组织和管理,可使数据的利用和共享更加灵活高效。由图2可知,“了解并用过元数据组织数据”的文科和理工科学生均很少,特别是理工科仅为2.1%;高达52.5%的文科生根本不了解什么是元数据,理工科情况类似,比例为44.7%。这反映了研究生目前很少利用元数据来组织科学数据,元数据基础知识相当薄弱,数据的组织管理仍采用较为原始的方法,科学数据得不到充分利用。这一情况和高校对元数据知识的宣传教育较少有关,导致先进的数据组织方法得不到较好的推广,学生获取数据知识的途径比较单一。
图2 文理科研究生对元数据的认知
2.3数据技能
数据技能包括数据收集、处理、分析、保存、评价、交流等方面的能力,它贯穿于科研生命周期的各个阶段,掌握数据技能并将其灵活地运用到科学研究中是良好数据素养的外在表现[4]。调查显示,在收集、处理数据时,表示“完全自己处理”的文科研究生为43.8%,“大部分自己做”的比例为46.3%;理工科研究生“完全自己处理”的比例为33.0%,“大部分自己做”的占比为52.1%;文科和理工科收集和处理数据时“少部分自己做”和“请他人代劳”的比例均较低。这说明绝大部分研究生已具备基本的数据处理技能,在长期的数据管理实践中积累了一定经验。另外,可能由于高校缺少数据管理方面的配套服务和数据专员,即使遇到数据处理方面的问题,学生能得到的解决途径较少,更多是依靠自己的个人力量。
数据的获取、筛选和分析离不开对数据质量的判断,人们一般从数据的准确性、实效性、科学性、权威性等方面来评估数据的优劣。如图3所示,理工科研究生主要“利用实验验证”数据质量,高出文科约35个百分点;而文科研究生则更倾向于通过“自身经验”和“发布机构的权威性”来判断,在这两项上均高出理工科近20个百分点。文科和理工科研究方法和思维习惯的不同造成数据评价方法和标准的不同,说明数据评价技能与学科背景有关。另外,文理科采用“向专家咨询”途径的比例很低,从侧面反映了目前数据咨询服务和数据交流活动开展得很少。
图3 文理科研究生对数据质量的判断依据
规范数据文件管理能使数据分类、保存、搜索及利用更加安全和高效,有利于数据价值的发现。据统计,在“是否通过一定规则来命名数据文件”上文理科大体一致,均有超过半数的研究生表示“一直是”,但仍有相当比例的研究生(4成文科生和3成理工科生)表示“偶尔”规范命名(见表1)。可见,高校研究生对于数据文件的命名较为随意,主要依靠个人素养和习惯,缺乏统一规章制度的约束和指引,科学数据的规范管理还有待进一步加强。
表1 文理科研究生对数据文件命名的规范性
2.4科研团队管理科学数据的方式
对于科研团队管理科学数据的方式,文科和理工科的情况类似,见表2。文科和理工科均有一半左右的研究生表示,科研团队没有明确规范的数据管理流程,各管各的,数据管理处于一种分散无序的状态;少部分研究生表示科学数据由团队负责人或指定专人管理;只有极少数人表示科研团队有专门的数据管理流程或平台。
表2 科研团队管理科学数据的方式
通过调查发现,从未发生数据丢失的文科研究生为37.5%,理工科研究生为30.9%。绝大部分研究生都有过不同频率的数据丢失经历,这会对科学研究造成极大损失,可能和没有规范的数据管理引导计划有一定关系。科研活动中或结束后发生数据丢失会阻碍数据的再利用和科学研究的发展。图书馆作为高校资源保障中心,要加强校内跨部门合作,制定出科研团队数据管理的可行性方案。
2.5数据伦理和数据道德
数据伦理和道德是进行一切数据活动的准则,是数据素养中不可或缺的部分。调查表明,大部分研究生具备了基本的数据引用意识,但仍存在引用他人数据时较为随意的现象,特别是理工科研究生,“偶尔”或者“从来没有”清晰标注引用数据的比例达到40.4%,比文科研究生高出15个百分点。
进一步考察研究生对数据引用方法和法规的熟悉程度可以发现,整体上文科研究生对相关法规的认知度更高。如图4所示,文科生表示“非常了解”和“了解”的比例比理工科高出近20%,与上述文理科研究生实际引用行为的调查结果相吻合。值得注意的是,仍有23.8%的文科生和43.6%的理工科生表示“不太了解”或“不了解”数据引用方法和法规,这不利于科学数据的再次有效利用和知识产权的保护。
图4 文理科研究生对数据引用方法和法规的认知度
3 对策与建议
3.1整合内部和外部资源,搭建一站式数据资源服务平台
目前,我国高校图书馆少有建立数据素养教育资源系统,也未形成统一的门户,数据知识和技能方法的传播处于零散和无序状态,而且数据资源发布途径太过多样,用户需要多方查找才能获取到部分有用信息,这不仅造成数据知识获取的障碍,也不利于用户数据意识的培养。图书馆可以将一些外部资源,例如优秀的数据资源网站、开放的专题科学数据平台、相关政策法规、公开的研究报告、统计年鉴、专项调查等纳入数据资源服务系统;同时,校内自有的资源,例如数据素养教育的培训、讲座、研讨会、竞赛交流等活动的课件,活动后形成的成果以及自建的特色专题数据库等可以集中发布在系统平台上。此外,平台资源还应包括一些数据生命周期理论、数据管理政策、科学数据可持续发展计划、数据处理工具等内容。
所有的数据资源和服务在该平台上统一汇聚并集中向用户开放,实现数据资源一站式检索,有效提高资源的利用率和用户的使用效率。该数据资源服务系统除了能推动数据知识和技能传播、方便用户搜索所需资源外,还有助于宣传数据文化,通过丰富的数据知识服务来影响用户的数据价值观、态度和行为,形成尊重数据、收集数据、使用数据和共享数据的数据文化。
3.2针对高校研究生群体的学科差异性,开展规范化和多样化的数据素养教育
在数据素养重要性认识、元数据等数据知识认知、数据文件管理、科研团队管理科学数据方式等方面,文科和理工科研究生表现出在数据意识和数据技能等数据素养上存在一些共性。但是,文理科研究生的数据素养状况也呈现出学科差异性,主要差别表现在数据获取意识和获取途径、数据共享意愿、数据质量的判断依据,以及对数据引用方法和法规的了解程度上。这些差别说明数据素养和学科背景有一定关系。文科以实证研究和理论研究为主,理工科则更多是实验性和模拟计算型研究,文理科研究生不同的研究方法和思维方式导致了他们对数据理解程度、敏感度、数据知识、数据处理方法和技能的差异。然而,当前单一的教育内容不能适应高校学生多元化的数据素养需求,因此,高校的数据素养教育要针对研究生群体在学科上的差异和特点,因材施教。
从高校研究生对数据素养模糊的认知、总体偏低的数据素养综合能力、浅薄的数据知识、有限的数据获取途径、片面的数据评价依据,以及较弱的数据安全和伦理意识上可以看出,目前大部分研究生没有参加过正规的数据素养课程,高校对研究生数据素养的培养力度不够。另外,当今学生用户对网络的依赖程度较高,追求资源的可接受性、生动性和趣味性,而当前的数据素养教育资源大多是文档或图片资源,形式较单一枯燥。图书馆应丰富视频、音频等多媒体形式的教育资源,同时注重实践活动,加入竞赛、游戏、研讨等形式的内容以增强用户体验。例如,欧美多个研究资助机构联合举办的国际数据挖掘挑战赛(Digging Into Data Challenge)[5],吸引了世界多个著名高校的研究团队参加,该活动旨在开发新的视角、工具和方法,推动人文与社会科学研究进行大规模数据分析及开发利用。另外,在传播途径上,可以利用微信、微博、博客等自媒体平台宣传数据知识和数据文化,并与学生进行交流沟通,了解他们的迫切需求,增强学生的学习接受度和参与度。
3.3基于MOOC的开放合作理念,实现数据资源更大范围的共建共享
从调查中发现,研究生获取数据知识的途径比较单一,在遇到数据处理方面的问题时主要是依靠自身的力量来解决,与同行交流合作较少。借鉴MOOC开放共享的教育理念,亟待打破传统封闭的教育模式,将数据素养教育资源对外开放,使得静态的资源流动起来,让更大范围内的用户参与并享用资源。哈佛大学搭建的Dataverse数据平台库,用于共享、保存、分析和开发研究数据,向所有人开放来自世界范围的科学数据,是开放共享数据资源的典型案例[6]。这种共建共享的模式优化了资源配置,同时扩大了用户受益面。在MOOC环境下,开放共享的在线教育模式将促进优质数据资源的无障碍获取,进一步让更多的自学用户获益。我国已有图书馆和机构将MOOC模式成功地运用在信息素养教育上,例如CALIS在e问上推出信息素养教育课件展示平台[7],为用户提供信息素养教育各种主题的课件。同样,可以将MOOC运用到数据素养教育上,针对学生的背景、环境和学习动机,开展多主题的MOOC引导课程。同时,图书馆需要关注MOOC环境下教学和资源的版权和内容许可,促进数据素养教育资源的无障碍获取。合作和共享是更好地普及数据知识、宣传数据文化、提升数据素养的有效途径。应当鼓励高校图书馆和联盟图书馆积极提供自己的数据素养教育资源,共同建设学科特色数据库、精品数据素养教育课程、数据知识聚合板块、互动交流社区、个性化数据资源推送等内容。最终建成完善的数据资源管理体系、科学的数据资源利用体系、方便的数据交互共享体系,及多位一体的数据素养教育用户服务体系,以整体提高学生的数据素养水平。
3.4制定科研团队的数据管理政策,为科学数据“集中管理”提供支撑
数据管理方式和人员影响着数据的安全性和易获取性。从调查结果可知,目前大部分科研团队对数据的管理呈独立分散状态,这种传统的数据管理方式既不安全也不易于获取利用,耗费人力物力。相比之下,科学数据集中管理更利于实现数据的积累性、经济性、可靠性和再利用性。
科研团队的数据管理实践需要科学、完善的政策指引。完善的政策可以确保数据管理活动依照规章制度、伦理道德和资助管理机构的要求有序进行,但这些政策需要和学校其他的科研政策以及外部环境相适应,相辅相成,并且在实践活动中具有普遍适用性。近年来,欧美许多高校制定了数据管理计划并开展了相应实践。例如,英国牛津大学图书馆在联合信息系统委员会(The Joint Information Systems Committee,JISC)的资助下开展了嵌入科研的数据监护服务(Embedding Institutional Data Curation Services in Research,EIDCSR)[8]。该项目为研究者提供数据管理、发布和存储服务平台。目前,我国还没有一所大学制定了数据管理引导计划,而且学校和图书馆对科研团队的数据服务支撑不够,需要在制度、方式、流程和工具上进行规范和改进。高校应结合自身实际,组建专门的科学数据管理机构,制定出合理的科研团队数据管理政策及相关的实施和促进办法,要求科研人员提交数据管理计划,共享科学数据,按照规范的数据管理流程,在统一的平台上集中管理和保存数据,并将数据管理水平列入科研团队的评估考核中。
3.5重视数据引用问题,长期深入开展数据安全和数据伦理教育
在科研活动中,数据的获取途径多种多样,数据信息丰富多彩,其中很多属个人私有,若忽视个人权益和数据安全问题,会导致数据因被不良的个人或机构滥用,从而失去公众的信任,对发掘数据更大的价值非常不利。从调查中也可以看出,目前高校研究生的数据安全意识和数据道德观念水平参差不齐,特别是理工科研究生随意引用科学数据的现象更为突出,很多研究生尚未建立起“数据也是知识产权”的意识。这与我国“重知识、轻伦理”的教育现状有关,亟需改变这种状况。特别是在数据共享时,如何协调科学数据共享与知识产权保护的冲突,需要研究者具备清晰的数据伦理与道德意识。国外很多高校将数据伦理和数据道德放在数据素养教育的首要位置,在培养指南中详细介绍数据引用的规范和标准。
图书馆的数据安全和数据伦理教育不是简单介绍方法技巧和知识,而是要树立一种全新的观念和意识,不能通过短期的培训来解决,需要长期的深入培养,在潜移默化中转变。图书馆要加强这方面的教育,帮助学生树立正确的数据道德观,使他们尊重科学数据的知识产权,正确合理地使用数据资源。
4 结语
了解和分析学生的数据素养现状和需求是高校制定数据素养培养计划和相关政策的前提和依据。本文对比和分析了大数据环境下高校文科和理工科研究生的数据素养特征,揭示目前我国研究生数据素养水平和突出问题。从中可以看出我国数据素养教育还处在初级阶段,教育实践和相关服务的开展严重不足。为此,研究型大学图书馆应该充分挖掘自身优势,利用新技术积极嵌入科研中,拓展新的服务领域。同时,图书馆在数据素养教育领域也面临着专业技能、人才储备、资源分配等方面的巨大挑战。如何结合外部环境、用户需求及自身目标,开辟适合自己的数据素养教育路径,是高校图书馆需要思考和解决的长期问题。
[1]孟祥保,李爱国.国外高校图书馆科学数据素养教育研究[J].大学图书馆学报,2014(3):11-16.
[2]ProjectOverview[EB/OL].[2015-09-08].http://wiki. lib.purdue.edu/display/ste/Home.
[3]何海地.美国大数据专业硕士研究生教育的背景、现状、特色与启示——全美23所知名大学数据分析硕士课程网站及相关信息分析研究[J].图书与情报,2014 (2):48-56.
[4]沈婷婷.数据素养及其对科学数据管理的影响[J].图书馆论坛,2015(1):68-73.
[5] Digging Into Data Challenge[EB/OL].[2015-10-08]. http://library.harvard.edu/digging-data-challenge.
[6]Dataverse Project[EB/OL].[2015-10-20].http:// dataverse.org/.
[7]e问信息素养教育课件[EB/OL].[2015-12-03].http://yiwen.calis.edu.cn/EwenPages/coursemeteData.html.
[8]Welcome to the EIDCSR Website[EB/OL].[2015-10-17].http://eidcsr.oucs.ox.ac.uk.
(责任编辑:何燕)
Comparison Analysis of the Data Literacy of Liberal Arts Graduate Students and Science and Engineering Graduate Students
HAO Yuan-ling,SHEN Ting-ting
This paper compares and analyzes the status quo of data literacy of liberal arts graduate students and science and engineering graduate students in shanghai through questionnaire survey.It reveals the problems and characteristics of the graduate students in data awareness,data knowledge,data skills,data reference and management method of scientific data.Consequently,several construction strategies of data literacy education are recommended,such as optimizing resources and platform of data literacy education;paying attention to the cooperation and sharing;formulating the data management policy of research team;attaching great importance to the data ethics education;developing standardized data literacy education divisionally and hierarchically.
data literacy;graduate students;data literacy education;investigation research
*本文系教育部人文社会科学研究青年基金项目“数据素养对科学数据管理的影响及对策研究”(项目编号:14YJC870017)研究成果之一
郝媛玲,女,硕士,上海大学图书馆馆员;沈婷婷,女,博士,上海大学图书馆馆员。
2015-10-29