面向科研第四范式的科研人员数据素养培养研究
2016-09-28张军
张军
摘要:第四科研范式环境即数据密集型科研环境的形成和大数据时代的到来,使得科研人员因数据素养能力不足而面临着不少挑战。构建基于科研项目生命周期和科研数据生命周期理论的科研人员数据素养能力培养框架,不但可以理清在第四科研范式环境下开展科研项目基础条件、驱动因素与成果交流共享方式,还为科研人员的数据素养提升提供了一种基于课堂教育感知教育相结合的培养途径与方式。
关键词:数据素养;项目生命周期;数据生命周期;科研人员;数据密集型科研环境;第四科研范式
中图分类号:G252 文献标识码:A DOI:10.11968/tsyqb.1003-6938.2016043
随着以移动终端和社会网络产生的海量、异构数据为新兴代表,数据类型与数量、存在范围与形态、蕴含价值与挖掘均呈突破传统认识界定态势的大数据时代的到来,数据成为了驱动社会创新发展、综合竞争的新兴指标,也成为了科研人员研究和利用的最主要的对象,一个以数据为核心的新型的科研范式正逐步形成。然而,这一新型科研范式的形成,其一方面需要海量、丰富的数据为支撑基础,但另一方面需要以对数据的价值实现为保障,即科研人员必须具备一定的数据运用与操作能力,如对数据的获取、挖掘、引用、共享、发布等能力。为了与信息时代的信息素养概念相对应并有内涵上的延续,学界目前将这一素养能力统称为数据素养。分析数据密集型科研环境下科研人员因数据素养水平不足而面临的挑战,进而针对科研人员的日常科研行为及这一科研环境下最为主要的研究对象来构建科研人员的数据素养教育框架,则可为科研人员的数据素养教育途径、内容等提供一种基于全新的视角与认识。
1.数据密集型科研环境下科研人员面临着全新挑战
《第四范式:数据密集型科学发现》(The Fourth Paradigm:Data-intensive Scientific Discovery)一书于2009年的出版,既标志着数据密集型科研范式的确立和数据密集型科研环境的形成,也标示着未来的科研流程将建立在数据基础之上,进而也决定了科研人员对数据的操作能力就成为了其必备的素养,也无疑为现有科研范式下的科研人员提出了挑战。如基于数据计算和应用的社会计算fComputationalSociology)、数字人文(Digital Humanities)、数字历史(Digital History)等新兴研究领域的悄然兴起及快速发展,也都对从事这些领域或相关领域的科研人员提出了极高的数据素养要求,从数据中“发现问题、提出问题、解决问题,进而实现价值”成为了科研人员必备的素养及技能之一。
美国国家自然科学基金(NSF)在2007年提出项目申请者必须提交科研项目数据后,自2011年起则要求NSF所有申请资助的项目必须附有规范的数据管理计划,以实现对完成所申请项目后产生的科学数据的类型、格式、记录文档、元数据等进行科学的存储、保存与管理规划。由于缺乏对必要的数据政策、数据操作技能等知识或素养的了解与掌握,普通科研工作者完成这些资助机构的要求并不容易,于是出现了如图书馆数据服务中心、数据馆员等工作机构与岗位,以帮助科研人员完成诸如数据管理计划的制定、起草及修订等工作。然而由于这些机构或工作人员由于以服务者、辅助者的角度或身份参与,缺乏对科研项目深层次的了解与感知,易出现对所服务或辅助工作的错误判断,如无法对科研成果科学数据元数据的字段大小做出准确计划。因此,科研人员掌握基本的数据素养无疑成为了一种趋势。
从基于数据应用及需求的角度,宫学庆等认为数据密集型科研环境下科研人员面临的挑战可划分为科研项目生命周期管理过程中的挑战和科研数据生命周期管理过程中的挑战两大类。前者主要是指科研人员在科研管理过程中如数据存储、数据发布、数据引用、数据共享等过程中面临新的挑战,后者则主要是指科研人员在项目实施完成和挖掘数据价值过程中面临的诸如数据获取、数据出版、数据发现等挑战。但由于两者都是对数据的操作与价值实现为目标,一个科研项目的申请、实施、完成、增值开发过程其实也就是数据生命周期的主要过程,因此两者既相统一,又相互交叉。如在数据密集型科研环境下,将科研项目产生的科学数据(也有学者称其为科研数据)在数据期刊进行出版已是数据环境下最为主要的科研项目成果交流方式之一,越来越多的机构也日益重视数据期刊平台的创建与所发表的数据质量,如《自然》出版集团于2014年5月创办了主要发表科学数据的开放存取期刊《科学数据》(Scientific Data),还有如爱思唯尔出版创建了的《基因数据》(Genomics Data)、中国科学院创刊了《中国科学数据》等。然而在数据期刊上进行成果发布对学者的数据素养有着很高的要求,如何实现科研数据的元数据准确描述、引用规范、易于发现并被共享和应用,都需要科研工作者既具备对所从事研究学科和承担项目的成果知识的娴熟驾驭能力,也需要数据的出版能力,即一些学者所演绎和统称的学术出版素养能力。
2.数据密集型科研环境下科研人员数据素养能力与内容
由于普通科研工作者、数据管理从业者如数据馆员、业界管理决策者对数据的审视视角、潜在需求存在差别,因此对数据素养的定义维度、素养知识结构组成等理解均不同。如Carlson认为数据素养能力主要由数据发现与获取、数据管理、数据转换与互操作、元数据、数据监护与再利用、数据长期保存、数据分析、数据可视化以及包括数据合理引用在内的数据伦理等组成;Calzada Prado认为数据素养能力主要由确认数据产生与再利用的情境识别来源数据的价值、类型及格式,确定何时需要数据,合适地获取数据,评价数据及其来源,通过程序计划、组织及自我评价,确定和利用合适的研究方法,操作与分析数据,展现定量信息,应用结果去学习、决策及解决问题等内容组成:秦健认为“科学素养教育(数据素养)的内容主要应涉及科学数据的收集技能、组织与管理的规则和技术、分析的工具和技能、保存与安全问题、科学数据共享规则、科学数据管理和应用中的法规和伦理道德等方面的问题。相较于信息素养的文化素养属性,科学素养教育更加强调培养科研人员对科学数据的收集、存储、管理、分析、评价和使用的能力”:沈婷婷认为“数据素养就是对数据的‘听、说、读、写能力,也是对数据的理解、交流、获取和运用的能力”:张艳梅认为“数据素养就是数据行为主体在符合社会道德和伦理基础上所具有的对数据辩证、科学、正确的认识、管理和操作能力”。
尽管上述对数据素养能力范围的表述视角有差别、有侧重,但如果从科研项目生命周期管理和科学数据生命周期即双周期理论的视角来看,笔者更加认同秦健的观点,因为该表述尽管是一个主要基于数据生命周期管理角度的数据素养能力与范围概括,但也从数据应用的维度和科研项目生命周期管理的角度给出了科研人员所应具备的数据素养的能力与技能范围,对科研人员的数据素养教育和自我培养可以借鉴该概念表述进行相关课程的设置、意识的转变强化与技能的实践训练。
3.数据密集型科研环境下的科研人员数据素养培养
3.1基于双生命周期理论的科研人员数据素养培养框架
正如宫学庆等研究认为数据密集型科研环境下科研人员面临的挑战主要有科研项目生命周期管理过程中的挑战和科学数据生命周期管理过程中的挑战一样,数据密集型科研环境下的科研人员数据素养培养与教育也可以分为基于科研项目生命周期和数据生命周期两大类,但两者互有交叉但又相互补充,相辅相成,也因此易于构建一个基于双生命周期理论的科研人员数据素养培养框架模型(见图1)。
从基于双生命周期理论的科研人员数据素养培养框架可以看出,科研人员的数据素养教育实质上是基于虚拟现实空间(如增强现实空间、智能计算空间、泛在网络空间等)及现代信息技术(如大数据技术、增加现实技术、物联网技术、云计算技术等)的课堂教育与感知教育,进而使得科研人员在科研保障条件(如学科知识库、机构知识库、数据知识库等)基础上投入科研,并通过上述教育方式来提升自身及团队的数据认知素养、应用素养和监护素养,以保证项目生命周期与数据生命周期的持续与顺利开展(如数据生命周期的数据发现(生产)、数据备份(存储)、数据管理(维护)、数据服务(使用),项目生命周期的项目设计、项目申请、项目实施、项目结项),最终实现科研成果的高效产出与共享交流(如数据出版、数据共享、数据引用等)。其中,感知教育(如空间感知教育、学科感知教育、)与课堂教育(如虚拟课堂、在线课堂、社区课堂)是科研人员数据素养教育的两大主要形式与途径。
3.2基于双生命周期理论的科研人员数据素养培养途径
3.2.1感知培养
科研人员的数据素养感知培养主要是指数据意识培养。本框架设计中的感知培养主要是指空问感知、学科感知与智慧感知。其中,空间感知是指科研人员通过感知生存的物理空问、群体空间、学术空问及虚拟网络空间去感知从事科研活动所需要的数据能力与素养,并通过与其它群体、个体的模拟比较、现实实践来评判自己在该空间中的生存与竞争能力,以找到差距并提高自身的数据素养,如在一个团队空间内,通过感知每一个体具有的数据操作与获取等能力,就能评判其所具备的数据素养水平高低:学科感知是指科研人员通过感知本学科领域的其它学者、团队所从事相关科研活动的数据素养体现,来实现对自身数据素养水平的比较和提高,如参加本领域的数据素养大赛、前沿学术会议等就能清晰的感知本学科科研人员的数据素养水平:智慧感知是感知教育培养的最高境界,其不仅要感知社会环境、时代发展态势等宏观环境因素,也要感知科研人员所在学科、机构、团队的发展态势等中微观因素,进而通过感知自己从事学术研究的前瞻性、学科深度等去评判自己的数据素养水平,其最大的难度可能在于缺少比较、学习与参考目标,主要依赖于自身对于主客观环境及发展因素的判断和自我要求能力,就如现在全社会倡导的“大众创业、万众创新”,其不仅需要具备完成解决科研等遇到的问题的能力,也需要具备解决未来未知问题的能力,因而对相关人员的数据素养教育主要通过自身的智慧感知来实现。
3.2.2课堂教育
课堂培训是目前信息素养、数据素养、媒介素养的主要培养方式,图书馆等教育机构相关的课程可谓层出不穷,且由于依赖于数据管理、数据监管的科学数据共享、存储、引用与利用等工作岗位要求具备较高的专业化技能,美国的伊利诺伊香槟校区(UIUC)等图书情报学院还设置了包括信息组织、信息伦理等多领域的数据管理教育(DCEP)课程体系,以实现对专业化人才的培养与教育。但需要注意的是,这类教育主要面向的是在校学生,图书馆的数据馆员也主要局限于对服务对象的数据存储等辅导服务层面,所承担的对科研人员特别是科研教师的数据素养教育职能还不够明确。本设计框架所提出的课堂教育就是对目前这一单薄领域的夯实之举,即科研人员通过在线课堂、虚拟课堂及社区课堂来实现对自身及团队数据素养的提高。其中,在线课堂主要指现实教育课堂与网络教育课堂等面对面的课堂,虚拟课堂主要是指借助于网络虚拟技术的MOOC教育课堂、视频教育课堂等,社区课堂则主要是指基于网络的Web问答社群课堂、基于人际网络关系的社区课堂、基于团队协作的社区课堂等。同时,由于数据素养既强调理论知识,又强调技能技巧,所以,这些课堂教育也绝不仅是理论知识的灌输与相关知识的点对点、点对面传播,也是具体科研或数据项目、数据平台的操作实践教育,美国等高校的数据管理本科生、研究生课程设置也都很好的体现了这一点。这也就启示科研人员并不仅仅只是需要通过感知培养去提升自己的数据素养意识,也需要通过日常的理论知识学习及项目实践来逐步提升自身数据素养。
4.结语
目前,科研工作流与数据生命周期已得到业界的广泛重视,英国联合信息系统委员会(JISC)、美国地质调查局(USGS)等国家组织委员会,英国数据管理中心(DCC)、英国数据档案(UKDA)、地球数据观察网络(DataONE)等数据管理专业机构以及弗吉尼亚大学、阿尔伯塔大学、昆士兰大学等学术研究机构纷纷就科研数据生命周期展开探索研究,建立科研工作流与数据生命周期模型,以规范和指导数据管理工作的顺利开展。本文也在借鉴上述研究思路的基础上,提出了基于数据生命周期与科研项目生命周期为理论基础的科研人员数据素养培养框架,以为数据密集型科研环境下的科研数据素养提升与教育提供了一种思路与两种教育方式,但本研究也存在着诸多不足之处,如对数据生命周期的划分、教育途径的延伸与丰富等还都存在着很大的研究提升空间。