iSchools成员院校数据监护课程调查
2018-03-21,,
,,
科学研究产生了大量的科学数据,精密仪器和大规模计算的应用使科学研究数据呈指数级增长态势。由于实验环境、实验设备、实验人员的限制,科学数据通常是不可复制和再现的,但又具有重要的现实价值和潜在价值,因此对科学数据的保存和管理显得尤为重要。数据监护(Digital Curation or Data Curation,DC)是将科学数据的维护、保存和增值贯穿于科学数据生命周期每一环节的长期实践活动[1]。在数据生命周期整个过程中对数据的持续监管,不仅能够为学术、科研和教育提供便利,而且能够维护数据质量,提供数据增值服务和复用服务。
近年来,为培养数据监护的专业人才,满足数据馆员的职业技能需求,国内外许多大学及研究中心开展了DC相关项目或课程[2]。有学者调研了相关院校的DC课程[3]或DC认证项目[4],从教学层次、师资力量、先修课程、指定教材、推荐阅读、作业形式、课程名称、课程目标等对DC相关课程或DC认证项目的信息进行了归纳整理。周霞等人通过调研国内高校情报学专业的培养方案,从情报学硕士研究方向提炼课程内容,发现在数据监护方面,情报学硕士教育依然侧重于数据库技术及数据挖掘,鲜有涉及数据的管理与保存[5]。上述研究主要从学院网站调查结果入手,结合问卷调查等方式,归纳整理了相关课程的信息,揭示目前DC课程开设现状。
数据监护是贯穿于科学数据管理生命周期每一环节的长期实践活动。结合数据管理生命周期分析DC相关课程,对于梳理目前DC相关课程的内容主题及完善DC课程体系都具有重要的意义。本文将结合数据管理生命周期理论,分析数据监护课程的侧重点和发展方向,从内容主题角度进一步了解DC课程开设现状,为我国高校开设DC相关课程提供参考意见。
1 数据与方法
成立于2005年的iSchools是致力于促进信息领域发展的全球信息学院联盟,联盟成员来自全球LIS(Library and Information Science)相关学院。截至2017年11月,该联盟已拥有来自北美、欧洲、澳洲、亚洲等地区的82所成员学院。iSchools成员学院是全球信息学院中的领军院系,其DC课程设置对于国内外其他信息学院开展数据监护教育具有重要的启示和借鉴作用。本文采用网络调查法,以66所iSchools成员学院作为样本进行调查。首先通过访问院校网站搜集院校DC课程信息,并对其课程标题、教学大纲、课程目标、课程描述等课程内容信息进行统计。将获得的DC相关课程内容形成课程内容标签,分析不同国家与地区、不同课程等级以及科学数据管理生命周期不同阶段的课程主题,从课程内容进一步深入了解数据监护课程开设现状,同时结合数据管理生命周期,揭示目前DC课程的教学侧重点。基于调研结果,结合目前国内DC课程开设现状,对我国信息学院开设DC相关课程提出建议。
为了便于研究,笔者对DC课程做了如下界定:课程名称、课程描述、课程目标或课程大纲中出现Data Curation或Digital Curation一词,课程的主要内容涉及DC相关主题。
2 结果与分析
2.1 不同国家的DC课程主题内容分析
本文共调研了66所iSchools成员学院。由于其中7所(中国大陆4所,德国1所,西班牙1所,丹麦1所)未在其网站上公布课程目录及课程信息,因此共获得59所院校的有效课程数据。59所iSchools成员学院中有2所位于中国台湾,但并未开设DC相关课程,其余57所iSchools成员学院的国家分布及开设DC课程的iSchools成员学院数量如表1所示。共有32所成员院校开设了数据监护课程,共开设了58门DC课程。分析这些学院DC课程的主题内容信息,即对所有课程的课程介绍和教学大纲进行人工标注,得到DC课程内容标签云图(图1),整体把握目前DC课程教育的发展概况。
表1 57所iSchools成员院校的国家分布及开设DC课程的成员院校数量
从图1可以看出,除digital curation 和 data curation 之外,出现较多的课程标签是preservation,lifecycle,practices,management,standards,metadata,可见,目前的DC课程教育普遍关注数据保存相关问题、数据管理生命周期、数据监护相关的标准和元数据问题,并且将现存的最佳实践作为案例研究,探索实际数据监护中面临的问题及挑战。
对不同国家iSchools院校DC课程内容标签进行分析,得出其标签云图(图2)。图2中,美国作为开设DC课程最多的国家,其DC课程标签在所有DC课程标签中占有较大比重,因此美国的DC课程标签云图与全球各国DC课程的总标签云图具有较大的相似性。分析其他各国的DC课程内容标签,发现各国既有共同出现的标签,如preservation或preserving,lifecycle,practices,management,standards,metadata,又各自有与其他国家不同的DC课程标签,说明虽然各国普遍关注的DC课程主题大体相近,但是侧重点各有不同。
英国iSchools院校的DC课程强调对数字资源的质量管理以及适用于数字资源长期保存与长期可获取的信息系统进行开发与设计。数字资源质量管理方面,格拉斯哥大学的Management,Curation & Preservation of the Digital Materials[6]课程强调学生需要从数据的真实性(authenticity)、完整性(integrity)和可靠性(reliability)去评价数字资源的质量;罗伯特高登大学DC模块[7]中的User Participation and Engagement课程强调在普遍合作的科学环境下,用户团体共同创建资源的管理、选择和整合技术。DC信息系统开发与设计方面,格拉斯哥大学的课程强调信息系统功能需求的分析,课程偏重理论分析;罗伯特高登大学DC模块中的System Development for Digital Curation强调满足数字资源存储、检索和长期获取需求的信息系统的开发与设计,以及如何利用Linux环境和其他开源技术开发DC原型系统,课程偏重技术实现。
澳大利亚iSchools院校的DC课程重视对数据管理生命周期每个阶段的任务和活动的梳理,并且突出了大数据时代下对科学数据的管理而非宽泛的对数字资源的管理。查尔斯特大学的Data Curation课程大纲[8]覆盖了从数据设计、数据创建、数据筛选、数据摄入、数据保存、数据存储、数据使用和复用的数据监护生命周期管理。墨尔本大学的E-Science课程[9]强调科学数据管理的生命周期理论以及科学数据管理和处理的方法、工具及面临的挑战,深入讲授数据的特性、结构化和非结构化数据的处理、数据分析、存储、获取以及数据可视化等科学数据的有效管理过程。
图2 不同国家iSchools院校DC课程内容标签云图
加拿大iSchools院校的DC课程十分重视重要模型,如OAIS模型以及数据管理生命周期的学习和运用。多伦多大学的课程Digital Preservation and Curation[10]重点关注数据从预涉入到传播的工作流。麦吉尔大学的课程Digital Curation[11]明确将OAIS模型和DDC的科学数据管理生命周期作为学生指定的阅读材料,并在课程中设计了一个部分专门讲授OAIS模型、AIP、SIP、DIP和数据管理生命周期。机构库(institutional repository)和数字仓储(digital repository)作为数字资源保存和利用的重要平台,也是加拿大iSchools院校DC课程关注的重点。多伦多大学关注数字仓储的特点以及可信赖数字仓储的审计与认证问题。除此之外,麦吉尔大学的Digital Curation课程还详细讲授数字仓储的实施与评估问题,讨论常见的Eprints,DSpace和Fedora等机构库软件工具。Digital Curation课程中仅有的4个小组项目作业中有2个是关于数字仓储的实施与评估,课程计划中有2周的课时都用于学习和讨论数字仓储的相关问题。
荷兰仅有的一所iSchools院校是阿姆斯特丹大学的人文、档案和信息研究生院。该学院的Research Data Management for Information Professionals[12]强调不同学科领域科学数据管理的需求及实践,并介绍了REDCap,DataVerse,Archivematica和DSpace等科学数据管理系统软件。
2.2 不同等级的DC课程的国家分布和主题内容分析
iSchools学院中所有DC课程均面向硕士研究生及以上开设。依据课程的开设周期、课程成熟度、课程关联度,本文将DC课程分为特殊专题、常规课程和系列课程3个等级。特殊专题(special topics)是指已经列入课程目录但尚未被列入常规课程的新兴研究课题,根据实际情况决定是否开课,而特殊课程可以看作是DC课程的探索阶段;常规课程(regular course)是指已经列入课程目录并且每学年都开设的课程,DC常规课程是数据监护领域入门课程,可以看作是DC课程的发展阶段;系列课程(serial courses)是指学院开设的由浅入深、从理论到实践的一系列DC课程(5个及以上)或者已经将DC作为硕士研究生教育的一个培养方向开设了硕士研究生认证课程(Graduate Academic Certificate),是DC课程的成熟阶段。根据调研结果,得到开设各个等级DC课程的iSchools学院数量与国家分布(表2),大部分iSchools学院都开设了DC常规课程,表明各国已经进入DC课程的快速发展阶段。对比不同等级的DC课程标签云图(图3),发现不同等级的DC课程主题内容各有侧重。
表2 开设不同等级DC课程的iSchools成员学院数量与国家分布
图3 不同等级的DC课程标签云图
32所iSchools学院中,仅有3所院校开设了DC特殊专题课程。从课程内容标签看,特殊专题主要介绍目前常见的数据监护模型OAIS以及现有的科学数据管理的最佳实践项目,如美国国家海洋大气管理局(NOAA)、美国国家大气研究中心(NCAR)、美国校际社会科学数据共享联盟(ICPSR)。
32所iSchools学院中,有26所学院开设DC常规课程,占81.25%,而且这些学院的地域分布覆盖了所有开设DC课程的国家:美国、英国、澳大利亚、加拿大和荷兰。从课程内容标签看,常规课程出现最多的标签是preservation,其次是archives,standards,metadata,management,practices,data curation,libraries,policy,tool等。可见,科学数据的保存问题是常规课程的重点教学内容。具体来说,常规课程涉及以下内容:概述数字资源或科学数据从创建、选择、组织、保存、存储、获取、使用到复用整个生命周期过程中的原理、标准、技术与方法,如田纳西大学的INSC562 Digital Curation课程[13]、查尔斯特大学的INF462 Data Curation课程[8]、伦敦大学学院的INSTG064 Introduction to Digital Curation课程[14]。该课程重点讲述了数字资源或科学数据长期保存涉及的保存元数据、保存技术和保存挑战问题,同时分析了目前最佳保存实践项目-机构库(Digital Repository)和可信赖数字仓储(Trusted Digital Repository,TDR),从最佳实践的案例中获取数字资源长期保存的实践经验。少数课程还探讨了数字环境下科研团队、数据中心、图书馆与存档馆等不同利益相关方如何管理数据和数字资源的版权、数据安全以及数据隐私、数据道德问题,如加州大学的262A Data Management and Practice课程[15]、德雷塞尔大学的INFO591 Data and Digital Stewardship课程[16]、阿姆斯特丹大学的ARST 556K Research Data Management for Information Professionals课程[12]。
有3所院校开设了DC认证项目或DC培养方向:北卡罗来纳大学的Digital Curation认证项目[17]、北德克萨斯大学Digital Curation and Data Management认证项目[18]、罗伯特高登大学Digital Curation培养方向[7]。从课程内容标签看,与常规课程不同的是,系列课程中出现最多的标签是lifecycle,突出了生命周期在数据监护中的重要性。系列课程是包括了DC理论课、DC技术课、DC应用课3类课程在内的具有连贯性和承接性的DC课程体系。DC理论课不仅涵盖了常规DC课程中涉及到的数据监护的基本概念和理论,还深入探索了共创环境下多源数据融合问题、数据监护研究前沿问题;技术课主要涉及以下主题:底层数据的描述与表示,如不同学科领域元数据的设计与标准选取与元数据抽取技术、知识组织原理与技术,信息系统设计与开发包含了数据存储、数据检索、数据获取甚至是数据可视化呈现功能的信息检索系统的开发与设计,数据长期保存系统开发工具与应用;应用课主要是作为认证项目的结业课程,学生除了需要写DC相关主题的毕业论文外,还需完成1个DC实践项目,将所学的DC理论知识和技术知识应用到实际项目开发与项目管理中,在实践中深化对原理和技术的理解和运用。
2.3 科学数据管理生命周期不同阶段的DC课程主题分析
数据管理生命周期模型从不同角度描述了数据从产生、收集、描述、存储、发现、分析到再利用的整个生命周期[19]。本文结合数据监护课程特点,将数据管理生命周期划分为数据计划、数据处理、数据保存和数据利用4个阶段。将课程标签投射到数据管理生命周期理论的每一阶段,获得涉及数据管理生命周期4个不同阶段的课程数量(表3)。
数据管理计划阶段作为科学数据管理生命周期中概念性的规划设计环节,对于后续的科学数据管理具有重要的指导作用。目前只有1个iSchools成员院校(英国罗伯特戈登大学Project Management for Digital Curation)针对数据管理计划开设了独立的DC课程[7],课程内容主要涉及数据管理生命周期每个阶段所包含活动的界定及项目管理政策。
数据处理阶段包括从数据创建、数据清洗与选择、数据描述与组织到数据分析的一系列数据处理过程。共有12门DC课程涉及数据处理阶段,其中涉及数据处理阶段最多的课程主题是数据的选择与描述。并不是所有的数据都需要进行保存和监管,只有具备真实性、准确性和完整性的有价值的数据才是长期保存和管理的对象。不同类型的数字资源具有不同的元数据描述标准,如何选择合适的元数据标准、数据格式、知识表示和知识组织技术以支持后续的数据的获取和利用,是DC课程关注的重点。
表3 DC课程内容手工标签-数据管理生命周期阶段映射表
从表3可看出,涉及数据保存阶段的DC课程最多(24门)。数据监护的初衷是保证有价值的科学数据在较长一段时间内能够得以保存,以便以后的研究人员能够复用这些数据进行科学研究。因此,数据的长期保存是数据监护最重要的环节,DC课程的设置也说明了数据长期保存的重要性。通过分析这24门数据保存主题的DC课程内容标签,发现这些课程主要涉及了以下主题内容:数字资源长期保存面临的管理、技术、社会、经济上的挑战以及长期保存策略的制定;数字仓储和可信赖数字仓储的建立与认证,包括Eprints,DSpace,Fedora,REDCap,DataVerse,Archivematica等相应软件工具的介绍;选择合适的元数据类型与标准以支持数据的获取、管理和保存;保存数据的选择与评估;长期保存技术如数据更新、数据迁移、数据仿真中数据完整性和准确性的维持;数据长期保存中涉及的版权和数据隐私问题。
涉及数据利用阶段的DC课程数量排在第二位,共19门。数据利用包括数据访问与获取、数据复用以及数据出版。目前所有iSchools院校都不将涉及数据利用主题的DC课程列为一门独立课程,而是与数据保存一起纳入同一门DC课程当中。数据利用主题的DC课程主要涉及以下主题内容:数据的访问与获取范围、条件、方式和流程等,数字出版或学术出版中涉及的元数据标准、数据格式(XML)、出版工具。
3 结论
对科学数据的持续、高效监管为当前和未来的学术、科研和教育提供了有力支撑。LIS学院作为长期以来培养信息管理和知识管理专业人员的摇篮,在培养数据管理和数据处理专业人才方面应该承担更多的责任。
3.1 课程既有共同关注的主题内容,又有各自的侧重点
目前iSchools成员院校的DC课程普遍关注数据保存相关问题、数据管理生命周期、数据监护相关的标准和元数据问题,并且将现存的最佳实践作为案例研究,探索实际数据监护中面临的问题及挑战。不同国家的iSchool学院有各自偏好的课程主题。英国iSchool院校的DC课程强调对数字资源的质量管理以及适用于数字资源长期保存与长期可获取的信息系统的开发与设计;澳大利亚iSchools院校的DC课程重视对数据管理生命周期每个阶段的任务和活动的梳理,并且突出了大数据时代对科学数据的管理而非宽泛的对数字资源的管理;加拿大iSchools院校的DC课程不仅十分重视OAIS模型及数据管理生命周期的学习和运用,而且对作为数字资源保存和利用的重要平台的机构库也给予充分关注;荷兰则更强调不同学科领域科学数据管理的需求及实践。
3.2 课程等级以常规课程为主,专业方向课程体系有待发展完善
目前常规DC课程所占比重较大,系列课程或者认证课程还处于起步阶段,开设的院校较少,反映出大部分iSchools学院的数据监护教育依然以基础概念和理论的梳理、最佳实践项目的介绍为主,只有少数学院尝试将数据监护设为一个新的专业方向。
3.3 课程内容涉及数据管理生命周期的每个阶段,重点应进行数据的长期保存
目前的DC课程对科学数据生命周期每个阶段的理论、标准、技术、方法和工具都有涉及,说明当前数据监护课程教学内容主题的范围较广。其中,数据的长期保存是数据监护最重要的环节。从课程数量来看,DC课程的重点落在数据长期保存阶段的相关问题上,具体主题内容包括长期保存目前面临的挑战、元数据的选择、保存数据的选择与评估、长期保存技术与工具以及相关版权问题等。
4 讨论
国内武汉大学、南京大学、北京大学等高校已经意识到数据监护专业教育迫在眉睫,并在图书情报学院、信息资源管理学院等增设了与数据监护相关的课程,但目前还处于起步阶段[20]。国外iSchools院校数据监护教育的蓬勃开展以及对数据监护课程内容主题的探索,对于我国相关高校开设数据监护课程具有重要的启示和借鉴意义。
4.1 积极开展数据监护专业教育
2018年1月,国家标准《科学数据引用》(GB/T 35294-2017)正式发布,标志着科学数据可以像学术论文一样被学术同行标准化引用,这将在一定程度上促进数据拥有者开放共享其数据。越来越多的开放科学数据需要专业的数据监护人员进行科学有效的管理,数据监护人才需求迫切。虽然从2014年起,中国图书馆学会专业图书馆分会联合中国科学院文献情报中心已经举办了5期科学数据管理研修班,为各界培训具有科学数据素养的专业人员,但是研修班的规模小且学习时间短,许多内容都是浅尝辄止,培养的数据监护人才不足以满足社会的需求。因此,加强高等院校的数据监护专业教育迫在眉睫。相关院校也需要做好充分准备,积极开展数据监护专业教育。
4.2 注重基础理论学习与最佳实践研究的融合
目前,数据监护领域已经形成了一些较为成熟的理论、模型和元数据标准以及较大规模的科学数据管理与共享平台,如GBIF(Global Biodiversity Information Facility),DataOne,Dryad。相关院校在开设数据监护课程时,既要注重基础理论的学习,也要将现存的最佳实践作为案例研究,探索实际工作中面临的问题、挑战及其解决方法。
4.3 充分利用LIS学院的传统优势课程,完善数据监护专业课程体系
信息组织与信息描述是LIS学院的传统优势课程,可将其与数据监护领域中涉及的数据组织、数据描述进行无缝接轨,纳入数据监护专业课程体系之中。
4.4 重视机构库建库软件的学习和利用
机构库和可信赖数字仓储(TDR)是数据监护领域的最佳保存实践项目。机构库和TDR的开发依赖于目前流行的开源软件,包括Eprints,DSpace,Fedora,REDCap,DataVerse,Archivematica等。不同的开源软件各有其侧重点和优缺点,只有对主流开源软件有了充分的了解,在实际工作中才能够根据自身需求和实际条件,选择合适的软件构建机构库。