E-Science环境下高校图书馆开展科学数据管理与共享的路径研究*
2016-09-16孙继周南昌航空大学图书馆南昌330063
孙继周(南昌航空大学图书馆 南昌 330063)
·专题研究·
E-Science环境下高校图书馆开展科学数据管理与共享的路径研究*
孙继周
(南昌航空大学图书馆 南昌 330063)
E-Science是依托先进技术形成的全新科研协作模式,E-Science环境下科学数据增长迅速,但是存在缺乏共享机制等问题,要求高校图书馆承担为科研服务的重任。高校图书馆是科学数据的过程监护机构、嵌入式管理机构以及科学数据存档与教育机构,主要管理内容包括科学数据描述、组织、关联集成等。高校图书馆在E-Science环境下应该根据科研需求构建科学数据管理模型,制定科学的管理规范,积极整合分布式数据,并推出E-learning服务,真正实现科学数据共享。
E-Science环境 高校图书馆 科学数据 管理与共享
〔引用本文格式〕孙继周.E-Science环境下高校图书馆开展科学数据管理与共享的路径研究[J].图书馆,2016(5):66-71
随着科学研究工作的广泛开展与学科合作的不断深入,科学数据的数量逐渐增多。我国拥有的科学数据资源十分丰富,但是在数据共享方面情况并不乐观。中华人民共和国科学技术部指出:要想提升我国的科技竞争实力,首先需要解决科学数据共享问题。高校图书馆是科研与教学的重要服务者,高校图书馆在科学数据管理方面扮演着重要角色,承担着规则制定、数据监控以及教育培训的职责。E-science为科研互动提供了更加开放的环境,让科研人员的协作交流与信息共享成为可能。面对E-science环境下科研活动的新需求与新变化,高校图书馆应该积极调整自身角色定位,转变科研服务方式,自觉参与到科研全过程中,努力掌握科学数据管理新技术,帮助科研工作者做好科学数据管理工作,以更好地为数据密集型科研活动提供支持,并实现科学数据共享。
1 E-Science环境与科学数据管理
1.1E-Science概念
E-Science是20世纪末产生的一种新型科研协作模式,也称作电子科研。E-Science充分利用了网格技术、资源管理技术、分布式技术等信息技术,能够实现对全球范围内数据的采集、计算与处理,进一步形成全新的科研环境。E-Science的出现让高性能可视化成为可能,提高了科学计算、信息技术应用与信息资源共享的层次。在E-Science环境下,分布于不同地理区域的信息资源、仪器设备等均能高效集成,并且能够转换为虚拟资源供科研人员使用,突破了科研数据获取的空间、时间与逻辑阻碍。同时,E-Science实现了科研环境的信息化,不同领域的科研活动更具针对性。
1.2科学数据的内涵
科学数据是科研活动过程中产生的,用于描述反映科研活动特征,或者用于描述事物之间规律的数据集。它是科研活动的重要构成部分,也是现代科学研究的基础性资源[1]。在科研活动中科学数据与所描述的对象是相互对立的,它只能发挥表征性的作用,也是从事相关科学研究或者创新的依据。科学数据的主要特点有增值性、主导性以及不对称性等。其中科学数据在重复使用过程中能够产生全新的价值,即体现了增值性。这与科学数据的使用程度以及本身价值有关。科学数据对人类认识世界,改造世界的全过程进行了客观描述,并且对部分客观事物具有主导性。科学数据的使用者不同,其产生的结果也各不相同,这与使用者的经验、技术局限性有关,即体现了其不对称性。
1.3E-Science环境下的数据挑战
E-Science为科研活动提供了信息化环境,也提供了更为强大的技术支撑。E-Science环境下的科研活动开放度更高,更加提倡协同与共享。E-Science的出现让科学数据成倍增加,也推动了科学数据互联与共享。国际社会近年来加强了对科学数据的重视,ICSU成立了专门用于数据研究的世界数据中心。美国政府为了更好地利用科学数据,制定了“无偿、开放”的科学数据共享政策[2]。科学数据不仅来源于大型科研项目,如人类基因图谱研究等,也来源于各种小型科研项目中。这些小型科研项目多由高校科研人员发起,投入资金相对有限,在数据管理方面也不够完善。但是小型科研项目产生的数据增长速度十分惊人,约为科研项目产生数据的三倍。由于科研方式的差异,并缺乏统一的数据共享标准,这些科学数据往往缺乏专人管理,更谈不上有效的传播与共享。鉴于此,高校图书馆作为存储、传播科学数据的主要场所,应该承担起为小型科研机构服务的重任,制定有效的科学数据管理策略,以形成长效的科学数据共享机制。
2 E-Science环境下高校图书馆在科学数据管理中的定位
2.1科学数据的过程监护
E-Science环境下的科学数据管理是一个动态的过程,其管理工作贯穿整个数据生命周期[3]。科学数据中蕴含的规律与深层知识,需要通过数据整合与处理分析实现。科学数据无法像纸质资源或者传统的科研成果一样,能够被人们直接阅读或使用,而是需要通过不断筛选、完善,并且通过知识化才能被人们利用与共享。对于动态的科学数据集,在数据产生之初就需要密切监视,并且不但补充与更新,进而满足科研者的需求,高校图书馆就发挥着科学数据过程监护的作用。在这个过程中,高校图书馆需要制定标准的数据处理格式,并对数据质量进行控制、评估,保障所有科学数据符合要求。
2.2科学数据的嵌入式管理
与其它科学数据管理机构不同的是,高校图书馆能够对生命周期全程的科学数据进行管理。对于科研机构而言,他们希望能够在数据管理方面获得帮助,这就需要高校图书馆在科学数据管理生成前,积极加入到科研项目中,或者参与到科研人员的数据评估工作中。帮助科研人员确定合适的科学数据类型,或者制定合适的数据存储方案。在科学数据产生前期,高校图书馆的自身定位在于明确科研者之间的关系,加强与科研机构的合作,以为后续研究活动奠定基础。此外,高校图书馆在嵌入科研活动中的同时,也可以为科研人员提供资源支持服务,如帮助科研人员查找研究数据、提供科研技术或可视化工具等。
2.3科学数据的存档与教育
E-Science环境下的科学数据是动态变化的,在科研活动开展的各个阶段均会产生各类数据。部分数据需要长期存储,而部分数据只需要暂时保存[4]。部分数据在存储过程中,需要管理者对其进行有效维护,以便及时发现或者使用这些数据。科学数据作为科研工作者的智慧结晶,应该由高校图书馆承担起长期保存的重任。在E-Science环境下,若高校图书馆无法调用自身在保存科研资源方面的经验,无法尽快适应科研活动的需求,将很难保留可持续发展的动力。此外,高校图书馆作为开展素质教育的重要机构,在科学数据管理方面还处于摸索阶段,需要不但积累管理经验并加强学习,做好科研人员培训工作,以提升他们的数据管理与利用意识。
3 E-Science环境下高校图书馆开展科学数据管理的内容
E-Science环境下科学数据的共享,是建立在科学数据管理基础上。高校图书馆科学数据管理的主要内容包括数据描述、数据组织以及关联集成等。即要求高校图书馆对科学数据进行语义补充,深入挖掘数据之间的关联,进而让用户获得更为直观、全面的数据。
3.1科学数据描述
高校图书馆按照特定的标准规范,分析科学数据的类型、主题以及形态等,进而满足科学数据的组织需求,这就是数据描述。科学数据描述过程中需要关注多方面的因素,如数据产生环境、数据产生条件等[5]。首先,需要明确E-Science环境下具体的描述对象数据集。其次,依据元数据对科学数据进行描述,进而评估数据集的质量。元数据作为与数据描述相关的数据,能够为高校图书馆提供完整的数据描述方式,并且能够对分布广泛的数据集进行整合,提升高校图书馆信息资源的拓展性与操作性。在科学数据管理中,元数据发挥着在管理者、用户以及数据发布者之间传递数据集的作用。科研活动中的元数据包括原始数据集、相关文献以及统计数据表等,元数据体系结构。见图1。根据元数据进行科学数据描述后,能够生产相关的文档,进而为数据聚合分类提供便利。在确定统一的元数据标准后,科研人员可以根据相关标准进行数据集汇总,然后由学科专家对元数据质量进行评价,并于审核通过后发布。
图1 科研活动元数据体系结构
3.2科学数据组织
高校图书馆采取必要的手段使科学数据有序化,这就是科学数据组织。即通过对数据集中知识元素的内在规律进行揭示,并让这些数据按照一定的顺序排列,能够形成直观的知识体系。科学数据组织方法分为主题法与分类法两种,其中主题法基于知识语义网络,适用于划分领域与学科。而分类法基于知识聚合特点,适用于语义推理或数据挖掘中[6]。采用不同的组织方法能够产生不同的效果,进而满足不同用户的知识需求。高校图书馆在科学数据组织方面应用较多的是分类法,根据图书资源的特点与建设实际,高校图书馆已经形成了较多成熟的分类体系。E-Science环境下科学数据组织方法的确定,应该满足使用者的多元化需求,并且符合数据组织的包容性、扩展性,例如分类组配法就是较好的科学数据分类共享法。
3.3科学数据关联集成
E-Science环境下对科学数据进行关联集成,最终目的就是为了实现资源整合。科学数据关联集成包括两个方面,一是对数据语义、语法上的集成,另一方面就是将与科学数据相关的文献、信息等结合起来。数据集成即将存在关联的数据结合起来,进而为用户提供个性化信息。高校图书馆对科学数据进行描述、组织后,就已经形成了资源整合的基本结构单元,但是科学数据组织只是对数据的简单分类,并不能体现数据之间的内在联系,很难保障科研人员对数据的精确查找。这就需要高校图书馆引入概念图等技术,对科学数据进行深入分析。当前对科学数据进行集成方面应用最多的当属本体,这是对共享模型或主题进行规范化说明的一种有效方式,可以应用于任何学科领域。构建本体需要首先将数据进行抽象处理,然后再将抽象的概念变为词表,并应用合适的编码语言进行表述,以方面计算机识别与处理。
4 E-Science环境下高校图书馆科学数据管理模型的构建
科学数据是我国重要战略性资源,也是从事科学研究中的宝贵资产。科学数据管理是科研实践与政策共同推动的结果,也是满足科研数据共享需求的产物[7]。高校图书馆开展科学数据管理的主要目的,就是依据国家制定的科学数据管理规范,与科学数据专门管理机构一起推动资源共享。高校图书馆需深入分析与科学数据管理相关的各项因素,结合高校科研活动特点,构建符合学术信息资源管理需求的独特模式。
4.1 科学数据管理的相关因素分析
E-Science环境下高校科学数据管理,应该充分考虑科研人员需求与基本管理模式,并且综合以下几个方面的因素:①对不同学科类型数据的处理。要保障科学数据管理的统一性,高校图书馆需要考虑不同类型数据的格式转换,并制定合理的数据管理方案,明确数据的描述、组织与处理方式,在保障学科资源多样性的同时,实现对不同类型科学数据的有效管理,达到不同学科间的交流与信息共享。②重视科学数据的特征。科学数据是与科研活动相辅相成的,有别于科学文献,并具有科研生命周期特征。科学数据处于科研过程中,或者处于科学数据集中均有不同的特征[8]。③设置机构管理平台。高校科学数据管理需要设置专门的管理平台,在维持科学数据统一管理的情况下,实现对新知识、新学科的兼容,减少科学数据处理的随意性。高校图书馆也需要加强对管理人员的科学素质的培养,让他们能够熟练应用该平台为科研人员提供服务,有效管理、组织与共享各类数据。
4.2科学数据管理的模型架构
高校图书馆作为科学数据管理的主要机构,需要构建相应的管理系统来辅助实现各项职能。同时高校图书馆需要结合E-Science环境下的数据生命周期,设置能够对多种格式数据进行科学管理的模型,以为科研协作共享提供支持。根据高校图书馆科研数据的特征,以及科学数据管理的相应因素,设计出高校图书馆科学数据管理的基本模型。见图2。
图2 高校图书馆科学数据管理的基本模型
该模型主要有数据采集与提交、数据分发、数据存储以及数据管理等功能,也包括元数据录入、资源关联、个人资源管理等功能。其中系统根据提交数据的类型,设置相应的权限来完成数据提交,这就是数据采集与提交模块的作用。数据提交内容主要为元数据,也包括与之相关的信息,多采用Web方式提交。只有经过系统认证后方可提交信息,提交者包括科研人员、图书管理员等。由于部分科学数据存在版权限制,系统可支持用户进行跨库检索或提供检索出处,并支持进行元数据采集,进而为科研提供便利,这就是数据分发功能。数据管理模块的主要功能,则是对高校图书馆存储的科学数据进行访问控制,实现对不同类型数据、不同用户的分层管理。该模块还能实现不同客体之间的功能交互,如科研人员与图书馆员之间、图书馆员与系统之间的互动,打破了数据单向流动的局限,并能够对科学数据利用情况进行统计。
4.3科学数据管理的大致流程
高校图书馆在开展科学数据管理过程中,需要对元数据进行修正,保障这些数据更加符合生命周期的特征,进而更好地为科学数据共享做准备。高校图书馆科学数据管理的流程见图3。首先由科研人员或者课题组提供元数据,之后存储在临时数据库供研究人员使用,也支持科研相关者共享。然后通过对科学数据进行甄选分析与精确选择,并对元数据进行规范处理后存入长期存储数据库。最后由学科数据库收录特定的学科资源,以供大众使用或者出版发行。
图3 高校图书馆科学数据管理流程
5 E-Science环境下高校图书馆科学数据管理与共享的实现路径
高校图书馆拥有高素质的人才队伍,了解科学数据的管理与运作规律,是高校信息资源建设的首选机构,应该做好科学数据服务工作。目前我国很多高校图书馆已经构建了自己的机构知识库,如厦门大学机构知识库,并且在科学数据管理、组织方面进行了深入探索。高校图书馆应该充分发挥自身资源优势,设置分工明确的科学数据管理岗位,以促进科学数据的科学管理与共享。
5.1 制定科学的管理规范
E-Science环境下,要求高校图书馆协调多方力量,通过网络互联与资源共享,以更好地满足科研需求。要想保障科学数据管理的有序性,就需要制定科学的管理规范[9]。科学数据管理与共享的前提就是制度化,制定统一的科学数据管理标准能够实现信息同构,也能够增强信息资源的操作性。首先,高校图书馆需要统一元数据应用规范,并严格规定机读形式编码,以保障元数据应用功能的一致性。元数据承担着提供数据访问标准功能接口的作用,是高校图书馆发布、处理、评价资源的重要准则,因此制定统一的元数据应用规范十分关键。其次,高校图书馆可以选用开放式链接,解决异构系统无法进行信息传递的问题,实现图书馆信息资源的全面整合。开放式链接能够统一数据传递格式,允许信息在用户与服务商之间传递,并在保障平台的独立性的同时无缝链接所有资源。第三,设置基于网格的Web服务,进而实现不同系统之间的资源调用,使用户在任何地方都可以轻松获取所需资源。但是Web服务为单独的交互式集成平台,与语言无关,也需要遵循相关协议标准,包括WSDL、XML等,进而为用户提供统一的访问接口以及标准检索服务,实现对用户请求的快速处理、对检索数据集的精确、以及对定位数据的及时反馈。第四,高校图书馆还需要解决知识产权保护、数据长期存储等问题,这就需要制定与科学数据使用相关的政策,保障所有科学数据的利用与共享在规定范围内。5.2 积极整合分布式数据
高校图书馆在E-Science环境下应结合用户需求积极开发数字化资源,为科研人员提供所需的各项知识,加强科学数据整合与动态信息集成,进而构建适应科研活动需求的信息环境。同时高校图书馆应该做好日常知识管理工作,保障个人、团队以及用户知识系统之间的联系,以实现知识的高效利用[10]。E-Science环境下对科学数据的整合方式包括数据集成与构建数据库两种,面对当前多类型、多形式的数据资源,用户希望获得更加快捷的数据获取方式,并更加关注信息质量。高校图书馆是用户获取资源、支持科研的主要机构之一,需要积极整合分布式数据资源,构建分布式资源集成体系,实现不同类型资源的链接,以保障更加广泛的科学数据共享。E-Science环境下高校图书馆通过分析整合数据,并根据需求从多个角度展开讨论,为科研人员的数据后处理提供便利。网格技术是高校图书馆开展信息链接的基础,通过该技术可以使高校图书馆形成一个知识网络,形成纵横交错、节点众多的网络系统,让不同数据库的资源形成关联,并在深入整合的基础上形成知识元机构。实现与不同类型知识库之间信息的循环流动[11],进而实现全球范围内的数据资源共享。
5.3实现科学数据共享
科学数据管理是与科研活动密不可分的,只有对科学数据进行有效管理,才能为科研者利用科学数据提供保障。科学数据中不仅包括显性知识,也包括潜在的规律或内容,即隐性知识。实现科学数据共享存在较大的难度,这是因为一方面E-Science环境下科研人员可以随意发布信息,由于缺乏有效的监督、控制机制,很难保障信息资源的质量、稳定性。另一方面,非正式交流组织增多,科研人员的交流方式更加多样,导致信息资源的质量参差不齐,增加了整合与筛选的难度。高校图书馆要想实现科学数据共享,首先应该明确实现科学数据共享五大要素之间的关系见图4。科学数据共享五大要素之间是紧密联系,不可分割的[12]。高校图书馆应该加强对五大要素的重视,根据科研需求引入先进的资源共享标准与技术,做好科学数据的组织与管理工作,不断完善管理体系以满足科研需求。其次,高校图书馆应该增加数字化资源的存储量,为数据资源的重用创造条件。第三,E-Science环境使科学数据的长期保存成为可能,可以根据资源类型制定相应的数据保存机制,并对可行性、可靠性进行分析,以实现科学数据的长期存储与广泛传播。此外,高校图书馆也需要借助E-Science环境下的信息处理技术,让大量隐性知识显性化,进而为科研人员提供更为直观、准确的数据,解决隐性知识难以重复使用与共享的问题。
图4 科学数据共享五要素关系
5.4推出E-learning服务
高校图书馆的科研信息化以及丰富的馆藏资源,为推出E-learning服务创造了条件。E-learning可以理解为网络在线学习,是一种利用网络资源进行在线沟通与学习的方式。高校图书馆应该对户需求进行调研,加强对专业文献资源的组合与管理,并做好信息资源分类,以为科研人员提供最优质的科研服务。其次,高校图书馆应该顺应科研趋势,在整合分布式信息资源的基础上构建E-learning平台,对各种有价值的信息资源进行整合检验,并及时纳入学习资源库中。学习信息资源需不断更新,需要不断积累与沉淀,如此才能丰富学习资源库,并形成开放的E-learning发展模式。复旦大学图书馆于2011年根据发展需求构建了科学数据共享平台,能够为科研人员提供数据存储、在线交流学习以及数据共享服务,也具备为科研团队提供、保存与传播科学数据的功能。
6 结语
E-Science环境为科研活动创造了良好的技术条件,也促进了科学数据的流通与共享。高校图书馆是科学数据的记录者与科研项目的服务者,具有科研与教学相结合的独特优势。当前高校图书馆应该明确自身在科学数据管理方面的定位,充分发挥技术、管理团队、资源等方面的优势,加强与科研机构的合作,努力塑造在科研服务中的良好形象。
(来稿时间:2015年11月)
1.敖龙,李进华.E-Science环境下的科学工作流实现及其应用研究——生命周期与应用分析[J].情报科学,2011(1):113-117
2.钱鹏,郑建明.基于生命周期的高校科学数据组织研究[J].情报理论与实践,2011(11):83-86
3.杨鹤林.数据监护:美国高校图书馆的新探索[J].大学图书馆学报,2011(2):18-21
4.崔宇红.E-Science 环境中研究图书馆的新角色: 科学数据管理[J].图书馆杂志,2012(10):20-23
5.谢春枝,燕今伟.国内外高校科学数据管理和机制建设研究[J].图书情报工作,2013(6):12-17
6.李晓辉.图书馆科研数据管理与服务模式探讨[J].中国图书馆学报,2011(5):46-52
7.程莲娟.美国高校图书馆数据监护的实践及其启示[J].图书馆杂志,2012(1):76-78
8.赖剑菲,洪正国.对高校科学数据管理平台建设的建议[J].图书情报工作,2013(3):23-27
9.黄筱瑾.基于元数据的科学数据与科技文献关联研究[J].情报理论与实践,2013(7):27-30
10.游毅,成全.基于关联数据的科研数据资源共享[J].情报杂志,2012(10):146-151
11.丁宁,马浩琴.国外高校科学数据生命周期管理模型比较研究及借鉴[J].图书情报工作,2013(6):18-22
12.司莉,邢文明.国外科学数据管理与共享政策调查及对我国的启示[J].情报资料工作,2013(1):61-66
Research on the Path of Scientific Data Management and Sharing in University Library under the E-Science Environment
Sun Jizhou
( Library of Nanchang Hangkong University )
〕E-Science is a new research and cooperation model based on the formation of advanced technology, scientific data in the E-Science environment is growing rapidly, but there is a lack of sharing mechanism, which requires the university library to undertake the task of scientific research service. University library is the process monitoring system of scientific data, the embedded management mechanism and the scientific data archiving and education institution. The main management contents include scientific data description, scientific data organization, scientific data association and so on. University Library in E-Science environment should be based on scientific research needs to build a scientific data management model, develop scientific management standards, actively integrate distributed data, and launch E-learning services, and then truly scientific data sharing.
〕E-Science environment University library Scientific data Management and sharing
G252
* 本文系江西省社会科学规划课题“泛在知识环境下的昌北高校图书馆联盟建设”(项目编号:14TQ02)及“基于竞争情报教育提升大学生就业能力的实证研究——以南昌市高校为例”(项目编号:14YD004)的成果之一。
孙继周(1977-),女,硕士,南昌航空大学图书馆馆员,研究方向:图书馆资源建设。