国外数据管理研究最新发展及启示
2014-08-15
(嘉兴学院 浙江嘉兴 314001)
近年来,随着以计算机为代表的现代信息技术的迅猛发展,改变了人们工作学习的方式,特别是数字文献的日益增多,带给人们如何长期有效管理数字信息的问题。为此,国外高校图书馆在原有数字信息长期保存研究的基础上开始了数据管理的深层次研究,数据管理日益成为国外图书情报界研究的热点问题。数据管理作为图书情报研究的新领域,对于图书馆与科研人员长期合作,提高学科化服务水平具有重要意义,对提高图书馆员社会地位,开拓图书馆新的服务领域,提高图书馆文献信息服务水平,都具有重要的价值。有助于改变高校图书馆单纯研究数字资源保存的缺陷,充分发挥图书馆在信息整序方面的职业优势,进一步提升图书馆学科化服务。因此,加强对数据管理相关问题的研究,关注国外数据管理研究的进展,借鉴国外研究成果及取得的经验,对于推动我国数据管理研究的发展很有必要。
1 国外数据管理研究概述
1.1 数据管理的兴起背景
近年来,国外高校图书馆在多年快速发展之后面临技术发展、资金紧缩、学习行为改变、学术与图书馆文献保障角色模糊不清、图书馆员技能单一、以及不适合现代信息社会发展要求等方面的问题与挑战。特别是以谷歌为代表的网络技术公司的发展对传统图书馆带来了极大的生存挑战,但同时,我们也应该看到计算机技术的发展为图书馆开展新型文献信息服务提供了发展机遇。例如在数字信息保存领域,图书馆开始探索数据长期管理的技术与方法,以便使人类共有的数字化遗产可以为子孙后代长期共享。国外在数据管理领域中对积极管理、评价学术以及科学数据在整个生命周期中的价值等方面深入研究,探讨数据管理的技术与方法,对如何更好地开展数据管理的策略与方法进行探索。由此,诞生了图书情报管理的新领域——数字数据管理(简称数据管理)。
1.2 数据管理的出现
数据管理(data curation)是一个在信息领域新兴的职业,最早出现在美国国家科学基金会(National Science Foundation,以下简称NSF)2003年发表的由9位科学家提出的研究报告《通过信息基础设施促进科学和工程的革命(Revolutionizing Science and Engineering through Cyberinfrastructure)》中。这个报告的内容集中在大量的科学与工程数据方面,其中特别提到数据管理的问题。它认为目前多学科的数字化研究数据大量涌现,但没有系统的存档和保存研究数据的结果,一旦出现信息丢失的问题,损失将是巨大的。报告进一步指出,精心管理的数字数据仓库对科学和工程技术研究来说越来越重要,今后应该建立长期、可持续的科学研究数据知识库,以方便研究数据的长期保存与共享。做好这些工作需要具有专业技能的人员,图书情报专业人员较适合,因为他们受过良好信息管理专业教育和掌握信息处理相关技术。〔1〕
1.3 数据管理的研究项目
美国学术团体协会(American Council of Learned Societies,ACLS)在2006年的报告中指出,越来越多的学者依赖于数字数据,对数字数据的长期保存日益重要,大学和大学联盟应该制定新的政策或建立数字数据保存中心以支持人文和社会科学数字数据的长期保存,并负责相关人员的培训,以提高数据管理人员的专业技能。
NSF2007年发表的信息基础设施委员会21世纪报告中再次强调数字数据的管理问题的重要性,并调研了the international Consultative Committee for SpaceData Standards(CCSDS)和研究图书馆联盟(RLG),指出应加强数据管理职业的规划与技术开发,以便保证数字管理的长期可持续发展。
1.4 数据管理研究的国际会议及专业教育
近年来有关数据管理的国际会议不断增多,也扩大了对数据管理研究的范围与领域。如:2006年数字图书馆联盟会议(JCDL)主办的一个数据管理与机构库的研讨会;以及美国北卡罗来纳大学图书馆与信息科学院主办的数据管理的学术会议,这两个会议引起了信息工作者对数据管理问题的极大关注,并对数据管理的专题进行了交流与探讨。英国数字管理委员会发起的“管理我们的科学数字遗产——全球面临的合作与挑战”会议受到多个国家专业组织的重视,会议对数据管理的定义、模式、技术、法律以及开展国际合作等问题进行了交流与探讨。另外,除了召开的会议不断增多,数据管理专业教育也不断发展,如北卡罗来纳州大学、伊利诺伊大学、密歇根大学均建立了一个新的保存信息专业。〔2〕
2 数据管理的研究内容
2.1 数据管理的定义
数据管理(data Curation)一词源于博物馆学,意为“策展”,表示对藏品持续养护并推出有主题的展览,最终提高馆藏面世率,促进科研和教育。当前有关数据管理的定义还没有统一的表述,有一些重点文献的定义值得关注,例如在英国数字管理中心(DCC)网站指出,“数据管理是保持和增加价值到数字信息的可信主体,为现在和未来使用,特别是在数字数据的整个生命周期中,对科学和学术材料的有效管理和评价”〔3〕。在维基百科全书中写到:“数据管理包括对所有需要长期保持数字化可读性的数字对象的管理,使数字对象在整个生命周期中或未来时间对用户长期可用的行为;或者在数字存档和数字保存中,对需要保持数据良好的数据生成和管理的所有过程”〔4〕。在美国加利福尼亚数字图书馆(CDL)词汇表中定义数据管理是对数字文献进行管理、监督,以提供可以长期访问的行为。英国联合信息系统委员会(JISC)在2004年的相关报告中专门就图书馆中的data curation及相关概念作了解释,还对数据管理的相关概念问题进行了比较,指出数据管理(data curation)是在管理和创作过程中对数字数据的使用,保证它适合于当前的使用目的,并可供将来的发现和再利用。对动态数据包括连续的丰富内容和不断更新,保持其适合所需目的使用。
从以上定义可以看出,数据管理的定义都强调积极的干预和保持未来的可用性,而数据管理的重点是强调数字数据的可持续性、再生性和可靠性以及值得信赖的数据资源内容。〔5〕综上所述,笔者认为:数据管理是保存数字数据长期可用的一项持续的任务,要通过专业数据管理人员的日常维护使数字数据得以长期使用,并通过相关内容的开发为科学研究提供丰富的科研数据,实现价值增值。
2.2 数据管理的原因
(1)数字研究数据迅猛增长。近年来,随着计算机技术、网络技术的飞速发展,采用计算机网络开展科学研究的学者越来越普遍,由此产生大量数字科学数据需要存储。
(2)灰色数字科研数据不断增多。在众多科学研究数据中,除掉一些公开发表的数字信息数据,还有许多大学、科研机构内部产生的大量灰色数字数据需要管理。
(3)数字数据类型多样。从数字数据的存储类型来看,多媒体数字文献日益增多,数字数据类型复杂多样,给数字数据的长期保存带来困难。
以上因素都表明对于数字数据的长期保存,需要一个专业的机构才可以完成,以便使数字数据得到有效的管理和长期应用。
2.3 数据管理的最佳人选
对于管理数字数据的人员选择,在IT人员与图书馆员之间开始了激烈的角色选择的斗争。一般来说,IT人员重视信息安全管理方面;而图书馆员重点关注数字信息的长期使用和信息安全,包括对长期保存的数字数据进行分析,建立数字数据长期保存标准等。在传统印刷文献的长期保存中,图书馆员形成了独特的管理模式与方法,如文献的编目、索引等,他们对数字数据管理也同样具有经验和能力,因此,许多用户都认为图书馆员是数字数据管理的最佳人选。
2.4 国外数据管理的实践案例
(1)英国数字数据管理中心。英国数字数据管理中心(DCC)是世界领先的专业数据管理中心,在英国高等教育中,对研究数据的管理方面它拥有较高的数据管理能力。可以对任何一个英国高校或研究机构想要存储、管理、保护和共享的研究数据给出专业化的建议。2004年3月-2007年2月为DCC发展第一阶段,这一阶段的目标是建立数字数据管理的组织机构,其中工作组人员包括数据专家,记录管理,图书馆,档案馆,研究人员(如数据的创造者)和决策者。DDC中心也要求参与公共和商业部门的项目活动,制定工作标准和确定数字数据保存所采用的工具然后建立DDC网站论坛提供对重要数字信息管理的交流平台。2007年3月-2010年4月为第二阶段。在这个阶段中,重点是直接参与研究社区数字信息保存的活动,创建电子科学数字数据管理资助基金和启动一些个案研究。第三阶段(2010年5月 -2013年2月)进一步开始加强对数字数据保存项目的结构性改变,从开发管理工具到数字数据能力建设重点都进行了改革,进一步提高了对英国高等教育研究社区的数字数据保存于管理能力。特别是在2011年由英国高等教育资助委员会(HEFCE)批准,作为其大学现代化倡议,开始对21个大学的数字数据管理实践项目。通过对以上大学数字研究数据的管理实践,训练了专业人员积累了数字数据管理的经验,建立了数字数据管理的基础设施,确立了进一步发展的策略。〔6〕
(2)数据管理的生命周期模式。DDC通过对数字数据管理的实践,提出了数字数据管理的生命周期模式,指出数据管理是对整个生命周期中的数字数据进行维护、保存和增值的服务方式。对研究数据进行积极主动的管理,以便减少其对长期研究价值的威胁和数据过时老化的风险,同时对大量研究数据进行有效的管理,可以减少重复劳动,加强信息共享,最终提高数据保存的质量。在数据管理生命周期中可以对任何二进制的数字形式进行有效管理,如数字对象、数据库等。其中数据库包括结构性记录或数据存储在计算机系统上,数字对象有文本、图像文件、声音文件以及相关文件和标识符或复杂的数字对象格式如网站等。在数据管理的过程中,按照以下顺序开展工作:A构思;B创建和接收;C评价或选择;D摄取;E保存行动;F储存;G存取、使用和重用;H 转变;I处置;J再评价。〔7〕
3 启示
3.1 图书馆应积极开展跨系统的数据管理战略合作
在美国很多数据管理研究项目都得到了资金的支持,这些基金单位包括:国家科学基金会(NSF),研究机构博物馆和图书馆服务(IMLS),梅隆基金会(the Mellon Foundation)等。而这些研究项目的共同特点是开展了跨行业、跨系统、跨地区的合作,如国家档案和记录管理中心、美国国家海洋科学数据中心和大气管理局的国家气候数据中心、国家冰雪数据中心等。图书馆通过数据管理项目同这些中心开展合作,获得了跨系统合作进行数据管理的经验,使数据管理信息系统的开发更具针对性与实用性。另外,图书馆通过参与国家数据管理研究项目,可以培养大量的数据管理人才,积累管理经验,提高数据管理的能力与水平。〔8〕
3.2 加强对大学校园研究数据的管理服务
大学校园对于科学数据保存与管理的需求日益迫切,也成为开展数据管理的重要领域。美国的一些大学图书馆如:康奈尔大学、普渡大学、麻省理工学院等,已与明尼苏达大学图书馆已经开始了数据管理伙伴关系计划,提高大学图书馆在数据管理方面服务的能力。通过数据管理服务图书馆可以帮助教师获得网络信息基础设施服务,协助教师对研究数据进行系统的管理,建设研究资料库。并通过对数据的科学分析,对相关的研究信息进行深度挖掘和开发,提高教师的科研效率,辅助教学科研对数据分析的需要。
3.3 加强数据管理专业馆员的培训
数据管理是图书情报界在网络信息环境下开展服务的重要新领域,其服务方式主要是通过信息技术手段,因此,加强对现有数据管理人员的培训,提高他们的专业知识水平,特别是计算机操作能力显得尤为重要。只有不断提高数据管理员的专业技能,才能使图书馆数据管理员在科学数据管理方面发挥更加重要的作用。还可以通过数据管理员的工作使广大科研人员认识到数据管理的重要性,培养良好的数据管理意识,采纳图书馆员的数据长期保存的建议,使大量科研数据可以长期利用与共享。
3.4 应加快数据管理共享空间的发展
随着数字资源管理需求的日益迫切,世界范围内出现了大量的数据管理实践活动与研究项目,如英国的数字管理中心、美国的国家研究资金资助的数据管理实践项目等,也有越来越多的在基层数据管理社区实践中建立的数据管理共享社区,以及一些专业图书馆和信息科学组织等建立的数据管理组织与教育计划。因此,我国数据管理项目的发展也应该尽可能多的给予数据管理研究实践以更多的支持,以便促进数据管理研究的快速发展。特别是一些大学或机构建立的数据管理研究共享空间,应作为发展数据管理项目的先导,优先予以发展,这样为将来更加深入的开展数据管理项目提供经验与技术支持。〔9〕
3.5 数据管理研究今后应关注的重点
3.5.1 数据共享与知识产权。对科学数据实施保存、管理与开发是一项非常有意义的活动,不但对当代科学研究的发展具有重要的信息支撑作用,同时,对将来科学数据的长期共享也具有极其高的价值。然而,数据共享如果处理不好往往容易对版权人的利益造成侵害,因此,在进行数据管理过程中,处理好数据共享与知识产权的关系尤为重要,也是数据管理广泛发展过程中要进一步解决的问题。
3.5.2 元数据与数据管理格式。数据管理的最大挑战是如何保证数据一旦被保存后可以长期共享利用。然而,数据格式众多,给数据管理带来困难,保存的科学数据经过一段时间后会因为技术过时无法阅读使用,而这一问题解决的最好方式就是采用数据管理的元数据格式。但是,对于研究数据来说,除了在数据管理中要统一元数据格式以外,还要注意在对数据进行技术呈现的时候确定数据的目标、元数据选择标准等。也就是说可以将所有数据的结构、大小、什么时间创建、什么时间消亡、被哪些人使用等作为元数据,但这些信息可能会延伸得太广,如果不加以控制而试图去建一个非常完美的元数据管理体系,必败无疑。因此,开展数据管理元数据格式的进一步研究也是下一步需要解决的问题。
3.5.3 建立受控词表与分类法。对于数据管理来说,如同其他管理文献方式一样,最为重要的也是要解决将来信息检索的问题,因此数据规范与否显得特别重要。我们在今后的工作中,应建立数据管理受控此表与分类法。采用分级的方式开展数据管理工作,使数据管理更加规范,也更加准确与细致的反映数据的原貌,以便使数据管理更加规范,能够被广大用户长期共享。
3.5.4 本体与数据管理。对于科学数据来讲,不只是数据可否阅读的问题,其数据的逻辑结构所呈现的科学内容需要被完整的保存,因此,本体是一个不可忽视的内容。本体在数据管理中具有广阔的应用前景,运用本体论方法对数据进行本体构建,可以解决数据孤单无联系的缺陷,提高数据管理的效率。通过列出研究课题所涉及到的词条,按照词条的固有属性和专属特征进行归纳和修改,对词条建立类以及层级化的分类模型,加入关系、添加实例,最后建立研究数据完整的本体模型具有重要意义,也是今后值得研究的重点。
1.Macdonald S,Martinez-Uribe L.Collaboration to Data Curation:Harnessing Institutional Expertise.New Review Of Academic Librarianship〔serial online〕.April 2,2010,16:4 -16
2.Goble C,Stevens R,Hull D,Wolstencroft K,Lopez R.Data curation+process curation=data integration+science.Briefings In Bioinformatics〔serial online〕.November 2008,9(6):506 -517
3.www.dcc.ac.uk/about/2012 -12 -12
4.http://zh.wikipedia.org/wiki/Wikipedia:%E9%A6%96%E9%A1%B5,2012-12-12
5.Lord P.M acdonald A.Data curation for e Science in the UK:an audit to establish requirem ents for future curation and provision.〔2012 -11 -29〕.http://www.jisc.ac.uk/uploaded -documents/e - ScienceReportFinal.pdf
6.http://www.jisc.ac.uk/2012 -12 -10
7.http://www.dcc.ac.uk/sites/default/files/documents/publications/DCCLifecycle.pdf,2012 -12 -12
8.Walton G.Data Curation and the Academic Library.New Review Of Academic Librarianship.April 2010,16(1):1 -3
9.Schmidt L,Ghering C,Nicholson S.Digital Curation Planning at Michigan State University.Library Resources& Technical Services.April 2011,55(2):104 -118