基于iPRES的数字资源长期保存研究与实践发展分析
2019-06-14吴振新寇晶晶单嵩岩张润杰
吴振新,寇晶晶,单嵩岩,张润杰
(1.中国科学院文献情报中心;2.中国科学院大学图书情报与档案管理系;3.国际关系学院图书馆;4.首都经济贸易大学信息学院)
随着全球数字化进程进一步加快,越来越多行业、领域的信息以数字方式生成,并以唯一形式存在,但数字信息资源的保存和使用面临生命周期短、易被更改、严重依赖环境等风险,同时还易受自然灾害、战争和国际政治秩序变革等因素的影响。因此,数字信息资源的长期保存已经成为各机构战略资源管理的重要举措,并逐步成为各国国家信息安全的重要内容。
2004年起,数字资源长期保存国际会议[1](Inter nationalConferenceonDigitalPreservation,iPRES) 每年一届在亚、美、欧三大洲轮流举办,成为数字资源长期保存领域展示成果、宣传理念、学术推介、合作共享的专业平台,对全球数字资源长期保存理论和实践发展起到了积极的推动作用。我国研究人员一直关注和追踪着该会议的情况。[2-8]鉴于iPRES在长期保存领域的重要作用和前瞻性,本文旨在通过对2008-2017年iPRES会议论文的统计和分析,把握国际长期保存的研究重点和发展趋势,揭示研究热点、难点、未来发展趋势和国际合作状况,以期为我国数字资源长期保存的发展提供参考。
1 发文与合作分析
文章以2008-2017年的iPRES会议论文为数据来源,使用分析工具对其进行初步分析和挖掘。
1.1 总体趋势
对2008-2017年iPRES的会议成果(不包含PPT等非论文性质的产出)进行初步统计(见表1)。可以看出,iPRES的论文产出在2016年之前处于较为平稳的上升状态,2017年出现了急剧下滑。
表1 2008-2017年论文发表数量
1.2 作者、机构和国家分布
为了更准确地了解当前数字资源长期保存领域的概况,文章在表1的基础上进行了更深层次、更多角度的挖掘和分析,旨在挖掘出具有研究潜力和较强学术发展趋势的个人、机构和国家,为研究数字资源长期保存领域的学者或关注长期保存领域的个人提供参考。合作分析是掌握当前研究发展趋势的重要途径之一,主要研究不同作者、国家及机构之间的合作情况,通过合作分析可以发现当前研究的聚焦点。
1.2.1 作者发文及合作分析
笔者对534篇文章的作者进行了统计(对同一作者不同署名进行了确认和归一),得到了2008-2017年长期保存领域发文量Top20的作者(见表2),并对发文量Top10的作者其历年发文量做了统计和分析(见表 3)。
表2 2008-2017年发文量Top20的作者
(1)分析2008-2017年发文量Top20作者可知,德国费赖堡大学共4人发文50篇/次,奥地利维也纳技术大学共2人发文25篇/次,英国朴次茅斯大学共2人发文16篇/次,英国数字保存中心DPC共2人发文15篇/次,此外还涉及国家级图书馆4个、大学4所。从国家层面看,美国、英国、德国、奥地利独领风骚,均有高产作者。
(2)由近五年发文比重可以快速得知近五年来较为活跃的作者,避免因过度关注发文总量和长期积累量而忽略现实活跃度的情况,相当于从时效性角度对发文总量做了补充。由表3可知,Andrea Goethals虽然总发文量仅有8篇,但有7篇发表在了近五年的会议上,基本上可以认为是近五年内崛起的领域新秀;此外,还有A.Lee Christopher(总发文量13篇,近五年发文10篇)、Eld Zierau(总发文量13篇,近五年发文9篇)、Rudolf Mayer(总发文量8篇,近五年发文5篇)等人,在今后的研究中都值得重点关注。
表3 2008-2017年发文量Top10作者历年发文统计
(3)笔者分析了作者之间的合作共现情况,进一步发现了有跟踪价值的团体。如,英国科学与技术设施理事会(Science and Technology Facilities Council,STFC)的BrianMatthews所在的小组、丹麦皇家图书馆的Eld Zierau所在的小组、英国数字保存联盟(Digital Preservation Coalition,DPC) 的 Angela Dappert所在的小组等。
1.2.2 国家发文及合作分析
分析国家发文及合作情况有助于了解当前哪些国家在该领域的投入和产出较多,有助于寻求国外的合作伙伴,借鉴其成功经验。在对国家发文进行统计之前,笔者对国家名称数据进行了清洗:① 对同一国家名称写法不同的问题进行了处理,如合并Netherlands和the Netherlands;② 对联邦国家的名称进行了合并,如将北爱尔兰、威尔士、英格兰、苏格兰以及联合王国等统一著录为United Kingdom。
(1)表4为2008-2017年发文量Top20的国家,与高产作者情况非常一致,美国、英国、德国、奥地利等位居前列。
表4 2008-2017年发文量Top20的国家
(2)笔者研究了国家之间的合作共现情况(见图1)。图中画圈代表该国家的中心度较高,即在一定程度上与其他国家的合作较频繁。可以发现,美国、德国、新西兰、荷兰和丹麦的中心度较高,与世界其他国家合作相对频繁,在世界范围内具有较高的影响力。其中,丹麦虽然发文总量较上述几个国家处于弱势,但其中心度最高,也就是说其合作强度高于其他国家,在世界范围内比较活跃,合作范围比较广泛。相比之下,我国的发文量少,合作国家仅有德国。发文量少说明我国对数字资源长期保存领域的关注度、投入和产出都处于劣势;合作国家单一说明了我国在该领域的国际影响力和国家合作度均较低,未来应努力加强与世界其他国家的合作。
图1 国家合作共现
1.2.3 机构发文及合作分析
在对机构发文进行统计之前,依据文章贡献归属原则对机构名称数据进行清洗,主要针对同一个机构多种名称写法、不同语种、不同简称等情况进行合并,如一所高校的学院、分校、图书馆等都署名为该高校。由此,得到2008-2017年发文量Top20的机构(见表 5)。
表5 2008-2017年发文量Top20的机构
(1)由表5可以看出,发文量比较靠前的机构有大英图书馆、北卡罗来纳州立大学和维也纳技术大学等。值得注意的是,大英图书馆的作者并未进入作者发文Top20行列,这反映了大英图书馆的机构发文量并不主要依靠个人,而是依赖于工作人员的广泛参与,而北卡罗来纳州立大学和维也纳技术大学的机构发文量则更加依赖于小团队的产出。因此,笔者认为,虽然这3个机构的发文量相当,但由于大英图书馆参与数字资源长期保存研究的人员较多、与其他机构的合作也更为广泛而更具优势。在全球化的趋势之下,这种机构的生命力更强,具有较强的研究可持续性,出现研究断层的风险相对更低。
(2)从机构类型上看,包括10所大学、7所国家级图书馆和3个研究机构。10所大学中美国占了7所,英国、德国、奥地利各1所;3所研究机构都属欧盟国家。仅从数量上看,美国的参与机构更为广泛且成果较多,欧盟次之。而国家级图书馆正逐渐成为开展数字资源长期保存实践的主力。
(3)笔者根据机构间合作共现情况将其大致划分为以下4个团体。① 大英图书馆所在的机构团体。2008-2017年,主要与特塞拉(Tessella)公司、利兹大学、巴斯大学、Caixa Magica软件开展了合作。②北卡罗来纳州立大学所在的机构团体。主要与印第安纳大学、密歇根大学、布莱顿大学、DuraSpace等开展了合作。③ 维也纳技术大学的机构团体。主要与丹麦皇家图书馆、奥地利科技学院、INESC-ID、Secure Business Austria等开展了合作。④ 德国费赖堡大学的机构团体。主要与荷兰国家档案馆、荷兰国家图书馆、IBM、德国国家图书馆等开展了合作。
2 关键词分布与主题研究
为了进一步窥探2008-2017年数字资源长期保存领域的关注热点,并预测未来的发展趋势,笔者通过可视化工具对关键词的分布情况进行了分析,并揭示了2008-2017年iPRES的研究主题。
2.1 关键词频次分布
在进行关键词统计时,考虑到iPRES是一个关于长期保存领域的会议,“长期保存”出现的频次会远超其他词汇,为了避免遮盖其他重要词汇,笔者对“(long-term)preservation”做了过滤处理,得到关键词频次分布图(见图2)。可以看出,2008-2017年iPRES会议论文的关键词主要有:digital repositories、 digital archives、metadata、OAIS、digitalcuration、digital objects、 software、 emulation、access等,并呈现出逐渐弱化的趋势,其他关键词呈现“长尾”状,这在一定程度上说明iPRES会议论文既显示了比较集中的研究主题,同时涵盖的研究内容也比较广泛,形成了较为分散的“长尾”型研究发展状态。
图2 关键词分布
2.2 主题分布研究
关键词是文献核心内容的集中概括,可以较好地反映某一研究领域的主题分布。关键词和主题词共现都可称为共词,是指利用文献集中词汇对或名词短语共同出现的情况,确定该文献集所代表学科中各主题之间的关系。一般认为,词汇对在同一篇文献中出现的次数越多,则代表这两个主题的关系越紧密,这种关系在可视化分析时会以网络节点和边的形式体现在共词网络中,用于反映主题内容的亲疏关系。[9]关键词的共现可以帮助研究者预测当前的研究热点和趋势。在图2的基础上,笔者利用CiteSpace软件对关键词的共现情况做了可视化分析(见图3),发现中心性较高的关键词有:digital repositories、digital curation、digital archives、 metadata、 infrastructure、 workflow、authenticity等,笔者选取中心性大于0.5的关键词作为关键节点(见表6)。
图3 关键词可视化
2.2.1 数字资源长期保存的系统和工具
从上述分析中可以发现,“digital repositories(数字仓储)”频次最高、中心性较强,数字仓储的重要性不言而喻。“digital repositories”实际上代表了长期保存领域一个非常重要的研究问题,本文将这部分研究称为“长期保存的系统和工具”,其中涉及的主要关键词 包 括 “ digitalrepositories”“ tools”“systems”“software”,笔者以这几个词为代表,对数字资源长期保存的系统和工具在2008-2017年间的变化做了统计分析(见图4)。在这期间,以“数字仓储”为代表的系统和工具研究发展较为稳定,呈现出螺旋上升的态势。
表6 2008-2017年关键词共现关键节点
图4 2008-2017年会议系统和工具代表词汇统计
值得注意的是,“software”的关注度在2008-2011年一直处于较低水平,但于2012年陡然升高且持续处于较高的水平。笔者认为出现这种现象的一个重要原因是,随着数字信息体量和类型的增加、技术的不断更新,新一代或者满足特殊需求的软件及相关工具在逐渐更新,如 e-depot、Fedora、DAITSS、DSpace、ELAK、arxiv等系统;同时,许多新系统也在不断出现,如商业Ex Libris Rosetta长期保存系统,葡萄牙米尼奥大学开发的兼具格式转换、质量评估和元数据生成服务的CRiB仓储系统,[10]斯坦福大学开发的、能够支持存档存储库和其他存储机构的电子邮件的评估、处理、发现和交付开源软件ePADD,[11]芬兰CSC-IT科学中心开发的可以满足不同需求的模块化预摄取工具,[12]可信赖的便携式数字保存仿真平台等。[13]
2.2.2 数字资源长期保存的技术方法
技术方法作为数字资源长期保存工作的实践基础,是该领域研究的重要组成部分,长期保存的技术方法是一个复杂多元的集合体,涉及技术流程、认证评估、永久标识符等方面。[14]根据对2008-2017年iPRES文献的分析,笔者对数字资源长期保存的技术和方法做了分类,每个类目的主要关键词如下,历年的关键词频次见图5。
(1) 认证评估:authenticity、audit、evaluation、qu ality assurance、 trust、 appraisal、 certification、 assessment。
(2)迁移取证仿真:migration/virtualization、digital forensics、emulation。
(3)永久标识符PID:persistentidentifiers、Smarter Persistent Identifiers、Web Persistent Identifiers(wPID)、PURL、ARK、DOI、URN、HANDLE。
(4) 访问:access、webaccess、permanentaccess。
(5) 云:cloud&cloudcomputing、Grid。
(6) 技术流程:pre-ingest、ingest、storage、acquisition、digitization、file format identification、 format identification、workflow。
(7)封装格式:METS5、Bagit2。
(8) 语义:linkeddata、text processinganddatamining、ontologies、semantics。
(9) 监测:watch、monitoring、characterization、validation、characterization。
图5 2008-2017年会议技术方法代表词汇统计
可见,“迁移取证仿真”“认证评估”“技术流程”的出现频次远超其他。“迁移取证仿真”和“认证评估”出现频次在2011年之前趋于一致,并在2011年达到顶峰;之后“迁移取证仿真”的出现频次有所下降,但趋于平稳,2016年关注度又一次陡升;“认证评估”在2011年之后与“迁移取证仿真”的出现频次拉开了距离,但2012-2017年间受关注程度一直处于上升趋势,这与可信赖性一直是数字资源长期保存持续关注的问题有关。[15]技术流程作为保存仓储系统研发的主要内容,其受关注度基本与保存仓储系统趋同,随着新系统新工具的研发,其关注度也在2016年达到最高。
“访问”“云技术”“永久标识符”“封装格式”“语义”“监测”等的关注度相对低一些,其中,“封装格式”的关注度在2009-2011年、2014-2016年内出现了断层,其他类目则一直或多或少地作为研究点活跃在历年的iPRES会议上。这些类目虽然为数不多,但正在作为研究点逐渐受到研究人员的关注,很有可能成为未来研究的重点。数字资源长期保存技术和方法的不断扩充和更迭告诉我们,随着长期保存面临的挑战增多、保存需求的日趋复杂,研究的技术方法会更加多样、深入,更新也将更加频繁。
2.2.3 长期保存数字对象与元数据
数字对象与元数据一直以来都是数字资源长期保存领域的基础研究内容。在2008-2017年iPRES的会议论文中,数字对象的研究包括:digital objects、data dictionary、data model、content model、significant properties、conceptual models、SIP、AIP、DIP 等,虽然数量并不多,但每年的会议上都有所涉及。
相对数字对象,元数据受到了更多关注。从表6可知,“metadata”的中心性最高,与之密切相关的还有“PREMIS”“METS”“metadata extraction”“descriptive metadata”“representation information”等。其中,“PREMIS”保存元数据是目前数字信息资源长期保存领域公认的保存元数据标准,在历届会议上都有相关主题的论文,近几年以研讨会(Workshop)或专场培训(Tutorial)的形式出现,更大范围地推广使用PREMIS元数据体系。图6统计了2008-2017年iPRES会议元数据的代表词汇。
图6 2008-2017年会议元数据代表词汇统计
2.2.4 数字资源长期保存标准规范
标准规范是数字资源长期保存各个环节之间互操作的基础和根基,它贯穿于长期保存的整个生命周期,对长期保存系统的建设具有重要意义。目前,全球范围内公认的长期保存核心标准有:① 开放档案信息系统参考模型(Open Archival Information System,OAIS),它不仅界定和规范了长期保存的相关概念和术语,还建立了长期保存系统规划和设计的概念框架,并对保存系统的存在环境、功能组织以及信息基础架构等做了描述,对全球范围内的长期保存活动和实践起到了重要的指导作用,是长期保存的基础标准;② ISO 16163,即《可信赖仓储的审计及认证:指标与列表》(,TRAC),于2012年被认定为国际长期保存系统可信赖认证标准;③ PREMIS作为保存元数据的标准,在前文中已经提及。
图7为“standards”“OAIS”和“PREMIS”历年出现的频次:“standards”在2008年出现过一次,直到2012年作为关键词又一次被提及,此后相关研究就从未中断,并在2014年达到顶峰;“OAIS”出现频次则远高于“standards”和“PREMIS”,且呈现一种增长型的发展趋势,历年来围绕这一基础标准的讨论从未间断,尤其在2014年和2016年修订OAIS 2.0期间;ISO16363作为核心标准,经常以研讨会(Workshop)或专场培训(Tutorial)的形式出现。
图7 2008-2017年会议标准规范代表词汇统计
2.2.5 数字资源长期保存宏观规划与管控
保存计划作为OAIS标准中一个重要内容,定义了长期保存的整个生命周期及保存活动中对数字对象所采取的一系列保存行为的规划和政策,关系到长期保存活动实施的成功与否。长期保存宏观规划与管控的内容涵盖了国家层面的战略规划和政策、机构层面的长期保存计划、整个保存环境的监控管理等,需要综合考虑政策、法律、组织和技术限制、用户需求、保存目标等因素,并进行定期评价、更新相关规划与策略。
在iPRES的会议论文中,长期保存宏观规划与管控涉及到的词汇主要有“strategies”“policies”“planning”(见图 8)。其中,“policies”“planning”的波动不大,而“strategies”的关注度出现了较大的起伏,在2008年和2009年处于巅峰,之后几年迅速下降,2014年才逐渐回归大众视野,在近年的关注度也有所增长。数据分析结果表明,随着大数据的发展,数字信息长期保存的规划和策略也在随之调整,以应对变化中的挑战。
图8 2008-2017年会议宏观规划与管控代表词汇统计
2.2.6 数字资源长期保存的基础架构
长期保存的基础架构是长期保存活动在最开始阶段就要设计和确定的,对长期保存活动尤其是长期保存系统的建设具有指导意义。2008-2017年iPRES的论文中研究长期保存基础架构的不在少数,主要涉及的关 键 词有“infrastructure”“architectures”“frameworks”。
图9 2008-2017年会议基础架构代表词汇统计
由图9可知,3个基础架构关键词的变化趋势基本相同,开始都处于较高的水平,之后出现了2-3年的低谷,于2014/2015年达到一个小的峰值,近两年有所下滑。这个结果表明,在基础性技术研究方面,长期保存是与整个技术大环境一起发展的,新的技术将不断地应用于长期保存,因此造成了基础架构和技术系统的周期性更新。当一种新的基础架构逐步成熟后,该领域也随之进行研究和探索,并进入应用和改进阶段。信息技术的更新换代势必对数字资源长期保存领域带来同样的影响。
2.2.7 专门领域和不同类型的数字资源长期保存
大数据时代,数字资源格式、类型的复杂化为数字资源的长期保存带来了挑战。同时,由于对保存数字资源的意识在不断提升,越来越多的行业、领域都开始关注数字资源的长期保存管理。保存的资源类型从传统馆藏延伸到档案、文化遗产、社交媒体、软件工具、邮件、视听资源等,保存研究和保存实践也更加专门化和特性化。在2008-2017年的iPRES论文中,涉及多种不同类型对象的长期保存研究,既包括传统物理载体的馆藏资源,也包括原生数字资源,如软件、音视频、社交媒体、邮件、文化遗产、数字档案、博客、研究数据、科学数据和地理信息数据等。
图10 专门领域和不同类型数字资源代表词汇统计
由图10可见,除了通用词“digital objects”处于较高水平外,具体到每种类型数字资源的论文数量并不多。一方面是因支持相关研究的机构和项目相对较少;另一方面是由于数字对象本身比较复杂,长期保存的研究和实践发展尚处于探索阶段。值得注意的是 ,“ cultural heritage”“ audiovisual”“ research data”(即文化遗产、视听资源和研究数据)的长期保存和管理发展势头强劲,尤其是研究数据的管理于2011年被提出之后,得到了广泛的关注。
3 结语
iPRES所关注的问题清晰地反映了数字保存领域的发展趋势,随着全球数字化的飞速发展以及各国、各机构对于数字资产的重视,数字保存将会迎来飞速发展的时机。
从iPRES会议看,我国在数字资源长期保存领域的投入和产出都较少,缺乏国际间的交流、合作、共享。但实际上,国内很多领域和学者很早就开展了相关理论研究,也有少数机构进行了实践探索。其中,以国家科技图书文献中心(National Science and Technology Library,NSTL)的“国家数字科技文献资源长期保存体系”[16]最为突出。作为国家级的科技文献信息服务和保障机构,NSTL于2004年就开展了具有前瞻性的研究工作,于2014年启动了“国家数字科技文献资源长期保存示范系统”项目,带领中国科学院文献情报中心、中国科学技术信息研究所和北京大学图书馆等机构,在国内率先开展商业数字资源的长期保存实践探索,取得了一系列建设成果,同时在全国范围开展了一系列颇具影响的宣传和推广活动。特别是2016年底举办的香山科学会议,对国内数字资源长期保存研究与实践的发展产生了积极的推动作用。
第1届iPRES由中国科学院文献情报中心发起举办,[17]之后在2007年与 NSTL共同承办了第4届iPRES。[18]近日,NSTL和中国科学院文献情报中心成功获得联合承办2020年第17届iPRES会议(iPRES 2020)的许可。[19]必将对我国数字资源长期保存的全面发展产生积极的推动作用,对加强国际合作共享、共同发展产生深远影响。