欧美数字保存成本模型研究
2016-06-20肖秋会
肖秋会 徐 阳
(武汉大学信息管理学院,武汉,430072)
欧美数字保存成本模型研究
肖秋会徐阳
(武汉大学信息管理学院,武汉,430072)
[摘要]本文梳理了欧美数字保存成本模型的研究进展,并以NASA-CET、LIFE和KRDS等典型模型为重点,分析了其结构及成本计算工具。最后,归纳了现有数字保存成本模型的不足,展望了未来发展趋势。
[关键词]数字保存成本核算模型
数字保存(Digital preservation)是指对数字信息进行长期有效的存储,并实现其长期可获取性[1]。对于数字保存机构而言,核算数字保存所需的成本,权衡本机构的人力、物力与财力,以保证数字保存的可持续性是一个关键性问题[2]。根据对会计期间的划分,成本可以分为捕捉过去的成本(事后成本)和预测未来的成本(事前成本)[3]。数字保存运用现代成本管理理念,不仅要做好保存过程中的成本控制以及事后的成本核算和分析工作,更重要的是做好成本预测,即事前成本核算。数字保存成本模型(Digital Preservation Cost Model)可以加强成本预测,比较不同保存方式所产生的费用,帮助机构按照成本最优化的要求,对数字保存活动进行预测、决策、控制、分析和考核,为确保数字保存的可持续性提供依据[4]。
1欧美数字保存成本模型研究进展
20世纪90年代,随着数字信息长期保存实践的发展,人们开始意识到数字保存成本的重要性。1996年,John Garrett和Donald Water首次在其研究报告《保存数字信息》中指出:“除了管理它们(电子信息)的操作环境,以及通过硬件和软件平台进行迁移,数字档案馆的第三项职责是管理这些活动的成本。……我们需要正式的、详细计算数字档案馆所耗成本的模型”[5]。此后,欧美国家积极开展数字保存成本模型研究,具体如表1所示。
表1 欧美数字保存成本模型[6]
本文将NASA-CET、LIFE和KRDS三个模型作为典型进行分析,这三个模型较其他模型开发时间早,且后续得到充分的实践和完善,为其他模型的开发提供了借鉴。其中,NASA-CET是目前开发最完善的数字保存成本计算工具,用于计算地球和空间飞行项目数据的保存成本[7]。LIFE和KRDS成本模型的结构和方法不同,但都覆盖了数字保存的完整生命周期,CMDP、CMDA等模型的开发都受到了这两个模型的启发。其中,Stephan Strodl等将LIFE模型应用于小型办公室和家庭办公室的自动归档系统,研发了适用于核算小规模数字保存成本的模型[8]。
2欧美重要数字保存成本模型NASA-CET、LIFE和KRDS分析
2.1NASA-CET
NASA-CET是美国航空航天局的合作伙伴Stinger Ghaffarian Technologies (SGT)公司为NASA开发的成本计算工具包,是一个基于Excel的Visual Basic(VBA)应用程序,适用于地球和空间科学领域。
NASA-CET的构成及操作原理如图1 所示。该工具采用统计曲线拟合技术进行类比成本估算,构建了一个具有对照作用的数据活动资源库。其中,数据活动参考模型是CET的基础,描述数据服务机构提供的信息管理和用户服务功能,分为操作功能和支持功能两类,具体如表2所示。该工具将NASA空间科学数据中心、分布式主动存档中心(DAACs)、地球科学信息合作伙伴(ESIPs)等机构的数据活动信息,映射到数据活动参考模型,明确每一项功能的数据活动成本构成。
用户运行NASA-CET,首先在菜单中选择数据保存生命周期内包含的操作功能和支持功能,这些被选定的功能称为新的数据活动集;其次是设定每项功能的参数,选择服务水平。之后,CET采用统计曲线拟合技术将新的数据活动集拟合到对照数据活动资源库,用类比法估算出每一项功能所需的成本,最后输出数据保存生命周期的总成本。NASA-CET的优点是功能参数设置详细,估算结果精确度较高,除了估算成本还可以对数据保存活动的人员配备水平以及保存质量做出评估。缺点是对用户要求高,操作难度较大,用户要准确把握数据活动及其相关参数,否则会影响数字保存成本核算的精度。
图1 NASA-CET概念图[9]
操作功能1摄入数据2产品生成3存档4用户检索和订购信息5信息获取和分发6用户支持支持功能1升级元数据文件等2系统和硬、软件开发3维护和增强定制应用软件4系统工程等支持工程5管理6技术协调7设备/基础设施管理
2.2LIFE(Lifecycle Information For E-Literature)成本核算模型
LIFE是伦敦大学学院(UCL)和大英图书馆的合作项目,旨在为各类信息收藏和服务机构提供数字信息采集、整理、保存及利用等覆盖数字生命周期的成本分析和观察,提供实用的成本测算模型,估算数字信息在未来数年的保存成本。
2.2.1LIFE模型
LIFE将数字资源从创建到最终存取的整个过程视为数字保存的完整生命周期,数字保存成本即各个阶段的成本之和,其计算公式为:
LT(时间从0到T的完整生命周期的成本)=C( Creation,创建) + AqT( Acquisition,获取) + IT( Ingest,摄入) + MT( Metadata Creation,元数据创建) + BPT( Bit stream Preservation,比特流保存) + CPT( Content Preservation,内容保存) + AcT( Access,访问利用)
这些“阶段”代表了数字资源生命周期中相互关联的活动集合而成的高层次活动,LIFE将其进一步细分为“生命周期元素”,构成LIFE模型。如表3所示。
表3 LIFE模型[10]
生命周期元素属于相对较高的层次,着重于数字信息生命周期中那些特定的处理活动,能够给组织机构的数字保存提供有用的成本信息。LIFE将生命周期元素的具体组成部分称为“生命周期子元素”,在这一细化层面,不同类型资源的生命周期子元素表现出相当大的差异性,因此LIFE模型中的子元素划分仅仅作为成本估算的一种参考而非必需。
2.2.2LIFE预测性成本计算工具
LIFE预测性成本计算工具操作界面简单、估算快捷,是一款用户友好型工具。该工具目前的最新版本是life3_ver50 Excel工作表[11]。用户只需要在基本输入工作表中输入数字保存的起止年份、选择保存材料的原始媒介类型、来源、项目每年处理数字材料的数目以及机构的大小,就能得到一个最原始的成本预测结果输出表。由于LIFE项目的实证、案例研究有限,缺乏充分的数据对该工具进行测试,该工具的精确度和准确度还有待改进。
2.3KRDS
KRDS(Keeping Research Data Safe)项目旨在帮助英国高校和科研机构核算科研数据长期保存的成本,并制定相应的管理战略。该项目研究了已有的成本模型LIFE和NASA-CET,最后在参考OAIS和透明成本计算法(TRAC,Transparent Approach to Costing )的基础上,提出了科研数据长期保存的成本框架,其构成如图2所示。该成本框架由活动模型、成本动因和资源模板三部分组成。其中资源模板是该框架的核心,活动模型和成本动因都要参照资源模板中的资源类别进行分析,最终将各类资源的成本相加得到总成本。
图2 KRDS成本框架[12]
2.3.1KRDS资源模板
KRDS资源模板参照了透明成本计算法(TRAC)。TRAC广泛应用于英国的165所高等教育机构,用来核算高校的教学、科研以及其他主要活动的经费[13]。TRAC的资源成本包括:员工成本、设备成本、差旅成本、消耗品成本、物业成本和间接成本。KRDS资源模板如表4所示,除了TRAC的六类资源成本外,还增加了外包成本和存档成本。
表4 KRDS资源模板[12]
2.3.2KRDS活动模型
KRDS活动模型的构成借鉴了LIFE模型、NASA-CET和OAIS参考模型,其作用是帮助机构确定资源消耗在哪些活动上,具体如表5所示,分为预存档阶段、存档阶段和支持服务阶段,每个阶段对应相应的活动和子活动。每一项活动都要对照KRDS资源模板确定其消耗的资源成本。
2.3.3KRDS成本动因
KRDS成本动因是指影响保存成本的关键因素,分为经济调整和业务调整两大类。经济调整包括通胀、通缩、折旧等。业务调整包括科研数据的文件格式、数量或所需的元数据等因素,这些因素都与科研数据收集的层次相关。科研数据收集包括3个层次:①只收集首席研究员和研究项目直接参与者创建的科研数据;②收集特定的学科或研究团体的所有科研数据;③除了项目研究人员创建的数据,还要收集研究参考引用的数据。不同的收集层次直接影响科研数据的保存数量,而数量的大小又会影响存储介质的选择以及投入的人力资源,最终影响设备成本、员工成本等。
2.4NASA-CET,LIFE和KRDS三个模型的案例应用
NASA-CET,LIFE和KRDS是三个不同领域的数字保存成本模型,在模型开发过程中都进行了案例研究。其中,NASA-CET适用于地球和空间科学领域,开发者主要通过美国宇航局的地球和空间科学飞行项目,对模型进行测试调整,逐步构建了29个对照数据活动作基础。同时,借助美国国家海洋和大气局(NOAA),英国、法国以及欧洲气象卫星开发组织(EUMETAST)的相关科学数据保存活动进行模型测试,来进一步强化对照数据活动资源库[7]。LIFE适用于图书馆领域,项目第一阶段利用原生数字馆藏:VDEP(大英图书馆收藏的自愿呈缴的电子出版物资源)、Web Archiving(网页存档计划)和E-Journals(电子期刊)三种不同类型的数字信息进行样本研究。其中,VDEP的成本主要来自于馆藏资源信息的呈交与更新,Web Archiving中资源对象选择、资源采集许可等构成了获取阶段的成本,E-journals在资源存取阶段产生了一些成本,这些数据为LIFE生命周期成本元素的划分提供了依据。项目第二阶段将非原生数字资源作为研究对象,包括伦敦大学联盟机构馆藏(SHERPA-LEAP)和针对数字内容保藏的分布式保存环境(SHERPA-DP),前者用于比较不同机构所实施的数字资源生命周期要素及其成本构成,后者则研究集中化和分散化的处理对于保存成本的潜在影响。KRDS适用于高校及科研领域,项目组在英国国家考古数据服务中心、剑桥大学、伦敦大学国王学院以及南安普敦大学等机构,选取考古学、化学、社会人类学等科研数据进行研究,主要任务是将现实情况的数据保存活动与概念模型进行对照和调整。其次,还利用考古数据服务中心10年的数据保存和服务经验,测试经济调整和业务调整因素如何反应到成本结构中;在伦敦大学国王学院人文艺术数据服务中心的案例中,集中说明如何将生命周期中直接、间接产生的成本融入TRAC成本要素中。
表5 KRDS活动模型[14]
总之,NASA-CET,LIFE和KRDS三个模型的构建都包括概念模型创建和案例研究两部分,其中案例研究是最主要的部分,这不仅是为了检验和调整概念模型,主要是将模型与实际情况相结合,使得基于概念模型开发的成本计算工具能在实际应用中真正发挥效用。
3欧美数字保存成本模型的不足
欧美数字保存成本模型研究已取得了一定成果,但与实际需求之间还存在一定差距。主要体现为如下三个方面:第一,可用性方面。已开发的成本模型大多有详细的用户指南,但是很少有快速入门指南,或者方便易用的图形用户界面。潜在用户如果不花费大量时间进行学习和试用,将难以确定这个模型是否符合他们的特定要求。此外,数字保存成本模型评估需要数字信息管理领域的专家,但是实际情况下,负责计算成本预算的是财务人员,技术性的专业用语对于他们来说难以理解,模型的可用性就会降低。第二,可靠性方面。目前大多数字保存成本模型研究已经具体化,而非通用化,即针对特定的机构类型或特定的材料,或者基于特定的测算和调整方式,导致模型的多样性和复杂性[15]。很多数字保存项目正在实践摸索中,实证数据不够丰富,难以对模型进行全面的测试。第三,标准化方面。现有数字保存成本元素划分都是基于不同的活动、不同的资源要素,没有统一的标准。如果要针对不同的保存方法进行成本比较,缺乏统一的标准也就难以实现。
综上所述,欧美数字保存成本模型的研究成果对我们具有一定的借鉴意义。上述模型的构建背景都源于国外,有的模型还是为特定机构开发的,并不能直接为我们所用,但模型的构建方法值得我们借鉴,例如,NASA-CET利用对照数据库进行类比拟合的成本估算方法,LIFE和KRDS基于数字生命周期所构建的活动模型,等等。展望未来,应当对成本元素的划分标准达成共识,建议就数字保存活动的阶段进行统一划分,确保数字保存活动模型大框架的一致性,能够适用于大多数的信息管理机构;同时,对模型进行广泛的实证数据测试,调整其适用性;最后以概念模型和实证研究数据为基础,开发简单实用又精确可靠的成本计算工具,在较大范围内得到应用,能够使机构准确预测数字保存的成本和效益,实现数字保存成本与效果的最优化。
参考文献
[1]Bote J, Feijoo B F, Ruiz S. Digital preservation cost: A cost accounting approach[J]. The Learning Organization, 2013, 20(6): 419-432
[2]Bellinger M. Cost and business models for digital preservation: Developing digital life cycle management services at OCLC London[EB/OL].[2015-01-03].http://www.dpconline.org/graphics/events/presentations/pdf/BellingerDPCForum_CostsBusinessModels.pdf
[3]Kejser U B, Hougaard K, Johansen E,et al. Evaluation of cost models and needs & gaps analysis[R/OL].[2015-01-04]. http://www.4cproject.eu/community-resources/outputs-and-deliverables/d3-1-evaluation-of-cost-models-and-needs-gaps-analysis
[4]Kejser U B, Nielsen A B, Thirifays A. Cost model for digital preservation: Cost of digital migration[J]. The International Journal of Digital Curation,2011,6(1):255-267
[5]Garrett J, Waters D. Preserving digital information report of the task force on archiving of digital information[R/OL]. [2015-01-05]. http://www.clir.org/pubs/reports/pub63/reports/pub63watersgarrett.pdf
[6]Jackson A, Wheatley P. Digital preservation and data curation costing and cost modelling[EB/OL].[2015-01-05]. http://wiki.opf-labs.org/display/CDP/Home
[7]Fontaine K,Hunolt G, Booth A, et al. Observations on cost modeling and performance measurement of long-term archives[EB/OL].[2015-02-05]. http://www.pv2007.dlr.de/Papers/Fontaine_CostModelObservations.pdf
[8]Strodl S, Rauber A. A cost model for small scale automated digital preservation archives [R/OL].[2015-01-06].http://www.sba-research.org/wp-content/uploads/pubtions/PubDat202967.pdf
[9]Hunolt G, Booth B, Banks M.Technical description document Cost Estimation Toolkit (CET)[EB/OL].[2015-02-05].http://opensource.gsfc.nasa.gov/projects/CET/CET%20V2.4.zip
[10] The life project team. The LIFE3 Project bringing digital preservation to LIFE[EB/OL].[2015-01-06].http://www.life.ac.uk/3/docs/life3_report.pdf
[11] LIFE.LIFE3 Model Excel spreadsheet[EB/OL]. [2015-01-09]. http://www.life.ac.uk/3/docs/life3_ver50.xls
[12] Beagrie C. User guide for keeping research data safe assessing costs/benefits of research data management, preservation and re-use Version 2.0-July 2011[EB/OL].[2015-01-07].http://www.beagrie.com/static/resource/KeepingResearchDataSafe_UserGuide_v2.pdf
[13] Higher Education FundLing Council for England. Transparent approach to costing an overview of TRAC[EB/OL]. [2015-01-07]. http://www.jcpsg.ac.uk/guidance/downloads/Overview.pdf
[14] Beagrie N, Lavoie B, Woollard M .Keeping research data safe 2[R/OL]. [2015-01-08]. http://webarchive.nationalarchives.gov.uk/20140702233839/http://jisc.ac.uk/media/documents/publications/reports/2010/keepingresearchdatasafe2.pdf
[15] Blue Ribbon Task Force on Sustainable Digital Preservation and Access. Sustaining the digital investment: Issues and challenges of economically sustainable digital preservation(Interim report)[R/OL].[2015-01-10].http://brtf.sdsc.edu/biblio/BRTF_Interim_Report.pdf
Research on Digital Preservation Cost Models in Europe and America
Xiao Qiuhui Xu Yang
(School of Information Management Science, Wuhan University, Wuhan 430072)
[Abstract]This paper reviews the research progress of digital preservation cost models in Europe and America, and typically analyzes the NASA-CET, LIFE and KRDS models focusing on their structures and costing tools. Finally, the author sums up the deficiencies of the existing digital preservation cost models, and puts forward its future prospects trends.
[Key words]Digital preservationCost accountingModel
[作者简介]肖秋会,教授,研究方向:档案管理、电子文件管理、信息政策与信息法;徐阳,硕士研究生,研究方向:档案管理现代化。
[中图分类号]G273
[文献标识码]A
[文章编号]2095-2171(2016)01-0024-06
DOI:10.13365/j.jirm.2016.01.024
(收稿日期:2015-03-09)