APP下载

国外电子文件格式登记与管控项目研究

2020-12-07张照余苏州大学社会学院

浙江档案 2020年5期
关键词:软件数字系统

周 祺 张照余/苏州大学社会学院

近年来,国内档案界对于档案数据安全与长久保存策略的研究与实践集中于元数据的采集和数据存储备份两个方面。然而,随着读取信息的软、硬件环境的不断迭代更新以及新型数据结构的涌现,存储于介质中的原始档案数据将面临无法被读取的风险。解读信息的应用软件及其对应的文件本格式成为影响文件长期可读的关键因素。全球档案界对文件格式的关注始于21世纪初,很多国家的档案机构已开始限定归档文件的格式。文件格式管控逐渐成为信息长期传输、存储与利用关注的焦点。2007年起,西方国家提出应采取收集与分析文件格式信息并长期追踪格式变化的方法来保证档案数据的长期可读,并且开发出文件格式登记数据库、格式识别软件系统等。本文遴选出全球范围内8个典型的文件格式项目加以综述,以期为我国档案界对文件格式的管控研究提供经验。

在进行问题分析之前,需要明确和统一对“电子文件格式”的认知。本文综合OAIS参考模型[1]、英国国家档案馆、全球数字格式注册中心[2]对“格式”的定义,认为格式的定义有广义和狭义之分。广义的“文件格式”是传递人类可识别的“表达信息”与机器可识别的“记录信息”之间的描述,包括信息存储介质、信息传播语言;狭义的文件格式指电子文件媒体的结构与编码方式,可以分为文件包装器和编解码器。

1 国外档案文件格式登记与管控项目

1.1 Archivematica

Archivematica是COPPUL(Council of Prairie and Pacific University Libraries,系加拿大西部4个省的22所大学图书馆组成的联合体)开发的一个免费、开源的数字保存系统。它以标准的、可长期访问的数字集合为管控对象,目标是为技术和财政能力有限的档案管理员或图书馆员提供工具、方法等,以便更好地保存数字信息。由于COPPUL在此之前的项目缺少数据保存的部分特征与功能,如格式转换、保存元数据等,该系统很好地发挥了这些作用并弥补了数据难以长期保存的短板,同时也契合OAIS功能模型从信息“输入”到“访问”的架构。此外,项目人员参考系统运行过程中的经验及用户反馈,在“数字对象”进入“提交信息包(SIP)”这一过程的功能模块扩展到了OAIS模型之外[3]。

FPR(Format Policy Registry)是Archivematica系统重要的格式策略登记数据库。格式策略规定了需要应用于特定文件格式的相关操作、工具和设置(如转换为保存格式或转换为访问格式)。随着地区标准、实践和工具的发展,格式策略也将发生变化[4]。在登记新的格式信息入库时,FPR推荐使用“格式说明”“格式版本”“PUID”“访问格式和保存格式”等字段类型作为格式信息元数据。在FPR中,每个“格式记录”的是一个或多个相关的文件格式,而每个“格式版本”记录着一个特定的文件格式。如,图像格式GIF的“格式记录”由GIF 1987 A和GIF 1989 A两个“格式版本”组成;“PUID”是英国国家档案馆格式登记系统的唯一识别符号;“访问格式”和“保存格式”可明确此格式是否适合作为最终用户的访问格式和保存格式。

1.2 PRONOM

PRONOM是TNA(英国国家档案馆)早期针对电子文件格式问题开展的项目,它也是一项格式技术登记服务平台,描述了数字对象的技术依赖性,以支持文件格式的长期保存。这些技术依赖性与OAIS参考模型表示信息的概念相对应,包括对对象进行编码的格式、对这些对象执行操作(如创建、渲染和迁移)可能需要的软件工具以及这些工具对系统和硬件的依赖性[5]。此外PRONOM不仅是一个技术信息的数据库,还包括一系列支持数字保存功能的工具和服务,如保存风险评估、迁移路径规划、对象识别和验证以及元数据提取。PRROOM已经经历了多个开发阶段,目前的版本是PRONOM 6.2。

1.2.1 PUID

PUID(Persistent Unique Identifier,持久唯一标识符)为PRONOM登记系统中记录的信息单元提供持久、唯一且明确的标识符。该标识符对于数字对象格式的交换和管理至关重要[6]。开发PUID方案是为了记录和区分不同格式以及同一种格式不同版本的身份标识,该方案是可扩展的,在未来将扩展到包括其他格式登记系统中的各类记录信息,如压缩方法、字符编码方案和操作系统。PUID结构和编码限于表示具有技术规范的正式格式,而现实中很多文件格式没有正式的规范,或可能与软件无关,或是与特定软件产品一起开发的,因此PUID的缺点在于其粒度仅限于将一种格式与另一种格式区分开来,而不能体现某种格式的固有功能。

1.2.2 DROID

DROID(Digital Record Object Identification,格式识别软件)是TNA开发的一种支持PUID文件格式识别的工具软件,目前已在世界各地的文化记忆机构、政府部门等得到广泛应用,并嵌入到多种商业和开源数字保存产品中[7]。DROID的核心功能是准确识别文件格式,即使文件扩展名错误或丢失也能进行准确识别。进行识别的范围从广义类型到格式版本级别,如“Adobe PDF v.1.6—便携式文档格式”。所有有关文件格式的信息(包括DROID所使用的识别签名)都保存在PRONOM格式登记系统中。DROID目前可识别1400多种文件格式,并且这个数字一直在增长。此外DROID提供API接口,支持与ERMS(电子文件管理系统)或数据库进行集成,识别结果通过XML文件形式返回。

1.3 Format Profile

Format Profile(格式概览)是NARA(美国国家档案与文件署)基于数字保存计划(Digital Preservation Program)提出的。2018年NARA重新修订《永久电子文件移交格式指南》(以下简称《指南》),这份指南充分反映了各机构在创建和使用电子文件方面不断发生着的格式变化过程[8]。NARA认为,格式是数据长期保存风险评估和保护规划的重要检测指标,因此应定期对数字档案资源格式进行测评,确定馆藏数字资源格式风险等级。等级包括“即将丢失信息的格式”“高危格式”“中危格式”“低危格式”“无风险格式”,以确认哪些资源缺少长期保存措施或者需要更新长期保存策略,哪些保存策略需要优先选择和实施等。目前NARA已检测超过16种文件类型中350个格式的变化。

1.3.1 Collection Profile(馆藏概览)

为更好地理解风险,NARA创建了Collection Profile(馆藏概览)。它是一个记录归档要求及保管目标的工具,为拟定“保存计划”而提供关键信息,以便采取可量化的方案来评估文件格式的可持续性和电子档案长期保存问题。电子文件保管部门还与系统所有者、IT部门合作,统计所有电子文件系统的文件格式,最终明确NARA馆藏格式种类与数量。

1.3.2 Risk And Prioritization Matrix(风险和优先级矩阵)

2014年,NARA创建了一个量化的移交格式适用性矩阵,即Risk And Prioritization Matrix(风险和优先级矩阵),其中包括了37个关于可能影响格式可持续性的风险数据点,即公开程度、采用程度/可行性、透明度、自描述、外部依赖性、许可和专利、使用加密/权限管理等,每个数据点和类别的权重各不相同。该矩阵帮助《指南》的编制团队确定并排列了永久电子文件移交至NARA的“首选”或“可接受”格式。在此基础上,团队成员可根据数据点对格式风险的影响程度来调整权重,如格式对软硬件的需求、格式转换损失等。这一概念性认识已被应用到《指南》中的所有格式以及馆藏中的70多种格式。由此确定了2种高风险、26种中等风险和42种低风险格式,较为熟悉的有:高风险图像格式RAW及中风险文本格式Microsoft Word Office等。

在完成以上验证分析后,NARA借鉴模拟信息保存中常用的“需要—使用—价值”矩阵模型,并进一步将其调整为“使用需求—流行度—可行性”三个维度。“使用需求”指风险矩阵中确定的风险值,“流行度”由文件形成机构创建并移交到NARA的格式流行来定义,“可执行性”系NARA当前格式转换的能力或转换工具的可获取性。该矩阵模型工具从2018年夏季开始直至今日仍在持续使用,这种审查馆藏剩余格式的方法为“保存计划”的风险和优先顺序勾画出一个更完整、切实的图景。

1.3.3 ERA2.0(电子文件档案系统2.0版本)

ERA是NARA基于OAIS模型开发的专门用来接收、管理、保存和利用美国联邦政府永久性电子文件的综合数字档案馆系统。2018年8月,ERA2.0核心功能模块上线并投入使用。NARA对该版本的原始保存库进行全面更新,并且嵌入格式风险评估的功能模块,使其能够报告和监控所有馆藏数据,甚至可以提供格式风险和格式迁移计划方面的部分文档[9]。

1.4 Sustainability of Digital Formats(数字格式可持久性)

该项目由美国国会图书馆(LOC)建立,它曾与GDFR和JHOVE协同合作开发文件格式识别编译器。项目目的包括:制定有关数字内容格式的战略规划,确保国会图书馆能够长期保存数字内容;提供关于当前和新出现格式的信息清单,包括确定所需工具和详细文件,确保国会图书馆能够管理这些按照格式要求创建或接收的内容,以及识别并描述有希望实现长期可持续发展的格式;找出并描述存在风险的格式,并制定策略来维持它们所包含的内容[10]。

L O C 将“文件扩展名”“因特网媒体类型(MIME)”“格式版本”“特定功能格式实例”等字段作为元数据并做了具体文字说明和透彻分析。其中“特定功能格式实例”字段指对可持续发展具有重要意义的格式,如从网络播放器下载的音频文件格式受到版权保护,其专有格式可以防止用户非法利用[11]。

与数字格式可持久性项目配套的基础设施是“数字格式信息网”(http://www.digitalpreservation.gov/formats/)。该网站于2004年首次公布,它提供详细的格式描述文档或提供有关数字内容格式的信息,并定期增加扩展和更新资源并深入分析与文件格式技术层面的问题。

1.5 PREFORMA

PREFORMA(Preservation Format for culture information/e-archives,欧盟文化信息/电子档案保存格式项目)项目由欧盟委员会资助,自2014年1月启动,为期48个月。PREFORMA项目总体意图是研究影响电子文件标准执行质量的关键因素,以便与相关群体围绕开发的工具建立长期可持续的保管生态系统,使信息机构可以完全提取和控制要收录文件的格式信息[12]。项目规定了媒体的类型和标准,对图、文、声、像四类文件格式规定了需要检查的功能和所属的国际标准,并开发了对应的“一致性检查器”开源软件,最大程度地降低失去数字资源的控制风险,采用这种开源软件的用户都有权自由阅读、使用、改进和重新分配这些软件的源代码。

1.5.1 veraPDF

veraPDF是专门用于PDF/A验证的开源软件,它提供了评估用于备份存档PDF格式的权威方法。veraPDF还可生成权威的测试文件集,并将开发其他检查器及元数据修复软件,目前最新产品是针对PDF/A-1、PDF/A-2和PDF/A-3格式的行业支持的一致性检查软件。另外veraPDF鼓励世界各地的文档软件开发人员保持其PDF产品与PDF/A格式一致,并在整个行业的专家委员会监督下开发专用验证软件。

《绿野仙踪》的创作较明代小说带有更加强烈的自寓色彩,作者李百川经历了从富家子弟到“叠遭变故”的失落,遭遇了累岁破产又为人所骗的事故。在看透了时态炎凉之后,他聚散萦怀,思想激荡澎湃,决定著书自娱。作品中的人物部分是作者的理想和想象,部分是自身的写照和化身,故事情节表面看呼风唤雨,荒诞不经,实则时刻渗透着社会现实。《绿野仙踪》继承了明代文人独立创作小说的传统,在创作意识上推动了自寓性小说的发展,在许多层面超越了前人的创作,我们可以通过小说前面的“自序”略窥一斑。

1.5.2 DPF Manager

DPF Manager是一个开源模块下的TIFF一致性检查器。开发这一软件的目的在于帮助档案管理员和数字内容制作者确保TIFF格式文件能长期保存,并能够自动提出改进建议并纠正保存问题。开发团队拥有数十年的图像格式和数字保存经验,获得了60多家存储机构的支持,起草了专门为静止图像长期保存而设计的新ISO标准提案,即TIFF/A。

1.5.3 Media Conch

Media Conch是由Media Area团队开发的保存级视听文件一致性检查器,它由“实现检查器”“策略检查器”“报告程序和修复程序”组成。Media Conch可通过命令行、图形用户界面或基于Web界面使用,其功能是集成现有的归档处理基础架构作为微服务,对本地不规则的视频文件做详细检查,或者在分布式处理系统中检查基于服务器的批处理级文件。此外,Media Area团队还致力于进一步推动Matroska和FFV1格式的标准化。

1.6 Wikipedia文件格式项目(Just Solve the File Format Problem)

这是美国维基百科公司的文件格式保护项目,目的在于创建一个不属于任何特定组织权限的通用空间,并允许行业内外群体或个人跟踪并提供文件格式的分类体系。它依赖Wikipedia庞大的网络资源及其DBpedia结构化获取工具,通过大批志愿者把不同的文件格式信息条目化地放在一个地方,形成开源的格式获取工具,便于有信息获取需求用户的参考。项目负责人Jason Scott认为,目前档案馆和图书馆负责的文件格式项目倾向于处理确定的文件格式且文件数据库难以共享[13]。因此,Wiki的项目特点是能提供更广泛的文件格式信息。哈佛图书馆软件工程师Gary McGath对该项目评价道:“尽管格式的质量、完整性和可靠性各不相同,但在格式信息的广泛性方面,它可能是一个有价值的资源。”[14]项目除了数据库格式种类多、数量大之外,格式信息的收集来源也非常广泛。它几乎遍历了所有全球有关文件格式的项目网站,实时了解其项目发展成果及进展,同时整合优势与不足,最终共享研究成果。

1.7 Focus

Focus是马里兰大学高级计算机研究所(UMIACS)在DIGARCH计划研究项目中的组成部分,它是一个用于呈现、编辑、转换和验证已有格式的软件工具。该系统包含了一些最常见的格式和应用程序,并提供了基于JHOVE的格式识别服务[15]。项目认为,确定某个文件属于哪种格式不是一件容易的事,虽然文件的扩展名(如“.doc”、“.pdf”或“.xls”)可以很好地提示文件的实际格式,但有时一个文件的扩展名可能较少,甚至错误或根本没有扩展名。格式识别除了扩展名还需要解析整个文件,如有必要还要进行格式转换。

1.7.1 Fider

1.7.2 GFR

GFR(Global Format Registry全局数字格式登记表)是文件格式和应用程序信息的主要存储库。由于GFR主要用于查询而不非更新内部数据,因此项目选择轻量级目录访问协议(LDAP),并使用OpenLDAP作为程序的服务器。

1.7.3 Focus客户端

Focus 客户端(Format Registry Client)是一个独立的LDAP客户端应用程序,用于获取有关给定文件的格式和应用程序的信息。用户通过该客户端将想要查询的文件上传,Fider格式识别系统首先初步猜测该文件的格式。接着由GFR数据库查询上一步猜测格式对应的格式检查器地址,格式检查器会对文件进行详细的对比校验,如果一致则确认格式并返回给Focus客户端。

1.8 FILExt

FILExt是一个文件扩展名和与格式有关程序的数据库,致力于帮助用户识别、访问、打开、查看或转换未知文件,由美国最著名的软件程序员Tom Simondi创立于20世纪90年代,多年来已经帮助数百万用户确定和打开未知文件,同时也被世界各地的软件专家用作为件扩展名的信息来源[16],《 个人电脑》杂志(PC Magazine)还将其收录进“100个未发现的最佳网站”。FILExt的主要功能是在线文件格式分析(https://filext.com/online-file-viewer.html),可将任意格式文件上传至网页查看并分析该文件格式信息,同时提供能打开此类格式的相关软件,且保证用户上传文件的私密性与安全性。另外所有文件扩展名信息由系统用户通过filext_filetype.bat软件上传。

FILExt认为,文件格式可以从三个特征来确定:一是根据文件的扩展名初步判断。二是根据档案或文件签名判断,即用一定的软件工具(如EditPad Pro)将文件转换为二进制文件查看文件的编码方式以及“关键代码(Magic Number)”,可以发现有一些用于各种常见文件类型的标准指示符,例如若代码中有前两个字符是“BM”,则文件可能是.bmp位图图像。三是根据文件MIME型元数据类型判断。

2 项目评价

以上8个项目都是以保护电子文件长期存取为基本出发点,但各个项目的具体方法与研究深度有所不同。几乎所有项目都涉及建立格式登记库、开发格式识别软件等,但是具体的项目策略及系统设计又有许多不同。

2.1 项目规划

项目开展的规划与所属服务性质有关。其中,Archivematica、PRONOM、NARA Format Profile、Sustainability of Digital Formats、PREFORMA是从国家记忆保存角度开展的项目,这些项目规划有共通之处。首先,项目大多依照OAIS参考模型来设计数据库系统和其他软件工具。其次,对登记的归档文件格式范围做了较为明确的规定,比较典型的是NARA提出并更新《永久电子文件移交格式指南》、PREFORMA项目推荐归档或备份的文件使用开放且有国际标准的格式。第三,格式范围具有有限性的特征,如PRONOM项目赋予登记格式唯一的标识,并推测该格式的寿命以及是否需要进行格式迁移。

而Wikipedia、Focus、FILExt则是从网络或广义的信息服务角度开展的项目,格式管控项目规划较为广泛且各有特点。如Wikipedia尽可能全面收集和反映更多格式的变化情况;Focus项目有着较为清晰的文件格式识别流程,针对格式信息服务有专门的客户端应用程序;FILExt可帮助用户确定与打开未知文件格式,并推荐转换格式的软件工具。

2.2 登记系统设计

以上项目中与格式管控功能有关的系统有:格式信息数据库、格式识别工具、格式检查器等。从服务架构角度看,以上项目格式信息数据库多采用B/S的访问服务,通过网页上传和查询格式信息。另外,项目的格式识别工具都有相应的客户端可供用户下载,如DROID下载后可在Java环境下使用,欧盟的三个标准格式检查器均支持常见的操作系统。

从功能模块的应用角度看,功能越全面越强大,系统发挥的作用也相应越大。有些项目提供的格式服务功能较为单一,如Wikipedia仅提供格式概览与最新格式信息发现, PREFORMA项目仅提供三种格式的标准检查功能;FILExt提供格式识别及支持软件信息功能。此外一些项目将格式管控系统纳入自身电子数据管理系统中,如ERA2.0系统中嵌入了格式风险评估功能模块,FPR是Archivematica系统的一个重要子系统等。比起单一的格式登记系统或工具,被嵌入的功能模块有了更大的被频繁使用的可能。

从系统收录信息数量和信息粒度角度看,数量和粒度分别代表了格式信息的广度和深度,数量越多、粒度越细则代表信息的利用价值越大。据笔者统计,以上项目中登记系统格式信息收录:格式名称、格式版本、格式代码、格式标准、唯一识别符、特定功能格式实例、上下级格式名称、支持软件等描述或识别字段。字段越多说明描述的格式信息完整性更强。以上Wikipedia、FILExt所收录的格式数量相较其他项目多但粒度相对较大,LOC数字格式可持续性项目、PRONOM系统等收录的格式数量较小但信息粒度较细。

从源代码开放程度看,开源系统必将赢得更好的包容和发展。如Archivematica、DROID、PREFORMA标准格式检查器等都是开源系统,为以后格式问题的解决提供帮助与参考。

3 若干启示

格式登记与管控并非简单的工作,不仅涉及软件系统整体架构的设计,还需要根据系统服务功能考虑需录入文件格式数量及软件信息的粒度。目前国内还没有档案格式登记与管控项目,但格式终究是影响电子文件可持续长期保存的关键因素之一,应得到重视。笔者认为,规划我国电子文件格式登记与管控系统时,可从以下几方面入手。

首先,在系统数据来源方面,建设初期可根据馆藏格式占比情况,从常用的档案类型和市面流行格式开始设定归档文件格式范围,将历史与现存的格式信息及相应软件信息及元数据尽可能多地录入数据库,中后期登记更多文件格式信息。

其次,在系统开发方面,数据库的设计要规划好数据粒度大小以及元数据项,也可采用其他项目系统的开源代码。此外还可以发挥系统用户的作用,如允许用户上传文件进行格式分析并与系统已有格式进行匹配,若存在相同格式,则提供格式相关信息及其可识别该格式的软件服务;若不存在则允许用户新增格式条目,由系统管理员负责对数据的审核与数据库的更新。这样能使整个系统数据库保持动态与活力并不断拓展文件格式的深度与广度,从而提供更为广泛的文件格式服务。

最后,系统需要不断服务并作用于信息机构的格式规划或指南。档案与图书机构在接收数字文件时需对其格式有一定的规定以便可持续存储与利用,但格式随时代的发展是不断变化的。因此系统应对格式的变化做出即时反映,使机构可以较为准确地更新格式规划或指南。

猜你喜欢

软件数字系统
Smartflower POP 一体式光伏系统
禅宗软件
WJ-700无人机系统
工业软件 自主创新
品“助读系统”之妙
直扩系统中的窄带干扰抑制
直扩系统中的窄带干扰抑制
答数字
数字看G20
即时通讯软件WhatsApp