档案资源检索研究综述
——基于中外档案学学术刊物分析*
2019-12-14房小可
房小可
(北京联合大学应用文理学院 北京 100191)
档案检索是档案资源利用环节中的一个重要组成部分。自20世纪30年代,我国档案学科便有检索的相关研究,当时学者们将之归纳为点收、登记、分类、编目等诸多环节。1990年,冯慧玲、李宪在《档案检索的原理与方法》著作中系统地探讨了档案检索的全过程,是一部体系完善、理论深入的档案检索学科专著,该著作的出版代表了档案检索进入一个系统的研究阶段。2009年周铭等学者在发表《档案检索学科形成与发展刍议》一文中认为档案检索学科是档案学学科体系中研究档案检索工作的理论、方法与技术的一门新兴分支学科,并对档案检索学科形成的历史进行了回顾[1]。然而伴随着数字时代的到来,档案检索领域萌生了诸多崭新的研究课题,本文对2000年至今的国内外档案学领域期刊文献展开数据统计和主题分析,对近20年的档案检索领域的研究热点进行观点提取和评述。
1 我国档案资源检索研究学术梳理与研究综述
1.1 我国档案资源检索研究的文章数据分析
根据布拉德福定律:领域内的高质量文章刊载在核心区。因此本文期刊来源选取了8本档案学科核心刊物在2000年-2018年所发表的档案检索领域的高质量文章。其中8本刊物分别为《档案学研究》、《档案学通讯》、《中国档案》、《档案与建设》、《浙江档案》、《山西档案》、《北京档案》和《档案管理》。以“中国知网学术文献总库”为检索范围,检索词为(SU=’信息检索’ OR SU=’信息查找’OR SU=’检索系统’)并选择精确检索,共得到文章数量为137篇,期刊分布分别见图1所示。
从图1可以看出,大体上以上8本刊物均刊登关于档案资源检索的文章,且数量相差并不多。其中《档案学研究》在档案资源检索方面的论文最多,共24篇,占所调查论文数量的18%,其次是《山西档案》(21篇,15%)和《档案学通讯》(19篇,14%)。由此可见,该领域的研究一直是档案学界的热点。
通过对所搜集文献的内容分析,得到国内有关档案资源检索的研究主题大致分为档案资源检索原理及检索需求的理论研究,档案网站检索及档案资源整合的实践研究,检索系统及检索方法研究。
1.2 我国档案资源检索的主要研究观点
1.2.1 我国档案资源检索的理论层面
由于档案较情报、图书等信息更具有复杂性,因此档案检索问题有必要结合档案特征进行分析。2000年以前的档案学者主要就档案检索内容的编目问题进行探讨,随着对档案管理工作认识的深入,从理论层面学者主要从以下两个方面展开研究。
一是来源检索与事由检索的辨析。来源检索指基于来源原则的检索,黄夏基[2]认为信息化档案馆馆藏档案检索对于用户而言,就是查取与获得,在本质上是对档案重新获得或恢复的过程,事由原则指导下的能解决查询相关性问题,但是由于以主题聚类而忽略档案形成的固有规律性,导致档案固有逻辑联系的拆分,应以来源原则(来源共同性基础上的事由共同性)来解决此问题;桑毓域[3]论述了档案文件的历史联系与逻辑联系,及其对应的历史检索与信息检索的概念,提出目前颁布的档案著录规则项目,主要用于信息检索的需要,基本没有考虑档案文件的历史联系,最后指出电子文件整理依然要坚持历史联系与逻辑联系并重的原则,二者决不可以相互混淆和相互替代;王丽莉[4]认为在电子文件时代,档案数据往往来源于各个不同的机构和组织体,有时区分文件的原始形成者变得十分困难,即需要以档案的事由为主要的档案检索方式,从而代替以来源原则(机构的职能)为检索手段的网上服务方式,提出通过检索工具的构建,打造来源原则基础上的事由原则的服务利用方式。
二是面向需求的档案检索理论研究。有部分学者从宏观角度理性探讨基于用户需求检索的重要性,赵屹[5]指出检索方便性是网络档案信息利用内容之一,其中对利用者进行需求分析,掌握利用者对档案信息的需求是实现网络档案信息服务的前提条件;石磊[6]认为档案利用需求包括利用者对档案信息的需求,以及为了保障利用者全面、及时、准确、有效地查找到档案信息而建立的相关服务需求,并提出建立完备的当那检索体系是满足档案利用服务的有效途径。还有学者基于社会调查分析的方法获取用户检索需求,如祝洁等[7]通过对河南省部分档案网站用户的问卷的调查发现,用户对档案网站检索功能尤其是高级检索更能的要求越来越高,而就河南省内多数档案网站为例,档案检索功能较为简单,只提供了关键词的简单检索,当前档案网站的检索功能远远未能达到用户的需求。
1.2.2 我国档案资源检索的实践层面
一是档案网站检索的的研究。此部分研究从研究对象上分可以分为两个方面,一方面是对国外档案检索网站介绍性研究,如赵屹[8]以美国网络档案信息检索系统ARC为例,从档案源、著录项、检索途径、检索新功能、系统数据及检索性能介绍此NARA提供的检索工具;廖颖[9]介绍了美国国家档案馆电子文件的开发利用情况,并详细解释了三个在线检索系统(OPA、ARC、ADD)的功能;曾伟忠等学者[10]对NARA网站档案研究板块所以提供的信息检索工具和检索方式继续系统深入的探析。另一方面是对国内外网站检索系统的改进研究,如赵山山[11]通过对我国三十个省级档案局馆网站的调研得到目前我国档案网站检索功能的现状及问题,包括资源匮乏、检索范围狭窄等,并提出改进意见;郭艳玲等学者[12]通过国内外网站检索功能的比较,得出我国在检索资源、检索方式等方面还有很大发展空间;此方面研究还有文献[13][14]等,都是通过国外网站比较或是基于省级网站的调查得出我国档案检索需要改进之处及建议。
二是面向档案检索的档案资源整合研究。此部分主要从实践层面的档案资源整合方案、网络开放目录两个层面展开讨论。在整合方案方面,熊志云[15]从网络时代特征入手,分析了我国档案信息资源的整合趋势并对其前提条件、基础工作、技术手段等进行了阐述。此后该研究主要以王兰成[16]为代表,该学者自2009年起对XML模式的档案数据库信息共享机制进行研究,基于异构档案数据库信息整合与技术方案构建出具有本体知识和词素分析转换模型,并开发出一套档案信息概念检索的原型检索系统;在2011年该学者进一步从语义视角研究基于语义的档案信息整合及基于XML、EAD异构档案信息组织及其本体方法的应用[17]。在网络开放目录整合方面,武琳[18]认为构建我国开放目录的途径包括档案资源的整合尤其是民生档案的整合,并且以此实现多媒体检索、统一入口跨库检索等功能;曾伟忠[19]建议我国应逐步建立全国档案开放目录联机著录中心,运用档案信息共享的理念和联机编目手段通过互联网将各级各类档案丰富的目录数据资源和人力资源整合起来,实现档案目录资源的共建共享。
1.2.3 我国档案资源检索的方法层面
一是检索系统的研究。刘剑和王兰成[20]认为应从检索方式的智能化和人性化方面入手让数字档案馆成为人们查询档案的第一选择,并提出了基于主题词表的概念搜索引擎;蓝天[21]通过对国内多家档案网站的调研,探索和建立出面向知识检索的档案网站检索系统的科学评价方式;张倩[22]围绕现阶段档案信息检索技术面临的突出问题,将搜索引擎的创新技术应用于档案信息检索领域,提出依托智能搜索引擎构建档案信息检索系统的策略;赵雪芹[23]通过分析现行检索服务存在的弊端及用户面临检索困境,提出了将资源发现服务作为一种高效便捷的资源揭示和检索系统;张园[24]指出传统计算机档案信息检索系统受制于关键词匹配技术,因而提出基于档案领域本体的档案信息检索系统模型框架病并对每一部分进行了详细阐释;张斌等学者[25]认为档案知识检索是档案知识库提供档案知识服务的主要手段,设计了档案知识检索系统并将基于本体的知识网络确立为其检索结果的呈现形式;李晓艳等[26]探讨了新媒体环境下档案信息检索存在的障碍、技术局限等问题,由此提出创新发展智能化搜索引擎、基于内容特征的多媒体检索技术等应对策略;
二是新媒体检索方法研究。刘越男[27]在2001年发表文章指出档案计算机检索是纸质档案手工检索向电子文件检索的过渡形式,并提出电子文件Web检索的可行性;林周佳[28]提出了传统档案检索方法的不足,提出了语义检索系统模型,并分析了语义检索技术。钱万里[29]在介绍了基于内容的数字化音频档案信息检索的概念后,对数字化音频档案信息检索进行了分析并梳理所需要的检索技术;吕元智[30]根据 Linked Data 和多媒体检索技术,从理论上设计了数字档案资源跨媒体语义检索实现功能框架和过程框架,并对数字档案资源跨媒体语义检索实现所涉及的理论与技术创新等关键问题展开了探讨;徐彤阳等学者[31]针对视频档案提出了一种基于Contourlet变换的视频检索框架;顾伟[32]从声像档案检索存在的问题出发,基于用户检索需求提出应用深度学习技术检索声像档案的观点;谢建云[33]分析传统基于文本声像档案管理工作的瓶颈,围绕基于内容的海量视频检索的特征与技术问题,提出将基于内容的检索方法应用于数字档案馆中视频档案管理领域。
2 国外档案资源检索研究学术梳理与研究综述
2.1 国外档案资源检索研究的文章数据分析
对于国外期刊,本文选取了国外影响力比较大的9本英文刊物:《The American Archivist》、《Journal of Archival Organization》、《Archives $ Records》、《Records Management Journal》、《Archives and Manuscripts》、《Archivaria》、《Archival science》、《Restaurator》、《Archifacts》。笔者选择EBSCO平台的图书情报数据库,检索词为(SU=’information retriev*’OR SU=’information search*’ OR SU=’retrieval system’)并选择精确检索,共得到文章数量为254篇,期刊分布图2所示。
从图2可以看出,与国内期刊分布不同,国外期刊在档案资源检索方面的研究上数量差距比较大,其刊发此类论文最多的期刊是《Archives & Records》,占期刊总量的一半以上,其次是《Journal of Archival Organization》和《Archives and Manuscripts》,其余的国外期刊发表档案检索方面的文章并不多,这可能是由于国外期刊类别比较明确的原因。
通过对所搜集文献进行内容分析,我们发现国外有关档案资源检索主题大都从实践与方法层面进行的研究,笔者进而对其涉及的主题予以归纳,将其分为信息组织与元数据研究、网站检索辅助系统研究、档案检索方法研究三方面内容。
2.2 国外档案资源检索的主要研究观点
2.2.1 信息描述与元数据研究
信息组织的归宿即是检索,此部分本应属于信息检索的研究内容,主要通过信息描述及元数据展开的研究。Riley J.[34]指出“可共享”元数据概念在文化遗产社区中出现,表明人们越来越期望公开描述性元数据,档案管理员也应该努力创建可共享的元数据,并讨论了可共享元数据原理及应用于档案描述所涉及的问题、工具和策略;Millar L.[35]认为档案描述实际上是社会制度和责任的工具,通过对传统事后档案描述与基于连续体的档案描述的对比得到,二者都是作为文件问责的有效工具,但是对于其外延中保存这些记录的机构等更大范围描述的完整性是不够的。为了增进人们对档案背景及数字内容之间关系的理解,Zhang J.等[36]对档案描述与数字对象描述元数据之间的关系进行了深入的讨论,研究表明档案工作者有意识地在档案描述和数字内容之间建立联系,但在档案语境与数字内容整合层面上仍面临挑战。
此外,国外学者依托实践项目或职能机构对编码档案描述(EAD)进行了研究。Clavaud F.等[37]以项目为依托介绍了四个项目如提取都柏林核心集中的数据用于web上数字图像的数字化描述等,为EAD用户提供方法及工具,提升档案查找质量。Hill A.等[38]讨论了基于EAD编码档案描述的三种不同的联机服务,研究结果表明,对于用户的创建、存储、索引、搜索需求,EAD呈现了其灵活性。Barbara R.L.[39]介绍了2002年在日内瓦城市档案馆与公共大学图书馆手稿部在档案描述领域合作的内容与结果,它们共享技术和概念,如当地档案馆和图书馆的应用都根据国际描述标准XML和EAD组合构建的。
2.2.2 档案检索辅助系统研究
档案检索辅助系统在国内通常依托档案信息网站的形式出现,在国外是在线档案查找辅助工具。此方面的研究更多是围绕有关检索系统的术语规范性及检索功能展开的。在术语规范性方面,Mascaro M.[40]介绍了俄亥俄州图书馆基于EAD的受控标题的研究,结果表明受控标题被广泛实践,其中专有名词和专题名词最为常用,其次是地名和体裁名词。Wendy S.[41]通过实验的方法研究人们使用档案检索辅助工具访问档案的途径,研究结果表明,网站结构通常以使用者对档案原则的知识为前提,用户对于术语、原则、结构等并不熟悉,因此对于网站建设来说,应该深入剖析到底什么才是提升在线查找辅助工具效用的解决方案。Rolan G.[42]对于基于网络的档案服务的提供仍然对广大社区成员访问造成重大障碍问题,作者认为其原因之一是当前的记录和归档标准并没有足够的规范性确保互操作性,且没有对社区成员的发现和访问所需要的所所有元素进行建模,这应予以重视。
在检索系统功能方面,Kim J.[43]基于内容分析法分析研究了EAD查找工具的五个不同方面:数据元素、标记术语、导航、浏览和搜索,研究表明EAD编码的网站中数据元素、术语和浏览功能是满足的,但是导航和搜索功能仍然欠缺。GueguenG.[44]指出许多机构尝试通过利用档案检索辅助系统增加其网上的数字展品,而不是通过资源密集型的馆藏和展品,从这一背景出发作者介绍了数字图书馆的查找辅助系统,为档案馆提供借鉴。Daines J.G.D.[45]等面向用户需求提出采用一次向用户呈现多级描述的查找辅助系统概念模型,并引入Brighan Young大学的查找辅助系统演示了使用多级描述的来满足用户满意度。
2.2.3 档案检索方法研究
关于检索方法问题,大量国外相关文献聚焦于探讨如何通过组织方式改善检索性能,我们大致可将其分为检索工具的建立及扩展语义信息两个层面。在建立检索工具方面,Silvia S.K.[46]阐述了以色列档案馆面临的几个问题,如创建信息检索工具、综合词典等,基于此文章讨论了基于叙词表的索引从元数据或文档内容中检索信息等多种方案,最后提出建立基于ISAD和ISAAR的档案著录和信息检索系统的建议。Niu J.F.[47]为了实现某些机构如文化遗产机构便于信息对象的检索,文章基于事件的信息组织方法分析了事件与功能的区别,探讨了利用事件作为档案信息组织和描述的来源,并讨论了重新设计档案描述元数据的两种方法。扩展语义技术一直以来是信息检索领域的热点关注问题之一。Milne C.[48]探讨了在档案检索中上下文分类在门户或内部网络开发中的适应性问题,以期能在整个信息行业中建立更强有力的跨学科联系,进一步发展“信息检索”学科。BakG.[49]针对电子记录系统记录分类的缺陷,呼吁通过捕捉档案资源的语义信息扩展记录分类的定义,打破纸质记录保存规则的约束,提升检索效率,通过电子记录的项目级管理实现记录保存和档案实践的转变。Ricardo E.B.[50]在基于可扩展标记语言EAC-CPF(编码档案上下文)基础上,提出用于档案信息系统的协作框架。该框架利用EAC-CPF可以共享上下文和权限记录之间的关系,且支持辅助导航和主题映射,并提供语义丰富的访问层以确保不同归档保存记录的位置,进而改善了用户与网络的交互体验方式。Machin J.[51]对斯图尔特的《信息专业人员实用本体论》一书进行了评述,在详述本体理论的同时介绍了有关本体的采用、构建、查询、语义上下文应用等诸多方面内容,该书的本体论非常适用于政府档案管理员和档案管理员的工作。
3 国内外档案资源检索研究评述
在归纳中外已有的研究特点与内容的基础上,本文通过比较分析得出中外档案检索研究的主要特征和异同主要集中在如下几个方面。
3.1 研究内容层面,国内研究更偏重于理论研究
随着档案信息化的不断深入,中外学者均对档案在数字环境下的检索进行了广泛的研究。国内研究较多是结合档案工作的实际问题出发,讨论在新时代来源原则与事由原则问题。例如大多数学者认为传统的来源原则检索不能满足当前信息化时代的电子文件检索,需依据新来源原则思想,将档案的实体来源转移至抽象来源,以电子文件的背景信息的真实可靠不易更改性保证其来源,因此当下对档案文件的整理要依然要坚持来源原则与事由原则并重。而国外很少在检索层面探讨以上问题。
此外,纵观国内档案检索方面的研究,无论是理论层面、方法层面亦或是实践层面大都从理论角度进行宏观探讨。如在方法层面基于领域本体的检索模型研究中[24]创新性提出了考虑语义信息进行档案检索的方法模型,但缺乏实验性验证,仍停留在理论层面的阐释。实践层面亦如此,这里不加以赘述。
3.2 研究方法层面,中外均引入最新技术实现检索新方法的研究
云计算、人工智能、机器学习等新技术的不断涌现,为档案检索提供了新的发展契机。对此,国内外学者在方法层面主要围绕检索系统改进、检索语词规范性、扩展上下文语义信息方面进行的研究。如国内外学者均在实际检索系统调研的基础上,针对传统档案检索语词匹配、用户满意度、浏览效果等问题入手,提出对应的解决方案。如国内外均对语词规范性进行了深入分析[20][46],并提出基于改进词表的检索方案。此外,国内学者还基于新技术针对新媒体对象的研究方法进行了广泛的探讨,而国外在本文涉猎的期刊范围内很少。特别指出的是,虽然国内外学者在方法层面的研究问题相似,但国外学者在每个维度上研究地更为具体、深入。如国外更善于应用具体案例[40][45]对所存在的检索方案进行剖析,并对提出的建议或方案进行验证,使其研究更具有说服力,这是国内研究值得借鉴的地方。
3.3 实践层面,国外研究在实践落地方面表现更为突出
档案学科是一门应用性很强的学科,在探讨档案检索技术问题时应注重实践性。纵观中外的档案检索研究,国外在此方面的研究更为突出。相比之下,国外在探讨“信息描述与元数据”、“档案检索辅助系统”、“档案检索方法”三个方面均注重实践性要素。如在研究“信息描述与元数据”方面,诸多学着探讨了EAD在档案描述方面的优势,并依托实践项目或职能机构对此方面进行了深入研究[37][38][39];在“档案检索辅助系统”方面,[40][42]也是基于机构或团体对检索语词的规范性进行了验证性研究;在“档案检索方案”方面,[43][45]基于具体系统对系统功能和检索模型进行了探索性研究并进行了验证。而国内,如前文所述,无论哪个层面更多偏向于理论层面的研讨。
4 结语
本文在中外档案学术期刊视角下,对近20年的档案检索研究进行了综述,对国内外研究进行对比的基础上总结了国内外研究的特点。总体而言,国内研究主要聚焦于档案检索模型与理论框架的整合与设想,缺乏足够的实证分析和系统验证案例,而这也正是国外对该领域研究较为突出的地方,值得我们学习与深刻思考。伴随着历史资料、档案信息的数字化和电子化的深入发展,未来档案检索领域研究将面临更多机遇和挑战。