智慧型高校档案信息检索服务环境研究
2018-05-10张倩
文·张倩
高校积淀的档案信息资源,记录着其发展历程的沿迁。高校档案信息资源检索体系是否健全,档案信息检索数据化、网络化服务能力如何,制约着档案信息资源的开发与利用。本研究紧密依托江苏高校档案信息化建设的基础条件和探索经验,选用IT技术发展中的优秀成果,从特点要素、功能模块的智能化改造等方面,提出了一个较为完整的模拟性解决方案,帮助解决当前高校档案管理机构所面临的一些现实问题,努力营造智慧型的高校档案信息检索服务环境。
一、高校档案信息检索的主要特点
江苏不仅高校多,而且类型多,办校的历史大多比较悠久,特别是教育的质量、科研的能力、办学的效益和管理工作的水平都位于全国前列。可以说,江苏高校档案工作的发展状况,也是全国高校档案整体发展的缩影。考虑到笔者与江苏省内高校档案业界的专家、学者有多年良好的合作经历,因而选择江苏省30所高校档案馆(室)进行问卷调研,通过调研对存在的问题进行深入、系统的分析研究,具体了解高校档案信息检索建设的现状,为进一步研究和具体工作的开展,提供第一手的数据和资料。
表1 高校档案管理机构调研名单
调研结果显示,江苏省高校档案信息检索的主要特点体现在以下几个方面:
(一)检索工作体系基础较好
江苏省高校档案管理机构日臻完善,馆藏档案信息资源检索工作体系建设已成为高校现代化建设的重要组成部分。很多拥有悠久办学历史的高校,都已着手系统挖掘、开发校史文化资源,注重凝练、总结具有鲜明特色的学术传统和文化气脉,建立了形式多样、内涵丰富的档案信息资源检索体系,不仅拥有党政管理、教学、科研、基建、声像、会计、设备、实物等多门类档案信息资源检索数据库,还有名人全宗、口述校史访谈录、特色学科档案信息资源检索数据库等。
(二)检索服务平台初具雏形
江苏省高校档案管理机构十分重视提升档案管理信息化水平,开发与应用档案信息网络检索服务平台的步伐明显加快。据30家调查样本反映:设立档案检索利用阅览场所及设备的已占77%;档案网站上有检索端口的占66%;档案检索系统属于B/S体系结构的占60%、C/S体系结构的占26%、单机版的占10%;建立档案检索相关规章制度的占47%;有档案检索相关智能技术开发专项经费的占30%。调研访谈中还发现,很多高校档案馆都在积极转变角色,努力争当高校信息资源的整合者、组织者,不仅将档案工作融于教学、研究和社会服务之中,还积极响应大学变革之需,充分应用档案信息网络检索服务平台,大力发挥高校档案“存史、资政、育人”的重要作用,通过不断创新赢得自身地位。
(三)检索技术应用得到重视
为提升档案信息资源开发利用水平,江苏省一些高校已在研发和应用档案信息智能检索技术方面进行了积极探索。据30家调查样本反映:可进行文本类档案语义检索的占63%,有的高校档案管理机构已采用档案RFID检索、云计算检索等先进技术。如:南京大学档案馆积极引入云计算技术的建立“云档案平台”,配备了服务器和站点,不仅能够使用自然语言进行标引和查询,而且可以运用文本档案语义检索、档案个性化检索等方法进行检索。又如:东南大学档案馆使用专用服务器(HPML350),自主研制了网络版“声像档案管理系统”,建立了网络化实时归档与查询(检索)平台、档案馆SAN系统,使服务器和管理(检索)系统的安全性、访问速度和可靠性大为提高。再如:南京艺术学院综合档案室主持的《档案信息智能检索模式研究》不仅获得了江苏省档案科技项目立项,而且在档案信息智能检索技术应用的实证探索方面积累了一定的知识储备。还如:南京中医药大学档案馆准备应用基于web2.0的智能检索技术,引进新的档案检索软件,希望通过软件自带检索工具实现档案的分类别、分词段的各种检索。
(四)检索管理制度基本完善
二、档案信息检索系统功能模块的智能化改造
一个完整的信息检索系统应当必备以下六个功能模块:文献与数据选择与采集子系统、词表子系统、标引子系统、建库子系统、系统-用户接口子系统、提问处理子系统。[1]这六大功能模块,主要是针对传统信息检索系统而设计布局的,不具备档案信息智能处理的相关功能。因此,必须充分运用各类智能技术,对原有数字档案馆信息管理平台进行智能化改造。改造重点主要是三个部分:一是建立智能人机接口功能模块。这是利用与系统之间的“通道”。二是建立知识库功能模块。这是智能检索系统的“资源库”。三是建立文本处理功能模块。这是计算机自动处理自然语言形式的文本输入“转换器”。通过智能化改造,形成实体检索与内容检索的立体检索结构,使系统一定程度上可实现智能访问不同载体档案信息的集成化运作。
(一) 智能人机接口建设
在B/S智能集成的结构设置下,用户端只要通过Web浏览器即可进入系统的检索入口。但检索入口要想具有人机交互的智能特性,则需提供四个方面的技术支撑条件:一是设计的检索接口必须简洁、直观,界面清爽、一目了然,并拥有可视化的界面和自然语言处理能力。如:让检索档案信息像使用Google、百度等流行的商业搜索引擎一样容易。二是必须有多种登录方式供用户选择。除了采用普通的账号方式,还应增加具有智能特性的接口。如:增加语音识别接口、声纹识别接口、二维码扫码接口、射频识别接口等。三是为用户创建个性化查询“标识”。如:根据每个用户的需要,定制其专属的个性化搜索引擎。四是实现用户知识管理和需求分析,将用户的检索提问作为词汇收集的来源,增加检索入口,提高系统易用性。
(二)档案知识库建设
所谓“知识库”,是指档案信息检索系统所需各类知识的智能数据库。它与传统数据库不同的性能区别主要在于:知识库是在数据库的基础上,通过对档案信息资源进行深度语义分析、自动标引等技术处理,从而实现对原始档案信息中的知识进行揭示和表达。
知识库的资源储备和结构优化程度决定着系统检索能力的高低。因此,在建立知识库之前,必须根据档案信息数据库已有的基础条件和库藏的知识资源状况来科学设计知识库结构。借鉴相关领域的经验,在建设高校档案信息智能检索服务平台的初级阶段,我们应当先易后难地来建立“高校档案知识库”。
1.构建用户知识库。建立用户知识库,既是系统自动生成查询与反馈对接机制的内在要求,也是增强系统对用户查询词汇辨认与理解能力的重要手段。可资借鉴的应用实例:一是建立用户模型库,通过统一的检索服务平台对用户注册信息进行智能分析。即:待用户完成登录后,系统在对用户身份信息进行分析的基础上,进一步对用户的研究领域、研究偏好与用户输入的关键词等信息进行数据挖掘,而后通过自动记录和分析用户的检索需求来建立用户档案库(存贮用户的基本资料、访问记录、访问行为、兴趣偏好等)。二是建立用户需求类型库,通过统一的检索服务平台对用户检索需求信息进行智能分析。即:按高校档案用户检索需求的性质,将其分为“学习研究型用户、行政管理决策型用户、咨询查考型用户、休闲消遣型用户”四大类,而后自动录入用户检索需求分类库。三是建立用户信息反馈库,通过统一的检索服务平台对用户的反馈信息进行智能分析。即:收集、分析各类型用户检索需求的反馈信息,并根据用户的反馈信息来调整、更新用户需求库,进而确定档案知识库的资源范围,以期达到准确描述用户需求的目的。四是建立用户检索特征词典库,通过统一的检索服务平台对用户检索行为的个性特征进行智能分析。即:以账号为“标识”,对用户个性化检索行为的数据进行分析,并将其自动入驻用户检索个性行为特征词典,以记录用户的查询踪迹,以利在用户再次登录时,可迅速提供其所需的个性化检索服务。
2.构建档案信息资源知识库。建立档案信息资源知识库,既是充实和优化高校库藏信息资源的客观需要,也是增强系统智能检索服务能力的重要基础。可资借鉴的应用实例:一是建立高校机构知识库。高校档案管理机构可在原有库藏档案信息资源基础上,不断抢占先机,积极学习参照国外著名的CDR(Carolina Digital Repository)、OpenDOAR 等,依据来源原则与机构划分,对高校科研产出成果加以整合并形成检索数据,以利逐步推进档案馆(室)主导的高校机构知识库(Institutional Repositories,IR)建设。二是建立高校教学档案知识库。高校的教学档案主要包括“学生学籍、教学文件、课程与学科、教师业务、教学实物”等几个方面内容。目前,江苏省多数高校的在校生规模已超万人,每学期都会产生大量教学档案,其中各高校档案馆(室)的学生学籍档案查询利用尤为频繁。因此,高校档案管理机构加强教学档案知识库建设十分重要。三是建立特色档案知识库。高校档案管理机构要应用Web数据挖掘等技术,对馆藏的特色档案资源进行整理发掘,并提供在线智能检索信息的功能,使知名校友等特色档案资源服务得以互动展示,以利加快推进特色档案信息数据库的开发与利用。四是借鉴国外机构网站存档(OCLC Digital Archive、TRAIL/EDP)的先进技术,加快研发高校官网信息抓取存档的解决方案,以利实现自动监控报告网站的任何变化并实时记录存储的功能要求。五是加强高校之间的合作共享机制建设,大力整合优化高校库藏信息资源,以利增强跨库检索功能。
(三)档案信息自动化处理建设
这次调研发现,江苏省高校档案信息检索系统主要有四种检索模式[2]:一是常规检索模式,也被称为“前控词表”应用模式,即在标引和检索两端均对词汇进行人工控制,预先采用分类表、叙词表等“先控词表”对词汇进行受控标引,检索时也采用词表中的类号和语词来表达检索需求。这种方式的查全率和查准率最高,但人工控制需耗费大量的人力物力财力,响应时间也最长。二是自然语言检索模式,即在标引和检索两端均不对词汇进行控制。目前,绝大多数网络搜索引擎都采用这种模式,并由全文索引方式建立索引库,用户以自然语言进行字面匹配,系统将命中结果返回用户。这种方式不需任何人工介入,投入最少,但检索效率低下已是不争的事实。三是后控制检索模式,即在标引阶段不实施控制,在检索阶段通过“后控词表”或“自然语言叙词表”实施不严格的控制,可显示相关词供用户用于检索词的扩展、参考选用。这种方式兼有自然语言与受控语言的特点,但建立一个“后控词表”需花费较多人力物力。四是标引阶段实施词汇控制、检索阶段不予控制模式。这种模式采用的是一种半自然语言检索系统,其在检索阶段增加了一个自然语言接口——入口词表,但由于编制一个完备的“入口词表”几乎不可能,因此检索效率不高。
其实在黑龙江这片土地上,春天到秋天大概七个月,随着农作物的成熟期,春耕、秋收都是陆陆续续开展,供油在七个月里都不间断,只不过那两个特定的阶段是高峰期。“这不,现在收完了大豆,在上冻之前,玉米就要收了。”洪松涛说。
档案信息智能检索建设的最终目的是要让查询语句与用户查询意图通过计算机自动处理实现“语”“意”相符,而非“问”“答”相悖。目前,针对高校现有四种检索模式存在的缺陷,我们可采用语义检索的理念,进一步升级改造“内核受控,外壳非控”的档案信息检索系统。即:系统的“外壳”——标引和检索两端均采用自然语言,最大限度方便利用者,复杂的检索匹配等过程均由内核系统完成;系统“内核”是与智能软件检索结为一体的档案检索语言及基于概念语义网络的知识库,可利用系统自动将自然语言转化为受控语言。[3]这是一种具有自然语言优点又兼具了人工语言优点的档案信息检索模型。其技术特性主要有:
1.这种检索模式提问可直接采用自然语言,用户无需经过专门训练即可与系统进行交流,不需要知道提问式在后台与标引数据所采用的各种知识组织系统的匹配机制,并可通过浏览备选词条选用合适的检索词,以利提高检索速度和精度;档案管理人员则可采用自由标引方式,让系统自动将自然语言语句词转换为受控的主题词,与提问式进行匹配。
2.这种检索模式可通过改造现有的信息组织工具(档案叙词表或分类表等源词库),将其作为档案领域“本体”构建的基础进行改造和转换,以利于设计和管理超文本链路;同时,参考收录高等教育领域中权威、规范、核心的专业词汇的辞典,以及研究论文中的大量专业术语和其他网络百科资源等丰富语料,作为多种同义词获取技术相互融合的最佳切入点,为高校档案领域建立以自然语言叙词的关联词表,并通过筛选规范,最终建成一个能够体现高校档案领域概念关系的、适用于网络档案信息检索的“知识图谱”。
3.这种检索模式可将主题的特性检索(直观性见长)和分类的族性检索(系统性见长)两种不同的检索方式加以结合并相互弥补,从而挖掘出分类号—主题词串—关键词串之间的概念对应关系,并可利用系统自动实现三者之间的兼容转换,为分类检索语言、主题检索语言、自然语言三者在标引、检索中的互操作奠定基础。
4.这种检索模式可利用超文本技术对有同义、近义、相关等关系的词进行组织,特别是应用这种分类层次结构的系统,可为用户提供相关词、上位词和下位词,并能将全文检索功能与词表的浏览和检索置于同一界面,以利提示与用户检索需求相对应的合适主题词或语义层面上的同义词,非常方便用户选择使用或直接转换成主题词进行查询。
5.这种检索模式设置了容错功能,系统不仅能对用户输入的错字、别字进行智能纠错,还能联想适合的主题词,并可将与之有关的检索词条自动出现在下拉框中,以利通过添加检索词来提高档案信息检索的查全率。
实际证明,应用这种检索模式的系统能够多视角、多途径直观展示比较完整的语义关系网状结构,实现自动建立词间关联、词汇聚类,以方便不同层次网络用户选择使用尽可能多的语词,特别是通过系统提供的提示与导航,可使查询得到适当的纠正或扩展,从而大幅度提高档案信息检索的查准率。
(四)档案信息资源描述标准化体系建设
建立健全采集“元数据”档案信息资源描述标准,这既是实现跨库数据交换的基础条件,也是克服多系统模式配置功能互不兼容等方面弊端的有效举措。但需要指出的是,这些标准的建设,必须注重与国际接轨并优先采用国际标准,同时要使工业标准及事实标准尽量与图书、情报的国际、国内标准相衔接。如:江苏省高校档案管理机构应积极参照CALIS(中国高等教育文献保证系统)项目建设的成功经验,对档案信息数据进行规范化改造,构建统一、规范的“机构知识库”,完善以数字档案馆(室)为核心的公共服务体系,确立互操作协议,以利实现档案信息资源跨馆、跨数据库共建、共知、共享。
我们知道,档案信息资源“元数据”的采集,通常包括档案著录和标引,这是档案信息检索工作的“前处理”(即:建立档案检索系统的基础和前提)。因此,在对档案信息数据进行著录时,必须在全面分析的基础上,高度重视选择需要揭示的特征,特别要注意加强内容特征的著录和标引。
据媒体报道,国际上对档案机读目录交换格式的研究,是从上世纪70年代发展起来的。20世纪80年代初,美国率先颁布《档案机读目录交换格式》标准(MARC AMC), 并于1996年形成了ISO1709信息交换格式国际标准。这项标准,主要是针对档案的目录记录,提供馆藏级概略的档案目录信息。1993年,美国加州大学伯克利分校首先研发了档案编码著录标准(EAD)。1994年,国际档案理事会公布了《国际档案著录规则(总则)》(第一版)。这是档案著录的第一个国际标准,其目的是为各国提供统一合理的档案著录规则,方便档案信息的检索与交换,以期实现档案信息资源的全球共享。此外,XML是一种通用、简单、一致且面向Web的格式化数据和传送数据的方式(即:综合了SGML的丰富功能与HTML的易用性,是不同平台上可实现数据互操作的国际标准格式),它将成为数字档案馆最重要的基础性语言。
目前,我国虽已制定了《档案著录规则》(DA/T18—1999)、《中国档案机读目录格式》(GB/T 20163-2006)等标准,但许多档案管理机构至今尚未将标准建设放上重要位置,致使档案机读目录数据著录形式呈各行其是之态。如:一些高校档案管理机构没有采用统一标准的机读目录(MARC)交换格式,导致各自档案数据库数据著录项目的字段名与字段类型等各不相同,甚至同一个档案馆(室)不同时期录入的数据,表示形式也不统一;有的只是采用简单的固定结构格式生成的计算机档案目录记录,无法反映档案目录数据的各种变化和类型多样的特点;有的没有设置“头标区”,机读档案目录数据不具备自我说明功能;有的档案目录数据的生产和保存要依赖特定的应用软件,难以实现对档案信息数据的长久保存和利用;等等。加之,目前全国没有形成统一的档案信息检索行业评价体系和评价标准,这给档案数据的共享、交换、迁移、传输、合并等工作造成了诸多障碍。
毋庸置疑,全面推行并实施数字网络环境下档案信息资源描述标准,这已是建立档案信息智能化、共享化检索模式的当务之急。因此,我国各级档案行政管理部门和高校档案管理机构应借鉴数字图书馆等其他行业信息化建设的成功经验,按照“统一、通用、科学、规范、共享”的原则要求,加快推进档案标准制定工作。与此同时,高校档案管理机构应通过MARC AMC、EAD、DC元数据等标准格式的建设,尽快采用目录、索引及机读数据库等多种形式的检索工具来创建完备的系统梯度检索体系,尤其要加快建立如Z39.50等适合异构分布式检索系统的标准检索协议,促进高校档案信息检索系统之间的无缝链接,以利跟上并融入全社会信息化建设的进程。
● 参考文献 ●
[1]陈丽.档案信息检索[M].成都:四川人民出版社,2010:183.
[2]侯汉清、马张华.主题法导论[M].北京:北京大学出版社,1991:22-23.
[3]马张华,侯汉清,薛春香.文献分类法主题法导论[M].北京:国家图书馆出版社,2009:307.