基于语义关联的数字图书馆馆藏资源聚合研究
2022-09-20魏明坤滕闻轩冯昌扬河北大学管理学院华中师范大学信息管理学院
魏明坤,滕闻轩,冯昌扬(.河北大学管理学院;.华中师范大学信息管理学院)
近年来,数字经济的蓬勃发展以及数字信息的快速更新,使得数字资源管理成为资源管理系统的重要内容。深度关联并有效识别数字资源为用户提供精准的信息检索服务,是馆藏数字资源化发展的必然要求。随着数字资源的复杂化、信息环境的泛在化和用户需求的个性化,如何通过数字资源聚合技术提供全面、准确的知识服务,优化数字资源服务能力成为业界亟须研究和探讨的问题。本研究从用户的个性化需求出发,在多源异构数据集处理基础上构建数字资源聚合框架,实现数字资源语义层面的聚合,为用户提供更好的知识服务。
1 数据采集与研究方法
本研究以数字资源聚合为研究对象,以中国知网为数据来源,以 “数字资源聚合” or “数字资源整合” or “数字资源融合” 为检索式进行主题检索,检索时间截至2021年12月31日,共得到有效数据741条。本研究在对数字资源聚合研究主题进行梳理的同时,提出了语义关联的数字资源聚合框架,采用定量分析方法揭示馆藏数字资源聚合研究主题之间的差异,进而推进馆藏数字资源聚合的深入研究。
2 结果分析
2.1 数字资源聚合研究主题年度分布
知识图谱以更直观、清晰的方式呈现研究内容[1],关键词突变分析能够呈现研究主题的演变过程、研究热点及知识基础,预测研究主题的交叉、渗透和衍生趋势。通过文献分析可以发现,在2002年已有相关研究文献借助CiteSpace分析数字资源聚合研究文献的主题分布和发展趋势,本研究时间阈值设置为2002—2021年,单个时间分区为2年。通过关键词突变分析可以得到关键词突变强度值,探测频次强度较大的关键词,进一步掌握研究前沿领域的演进情况(见表1)。
表1 数字资源聚合关键词突变年度分布
表1统计了数字资源聚合突变值排名前20的关键词。观察突变词变化情况可知,2003年为数字资源聚合主题发生突变的起点,经历了10多年的发展,研究突变从OPAC到关联数据,其中2007—2013、2012—2021阶段突变点数量较突出。从文献信息计量学角度,这些突变词在一定程度上反映了数字资源聚合发展的研究过程,既反映了关键词的变化,又体现了研究主题不同阶段的特点。对关键词的突变分析,可反映研究领域的现状、热点和未来趋势[2]。
从突变值分析,自2015年起,大数据成为较突出的术语,大数据发展在给数字资源聚合发展提出挑战的同时也丰富了数字资源聚合的资源对象。数字资源聚合、信息资源整合、资源整合、档案馆、公共数字文化资源、信息资源、关联数据、博物馆等都成为数字资源聚合研究的突变术语,这些关键词分阶段反映了数字资源聚合研究主题的变化情况。通过对数字资源内部特征进行聚合,可以发现数字资源之间的关联主要侧重于以信息组织为基础进行聚合。贺德方等通过知识间的关联实现了信息服务向知识服务的转变,提出了基于概念及概念关系、引证关系和科研本体的数字资源聚合方式[3]。黄传慧等从数据、信息、知识三者间的发展关系入手,认为数据整合、信息整合、知识整合构成了数字信息资源的整合目标层,并指出基于知识本体的整合将成为未来的发展方向[4]。马文峰对数字资源整合的内涵、理论基础、动因及方式等进行了研究,指出知识组织理论与方法是数字资源整合的基础[5]。肖希明等根据对数字资源内容的整合深度进行分析,从数据整合、信息整合及知识整合三个层面对数字资源整合方式进行了归纳和总结[6]。
通过分析数字资源聚合主题的时区演化,笔者发现:2002—2004年研究主题主要包括数字图书馆、信息组织、知识组织、资源整合等;2004—2006年的研究主题主要包括公共图书馆、信息整合、元数据、公共图书馆等;2006—2008年的研究主题主要包括整合模式、整合方式、个性化服务、知识整合、数字资源组织、整合技术等;2008—2010年的研究主题主要包括数字资源建设、信息服务、网络环境、整合机制等;2010—2012年的研究主题主要包括知识服务、关联数据、馆藏资源、云计算、资源整合等;2012—2016年的研究主题主要包括资源聚合、大数据、深度聚合、数字文献资源、公共数字文化资源、知识发现、资源共享等;2016—2018年的研究主题主要包括知识聚合、资源再组织、馆藏数字资源、非物质文化遗产、用户需求、数字资源共享等;2018—2021年的研究主题主要包括开发利用、数字资源转化、馆际合作、融合储存策略、需求分析等。王平等对数字资源聚合管理系统的开放背景、结构框架、运行环境等方面内容进行了分析[7]。许鑫等将数字资源聚合研究应用在学术期刊出版领域,构建了学术期刊语义出版模型,并进行实证分析[8]。
关联数据是用一种轻型的、可利用分布数据集及其自主内容格式、基于标准的知识表示与检索协议、可逐步扩展的机制来实现可动态关联的知识对象网络,有利于实现知识组织和知识发现[9]。关联数据与图书情报工作领域密切相关,关联数据描述了通过可链接的URI进行发布、分享、链接Web中的资源的各种方法[10]。从技术层面,关联数据有利于资源的发布,刘炜对关联数据在图书馆行业的应用进行了分析,指出关联数据成为数字对象 “编目” 和 “规范控制” 的基础技术[11],丁楠等指出关联数据为图书馆信息资源聚合提供了新途径[12]。
数字资源聚合包括聚集和整合两个部分,聚集是指对数字资源与用户需求的聚集,整合是指从用户的需求出发,对数字资源的内容及数字资源服务内容的整合。刘明辉等认为聚合方法属于资源搜索的范畴,在信息的组织层面,内容聚合器是资源聚合的重要方法[13],在此基础上衍生出的聚合服务包括两种类型,一种是简单地从网站收集信息,另一种是为满足客户需求而收集和分发的内容。通过关键词分析,笔者发现数字图书馆馆藏资源聚合研究侧重数字信息资源的聚合与服务。
2.2 数字资源聚合研究主题聚类分析
数字资源聚合是指根据外部及内在特征对无序、分散的数字资源进行处理,挖掘数字资源的关联关系,为用户提供服务的过程。数字资源的聚合反映数字资源存在不同程度的联结,《弱关系的力量》一书对联结强度概念进行了分析,将其划分为强联结和弱联结,并利用互动的频率、感情力量、亲密程度和互惠来测度联结的强弱程度[14],成员之间互动频率较高、关系比较紧密、互惠程度较高为强联结,反之则为弱联结。强联结在网络内部的相似性较高,但范围一般有限;而弱联结是网络组织之间获得联系的纽带,作为大规模网络形成的基础,分布的范围较广,网络密度较小。通过网络密度可以测度网络中成员之间相互联系的紧密程度,如果网络中的两个成员均与其他成员具有同等关系,则这两个成员的结构具有等效性,可以相互替换。
20世纪40年代末,Leavitt对网络中心性概念进行了分析[15]。网络中心性可分为点中心性和网络中心性,前者用于测度个体处于网络中心的程度,反映行为者在网络中的影响程度,后者用于反映整个网络中各个点的差异程度,体现的是整体网络的整合性和一致性。通过社会网络分析,笔者对数字资源聚合服务研究主题文献进行了聚合(见图1),节点之间的连线代表关键词之间具有共现关系,连线疏密程度反映研究主题之间的紧密程度。通过计算可知,该网络的平均距离为1.838,网络聚集度为0.591,关键词网络关系密度为3.3975,表明聚合网络中关键词间的联结最多经过两个,聚类效果较好,关键词之间的关联性较强。
图1 数字资源聚合研究主题聚类
通过对数字资源聚合主题的聚类分析,笔者发现数字资源聚合研究主题的覆盖范围非常广泛,不仅包括企业及政府部门,还包括图书馆、档案馆、博物馆等涉及数字与信息资源的领域。数字资源聚合的研究内容较丰富,如信息资源的聚合、信息服务的聚合、信息功能的聚合、信息技术的聚合、信息系统及软件的聚合等。其中,数字资源聚合的对象不仅包括传统信息资源,还包括大量的非结构化信息资源、远程信息资源等数字资源。即使数字资源形式多样,聚合方式不尽相同,但数字资源聚合体系对本体论、语义网、信息构建等理论与方法的应用推动了数字整合研究的深入发展。在研究技术方面,信息技术不断被应用到数字资源聚合中,如 XML、OWL、数据挖掘、信息抽取、P2P、网格等,信息技术的发展推动了数字资源聚合研究的精细化发展。
2.3 数字资源聚合框架分析
数字资源语义聚合是指在元数据聚合的基础上进行数字资源语义标注,通过构建领域本体库,实现语义关联和语义服务。已有元数据的数字资源聚合并不能完全解决信息系统的语义异构问题,包括数字资源采用不同元数据方案形成的微观结构异构问题以及资源对象之间存在的复杂关联关系。随着数字资源数量的激增,基于文献特征的聚合已不能满足用户的个性化需求,数字资源语义聚合成为数字资源聚合的发展主流。数字资源之间存在的关系是数字资源聚合的前提,从数字资源的结构和内容挖掘数字资源之间的关联关系,如语义、本体、关联数据、主题词表等,成为馆藏数字资源语义框架构建的基础。基于语义的馆藏数字资源聚合框架对馆藏数字资源标准化处理的元数据库进行知识提取,通过语义本体、主题、关键词或其他知识单元对数字资源进行知识表示,从而在信息技术、协议标准、知识组织的基础上,解决数字资源库之间孤立、内容交叉或异构问题,实现资源与个性化服务的关联,提升数字图书馆的服务能力。数字资源聚合框架(见图2)在数据集层、知识表示层、语义检索层的基础上揭示了 “碎片化” 信息的内在联系,从而为用户提供个性化知识服务。
图2 数字资源聚合框架
(1)数据集层。数据集层将各种类型的数字资源采集入库,其中源数据包括数字资源的书目数据库、各种期刊论文数据、全文数据以及音频、视频数据等各种不同结构的数据,这些数字资源的表现形式和属性各具特点。通过对这些数据的物理特性和内容特征的分析、选择和标记,进行元数据描述,建立关联关系,实现知识表示。
(2)知识表示层。知识表示层在数据集层的基础上,通过一定的知识表示技术,将各种知识元的语义关系呈现出来,形成知识元之间的逻辑关系,构建基于知识的信息网络化结构。知识表示的形式包括本体、主题和其他知识表现形式;本体包括学科的领域本体形式、通用本体等;主题是一种用于描述信息资源知识结构的元数据格式,它可以定位某一知识概念所在的资源位置,也可以表示知识概念间的相互联系,是一个主题概念网络,用于知识导航,帮助用户快速定位所需知识元的位置,同时还可检索和浏览相近或者相关知识元的位置。构建本体库、知识库是将知识表示的本体和知识元存储到一个或者多个知识库中,实现对知识的本地化,这样不仅能提高知识库的可靠性,还能提高检索效率、支持并发机制、避免访问冲突,提高对本地知识库的管理、更新和维护效率。
(3)语义检索层。语义检索层能够为用户提供直观易用的检索工具或平台,实现人机交互功能。语义检索层通过处理用户的知识检索需求,实现对用户的检索词的语义分析,匹配相应的本体概念,迅速找到知识元以及与其相关的数据资源,以可视化的方式为用户呈现目标知识。用户交互层面不仅为用户提供简单易用、功能强大的统一检索界面,还可实现个性化定制等智能服务,能同时接受和迅速处理用户的需求信息。
3 结语
随着公众需求的多元化发展以及图书馆自身发展的需要,对图书馆数字资源的聚合成为用户获取全面、高质量数字资源的有效手段。随着网络化、数字化时代的到来,图书馆的馆藏资源发生了很大的变化,数字型资源在图书馆馆藏中占据的比例越来越大,地位越来越重要。通过信息计量与可视化方法对数字资源聚合主题分布进行梳理,可以发现数字资源聚合研究主题较多,覆盖多个研究领域,数字资源聚合不仅成为数字时代数字资源利用的有效途径,而且范围不断扩大,不仅包括传统的数字化文献资源,还涉及数据、非物质文化遗产、博物馆等信息,这些都已成为数字资源聚合研究的对象,丰富了数字资源的聚合广度。针对馆藏数字资源聚合发展,本文在前人研究的基础上,从数据集、知识表示、语义检索三个层面提出数字资源的聚合框架,揭示了数字资源元素、结构、层次等方面的映射关系,对数字资源知识表示进行分析,实现数字资源个性化知识服务。