基于领域本体的数字图书馆知识聚合服务研究
2021-07-08陆素梅
陆素梅
(南京师范大学泰州学院图书馆,江苏泰州 225300)
用户知识获取的高阶化需求以及数字化知识发现技术的勃兴,正推动着数字图书馆知识服务朝向基于用户知识期望、知识检索习惯与知识获取偏好的跨媒体聚合服务转向。近年来,基于语义关联、领域概念关联的知识发现技术在数字图书馆知识检索服务中的应用,一定程度满足了用户知识检索的新需求[1-3]。然而,当前数字图书馆知识数据呈现出内在结构弱化与无序性增长的特点,不同类型资源数据间存在较为复杂的异质性结构,因而,面向文本语义的知识关联方法仅能解决图书馆跨媒体资源检索问题,无法化解资源在领域本体意义上的异构与互操作矛盾。依托领域本体构建的理论框架,采用领域概念关系聚类的体系化知识聚合方法,则能够为用户提供既可横向扩散又可纵向深入的集约型、智能型与智库型的知识服务。
1 本体理论概述
1.1 本体的概念
本体(Ontology)源于哲学概念,用于系统性解释事物(客体)的本质[4]。后来,知识工程师借用了这一概念,用来描述客体知识的本质属性。在知识工程范畴,本体是描述客体知识的一个概念框架,本体映射的是客体知识的概念及其相关关系的术语集:通过一系列术语(术语集)描述知识概念,术语对象或概念类型共享一个知识本体。本体具有显著的结构化特点,它是本体知识库构建的骨架和基础。目前,国内外关于本体的研究较为广泛,出现了诸多小分支,依据本体的应用主题,主要分支有领域本体、常识本体、语言本体等[5]。
1.2 领域本体概念
领域本体(Domain Ontology)是本体应用主题的最主要分支。在知识工程范畴,领域本体是对领域概念的系统性描述,其描述的是某一领域中知识概念之间的内在关系,包括领域概念、概念的属性、概念间的关系、属性和关系的约束等等[6]。领域本体具有显著的领域特性,其能够表示特定领域知识的系统性本质,因而,领域本体可以更为合理、更为有效地描述领域知识的概念体系,为领域知识检索与系统开发提供理论架构。在知识工程开发与管理中,“领域”并没有明确的边界,其可以依据本体构建者的需求来设定,它可以是单一领域(通常为一个学科),也可以是多个具有一定联系的领域组合,还可以是某个领域中的一个小分支。在实践中,领域本体的构建往往需要经过一个不断补充与反复调整的迭代过程,才能最终使领域本体中的概念贴近于待研究领域的客观实体与关系法则[7]。故而,通过领域本体的构建,可以实现:(1)明确领域范畴内的知识专业术语、概念关系,使其系统化、形式化;(2)有效沟通领域知识,促进知识共享与知识利用;(3)为领域知识的深度应用及交叉运用提供可能[8]。
1.3 领域本体在数字图书馆中的应用意义
领域本体在知识工程建设中的应用越来越广泛,从现有的国内外文献来看,知识领域本体的研究涉及化学、计算机科学、生物学、医药学、图书情报学、地理学等诸多学科领域[9]。在图书情报学领域,领域本体的应用发展,或将促进了数字图书馆的服务变革。数字图书馆包含海量数据,不同来源、不同专业学科、不同介质的资源数据结合于一体,要怎样使海量数据信息高效获取、转换和利用?是数字图书馆资源建设的重要命题。尤其是在学术科研领域,如何将多元异质、纷繁复杂的跨媒体资源有机整合起来,并深度发掘学术资源本体属性以及多元学术资源之间的逻辑关系,以便高效实现学术知识统一认证、聚合检索与个性化服务,具有重要的现实意义。毋庸置疑,领域本体理论为知识描述提供了构建框架,随着用户对学术资源的进阶性要求,推进跨媒体资源的领域本体构建将成为知识系统开发不可或缺的步骤——领域本体理论在数字图书馆的应用,将大大推动数字资源建设,提高资源聚合、数据检索以及知识服务的有效性、准确性与智能性[10]。
2 基于领域本体的数字图书馆知识聚合服务要素
基于领域本体的数字图书馆知识聚合服务是一项复杂的系统工程,既需要对跨媒体异质资源进行基于领域本体构建的规整化处理,形成系统性的数字知识表示机制(基本要素),又需要在知识本体与领域用户需求的聚合交互基础上(中介要素),实现平台化聚合输出(载体要素)。
2.1 基础要素:知识表示
知识表示(knowledge representation)就是将知识客体与本体关联起来,对异构化数据知识进行规整化描述,以揭示知识本、客体关系的逻辑机制[11]。知识表示是数字图书馆知识聚合服务的基本要素,其核心目标是通过对数字网络知识、结构化数据知识等客体资源予以规整化处理,析出具有代表性与颗粒度的知识本体,并创建本体知识库。领域知识的本体表示,通常要经过三个步骤:(1)领域知识客体规模化采集与筛选。在领域本体构建前须先确定本体覆盖的领域知识客体范围及应用目标。只有在确定领域范围后,才能有针对性地对知识客体进行规模化采集、分类与筛选。(2)领域客体知识标引。对领域客体知识进行自动或半自动的多维度概念抽取,以促进客体知识从宏观结构到微观晶格的概念标引。在特定领域,这些概念往往就是与领域相关的专业术语:把领域中一些重要术语描述出来,有利于知识工程师更好地理解领域本体库构建的目标与应用方向。(3)领域本体知识库构建。领域本体知识库是领域本体知识的一个数据集,其通过描述领域概念间的关联机制,将领域概念进行分类组织,可实现领域本体知识模块化[12]。
2.2 中介要素:聚合交互
领域知识与用户画像(用户数据)的有效交互,是数字聚合服务的中介要素。在实践中,聚合交互的实现需要满足两个要求[13]:第一个要求,即要在创建的领域本体知识库中深度聚合领域关联知识。该要求主要是为了实现领域本体知识的有序化聚类,如按照领域本体概念关系网络对领域本体知识库中同一类别的知识单元进行信息聚类,形成深度知识聚合网络。第二个要求,即要在实现领域本体知识有序化聚类的基础上,促进领域本体知识与用户画像(用户数据)的有效交互。作为数字图书馆知识聚合服务实现的中介要素,用户画像与领域本体知识是聚合交互的两大核心元素,如何实现二者的有机映射是该模块的核心要求。
2.3 载体要素:聚合服务平台
聚合服务平台作为数字图书馆知识聚合服务中的平台要素(也可以说是实践要素、媒介要素),主要包括检索平台、专题库平台、场景化推送平台等。依托聚合服务平台,数字图书馆可以为用户呈现可视化的聚合检索、专题数据库、场景化推荐等知识服务。(1)检索平台。检索平台是领域知识聚合服务输出的初阶平台,旨在为用户提供常态化的跨媒体聚合数据服务,以最大限度对领域数字资源进行模块化聚类,实现基于一定约束条件的数字知识聚类输出。(2)专题服务平台。专题服务平台是领域知识聚合服务输出的中阶平台与核心服务窗口,旨在通过自动跟踪知识数据与关联聚合,为用户提供领域知识情报数据库、专家大数据库等智库或专题数据库服务。(3)场景化推送平台。场景化推送平台是领域知识聚合服务输出的高阶平台,旨在依托聚合服务交互机制,利用自媒体平台、场景化智能推荐技术与情景感知技术来提供兼具实效性与人性化的知识服务,以增强领域知识聚合服务的靶向性。
3 基于领域本体的数字图书馆知识聚合服务实现路径
通过对知识聚合服务基本要素的分析,可构建基于领域本体的数字图书馆知识聚合服务实现模型,如图1所示,该模型由三大核心模块组成。
图1 基于领域本体的数字图书馆知识 聚合服务实现模型
3.1 知识表示模块:构建基于领域本体的知识库
目前,本体知识工程构建较常用的方法有:IDEF-5法、TOVE法、Methontology方法、骨架法和七步法等,其中骨架法是一种较为简单高效的知识工程构建方法,其基本思路是:确定知识应用目的与范围→对知识客体采集与分析→对知识客体标引(实现知识本、客体的映射)→本体知识库构建。基于骨架法,领域本体知识库的基本构建路线如下:
第一,对领域知识采集与处理。(1)领域知识采集的技术路线。在确立领域范围的基础上,利用爬虫、知识挖掘等数据发现技术对分布异构的海量多粒度知识资源进行领域范畴的采集[14]:利用诸如程序调用、资源搜索、资源解析算法、情境识别跟踪算法等爬虫抓取工具进行领域知识采集;利用人工智能、机器学习等知识挖掘方法对非结构化的知识数据进行领域范畴识别,析出与领域范畴相关的知识类别、知识名称、知识属性、知识关系等数据。(2)领域知识分类的技术路线。利用聚类算法、分类算法等数学方法对领域知识进行分类[15]:利用聚类算法从海量多粒度的领域知识数据中识别出类别、名称、属性与关系等具有显著性特征的关联数据集,构建RDF三元组(Resource Description Framework,资源-属性-值,一种基本的本体描述语言);利用分类算法对无序异构的数据集进行领域知识共现关系分类,生成基本的领域知识共现关系矩阵。(3)领域知识筛选的技术路线。借助程序模块化技术与筛选算法对领域知识共现关系矩阵中的关系类型进行筛选:借助程序模块化技术对领域知识共现关系矩阵中广泛且具有复杂相互关联特征的非结构化知识进行模块化重组;基于领域本体的应用目标,利用筛选算法对模块化的领域知识进行筛选,从元数据语义、领域词汇主题、效用等方面初步实现结构化呈现,促进知识的螺旋式改进。
第二,对领域知识概念进行标引。利用标签云软件、映射工具对领域知识进行概念抽取与标引,赋予不同类型领域知识相应的概念标注并提取特征向量,以识别领域知识资源的内在逻辑关系。概念标引不仅是知识资源的描述,还是领域本体的构建过程,其有助于促进领域知识深层次隐性关联的统一。如采用FCA-MERGE数据发现技术在客体知识与本体知识间建立映射关系的过程中,对知识客体进行著录、标引,实际上就全面析出了数字图书馆知识彼此间的隐性关联,实现了领域本体知识关联挖掘的目的;利用改进tf-idf、互信息、PageRank等文本特征提取方法构建“领域术语词典”的过程,实际上就实现了对领域本体的概念抽取与术语描述[16]。
第三,构建领域本体知识库。领域本体知识库通常呈树状结构,树上的节点描述的是领域本体知识层次结构关系[17]。知识工程师只要将分类概念的属性值添加到各层次分类概念中,便可以清晰地体现领域概念间的关联关系。通常领域本体知识库内的领域概念之间存在继承关系、类属关系、引证关系、等同关系、映射关系、论述关系等关联关系。数字图书馆可利用统一建模语言(Unified Modeling Language,UML)、RSS聚合技术从不同的知识语境中挖掘知识资源所蕴含的领域本体概念,并采用面向关键词、标题与主题图的本体识别技术,生成实体标识一致、数据结构一致的高质量领域本体知识集合。为了提升领域本体知识库质量,数字图书馆有必要采用大数据、本体匹配映射、行为认知、网络演化分析等技术,基于知识名称、概念抽取、术语描述三个维度对处于不同层次的领域知识概念进行深度挖掘,形成模块化的知识网络体系。
3.2 聚合交互模块:构建领域本体知识与用户画像的交互路径
促进用户数据与本体知识库之间的常态化交互是为数字图书馆用户提供情景化、动态化、常态化的领域知识服务的中介节点。因此,聚合交互模块的实践核心是要构建领域本体知识与用户画像的交互路径。
第一,深度领域知识聚合网络的构建路径。常见的聚合方法有两种[18]。一种是基于领域关联体系的聚合。即基于知识概念设定聚类阈值,将知识关联聚合与阈值过滤相结合,提高标引知识网络中个体数据的空间映射强度,赋予领域本体知识群聚性特征。一种是基于搜索引擎的关联聚合。即凭借搜索引擎对领域本体知识进行二次组织与整理,形成深度知识聚合网络。
第二,用户画像的路径。用户画像的核心工作是给用户贴“标签”,通过用户标签赋予用户数据以活力。用户画像构建技术主要有:基于词袋模型的用户画像技术、基于知识图谱的用户画像技术、基于矩阵分解的用户画像构建技术等,其中基于知识图谱的用户画像技术应用较为广泛。数字图书馆可利用平台采集用户小数据(包括用户基本数据、浏览数据、检索数据等),构建面向用户画像的知识图谱[19]。即通过用户行为关键词的语义标引,生成可以表示用户特性与用户行为的标签组合模型。用户画像是一个动态的模型,数字图书馆可以在服务过程中不断完善用户标签组合,构建良性闭环。
第三,用户画像与领域本体知识的有效映射路径。数字图书馆可利用大数据、机器学习等数据处理技术实现用户画像与领域本体知识的有效映射。新兴的智能计算技术在“知识聚合—用户画像”交互应用中具有重要作用:大数据、机器学习、传感器以及越来越容易获得的高性价比大规模云服务,为数字图书馆构建“知识聚合-用户画像”交互机制提供强有力的新工具——先进的数据处理技术,提高了数字图书馆知识本体库与用户知识需求间的适配程度。如数字图书馆可以结合用户访问时间、访问地点及访问链接等信息构建知识链接结构序列拓扑图,以提升用户场景数据与知识资源的有效映射。
3.3 聚合服务模块:多维度的知识聚合服务平台构建与实现
基于领域本体的知识聚合服务平台是数字图书馆为用户提供领域知识聚合检索、专题数据库、场景化知识推荐等多维度领域知识服务的终端载体。
第一,领域知识聚合检索平台的构建与服务内容。数字图书馆可通过统计图、网络图与过滤展示等方式为用户创建友好交互的可视化窗口,并通过聚合检索引擎与检索窗口,为用户提供高效的领域资源聚合、领域知识链接、领域知识概念图等检索服务[20]。检索服务是一项约束性服务,数字图书馆基于本体知识库与知识聚合、知识检索技术,在对与作者、机构、主题相关的知识内容进行耦合性、定量化分析后,可为用户提供基于约束条件的检索服务:一方面,依托领域知识本体库构建与关系结构的演化历程,数字图书馆可基于用户约束条件为用户提供模块化的知识检索服务。另一方面,基于不同知识单元间耦合强度所形成的“知识簇”、基于知识检索工具的映射功能,可将抽象的二维检索结果转化为直观的图形数据,让用户直观地了解相关知识领域的发展轨迹,进而探测到对其有用的知识信息。
第二,领域专题知识服务平台的服务输出与技术要求。领域专题知识服务平台的服务方向可以分为领域各学科专题知识服务、科研专题知识服务与信息素养专题知识服务等[21]。领域各学科专题知识服务主要包括领域内各个学科的资源导航数据库服务、领域学科中的特色资源数据库服务等;科研专题知识服务主要包括领域内科研咨询专题库服务、科研趋势研判专题库服务等;信息素养专题服务主要包括领域知识聚合的各类型数据库使用、课程信息、论文写作、应用软件、投稿指南等服务。专题知识服务对数字图书馆提出了较高的技术要求,不仅要促进具有较高关联性与聚合性特点的领域本体知识实现细粒度聚类融合,还需要以关联展示方式向用户提供多维交互的可视化集约知识。为了实现基于领域本体的专题知识服务,一方面,数字图书馆应利用Cosine算法、EM聚类算法、IDF加权算法对领域范畴内的各学科专题知识、科研专题知识、信息素养知识所蕴含的深层次信息进行解读,生成具有个性化标签的专题知识网络图谱。另一方面,数字图书馆还要采用大数据技术、嵌入技术将不同类别的专题知识聚合结果以协同嵌入方式提供给用户,使用户能够快速全面地理解知识聚合结果的层级关系及链接分布规律。
第三,场景化领域知识推荐服务的实现路径。在移动互联网时代,用户对数字图书馆知识聚合服务情境较为敏感,因此,提供与用户知识利用情境相契合的场景化领域知识推荐服务也有必要。数字图书馆可凭借用户画像手段全面把握用户对领域知识需求的发展趋向,利用移动智能终端、传感器等情境感知技术,从海量的用户使用数据中挖掘高频使用场景及用户行为轨迹,并以此为基础创建用户场景模型,以便当用户进入某个特定场景时,实时推送与需求高度匹配的领域知识,动态满足用户对领域知识的需求[22]。
4 结语
全媒体时代,数字图书馆信息资源服务模式正不断发生变化。数字图书馆通过领域本体的构建有助于海量数字资源实现从“无序”到“有序”的规整化聚合——将数字资源中零散的知识碎片高精度聚合起来,可帮助用户准确分析其中有价值的信息,以满足用户多样化的资源需求。然而,数字图书馆要实现领域知识细粒度聚合与智能化服务输出,需要不断提升资源、情境的实时把控能力,不仅需要实现领域本体知识描述、概念关系聚合与知识展示的深度融合,亦需要基于用户感知有用性、易用性的双重维度来拓展知识聚合服务的实践路径,有效激活知识聚合服务的系统性效能。限于研究专业的局限性,本文仅为数字图书馆提供了一个基于领域本体的知识聚合服务理论架构,该项服务若要真正付诸实践,还需要知识工程师从技术领域给予全方位支持。