基于本体的档案知识共享服务模式构建＊

2022-02-19李海平李京林

甘肃科技 2022年24期

马强，李海平，李京林，徐涛△

（1.西北民族大学，甘肃兰州 730030；2.甘肃省档案馆，甘肃兰州 730010）

1 引言

2020年底，全国档案局长馆长会议上明确提出“要加快推进档案信息化战略转型，切实保障信息化建设的前瞻性、针对性、实效性，进一步加强顶层设计，大力完善基础设施，加强标准规范建设，积极推动互联网、云计算、大数据、人工智能、区块链技术和档案工作的深度融合，加快档案信息资源共享服务平台建设，拓展档案工作数字化、网络化、智能化的应用场景。”

在这种发展要求下，将新一代信息技术和档案信息化工作相结合，对于研究档案领域智能化、个性化的知识共享服务已经有了一定进展。黄雪梅和黄永勤[1]从体系结构、业务模式等几个方面，进一步阐明档案知识业务系统的规划设计和使用理念；吕元智[2]从用户实际利用档案服务行为的不同视角出发，分析与设计档案管理知识服务信息系统框架；在分析国内外关于区块链技术建立电子档案管理系统的研究和实践的基础上，左晋佺和张晓娟[3]又提出了采用“联盟+公众”双区块链技术的电子文档系统；张斌等[4]提出了如何构建基于档案馆的大型知识库，从而向广大用户实时提供知识集成服务。

传统档案馆的知识服务管理系统通过收集用户信息，并提供单一的检索、浏览服务机制，存在档案资源利用率低、针对性弱、异构化资源难以实时共享等主要缺陷[5]。为此，通过利用本体技术关联自然语言处理、知识图谱等知识构建档案知识库，使档案信息资源结构化、语义化和知识化，再融合用户偏好特征，以准确获取、动态更新用户档案需求，从而强化用户使用档案的获得感和满足感。本文将从档案本体构建出发，阐述人工智能技术在档案知识共享服务中使用的主要方法和技术，从而为提高档案用户体验和优化服务效果提供参考。

2 基于本体的档案知识共享服务

1.1 基于本体的档案知识共享服务

构建档案领域本体前提下，通过信息技术和人工智能技术支撑构建档案知识库[6]，结合不同用户在数据查询时的行为和兴趣爱好信息，构建并实时更新用户兴趣行为模型，全面描述用户兴趣特征及个性化需求，智能拓展与满足用户潜在相关知识需求，从而可以有效地实现协同管理客户的资源,从而提升客户服务、服务质量的全过程[7]。与传统档案信息服务的对比见表1。

表1 基于本体的档案知识共享服务与传统档案知识服务对比

1.2 档案知识共享服务模式框架与核心内容

基于档案本体的知识共享服务模式核心内容有核心技术、用户兴趣与行为建模、知识库管理、知识服务机制和知识应用。建设框架如图1所示。

图1 建设框架

2 基于本体的档案知识共享服务核心内容研究

2.1 核心技术

2.1.1 本体技术

本体是用来定义如何组成某个“领域”的一个词汇表及其中的具体术语与其词的关系，并用来明确定义一个词汇的列表及其外延的基本规则。本体知识是相关概念的一种结构化知识规范和表现形式，可以直接形成对某一领域相关概念的知识共享和共同性的理解，完成知识资源共享和性能重用[8]。

本体语义描述语言是一种具有良好的描述语法和基本语义，以及具备一定表达能力的形式化描述语言。OWL是一种描述标准本体类型的语言，它具备很强的语义表达能力，有利于领域本体的资源描述和构建，更有助于资源的整合与共享。

领域本体的复合构造设计技术有很多种，国内主流是斯坦福大学医学院研究的七步法[8]，适合于各个领域自然本体的复合构造。本文借鉴七步法，重点考虑以档案主题词内容为依据建立档案的本体。详细步骤如图2所示。

图2 档案领域本体构建过程

2.1.2 自然语言处理

自然语言处理技术（NLP）是沟通机器语言与人类自然语言的主要桥梁，是一种以快速实现各类人机交互为主要目的信息技术[9]。NLP有两大类核心的内容：自然语言理解和自然语言生成，包括核心步骤，如分词、词性标注、起名实体识别等。

分词是通过把包含词语、句子、文字等信息的资料,分解成以词为基本单元的结构,方便人们进行资料的后续管理以及资料操作的管理。

词性标注是在任何已给出的句子中，得出每个词的语法范围，确定其词性，并对其词进行定义标注，在自然语言处理中也是一项非常重要的基础性任务[10]。

命名实体识别(NER)是指在自然文本中识别各种实体所指称的特定界限和语义类别，包括人名、地名、机构名称、专有名词等。在分析档案的信息时,可对文档信息中的信息进行训练与整合,便于文档知识库中各种实体的特殊语义关系的填充[10]。比较经典的深度学习模型有BERT+BiLSTM+CRF。

2.1.3 知识图谱

知识图谱是基于Google为加强其搜索引擎知识性能而设计的知识库，其实质是用来准确描述处于客观世界的各个概念语义实体以及各概念实体之间的客观关系的大型概念语义知识网络，是指以实体概念为节点，以客观关系为边，由三元组结构构成的一种以实体视角看待世界客观关系的结构。三元组是由实体、属性或特殊属性值和关系所形成，图3是一种简易社交网络图谱。

图3 社交网络图谱

知识图谱的整体构建包括逻辑架构和知识管理架构，分为知识模式层和建立数据层，其中数据层由一系列知识事实数据构成，新知识将管理存储在以这些事实为单位的基础之上。知识模式层是建立本体数据库规范其在数据层的一系列知识事实和表达[11]；知识管理架构指的是建立模型架构，知识图谱大多采用自底向上的构造法。

知识图谱的关键技术[12]主要有知识表示抽取、知识形式表示、知识融合和知识逻辑推理，其中知识表示抽取指的是抽取知识中实体、关系与属性等事实性的表达形式；知识形式表示指的是通过三元组准确地表达知识中的实体、关系与属性之间的复杂语义联系；知识融合指的是同一框架规范下对异构数据信息进行整合、消歧等综合处理操作的过程；知识逻辑推理指的是进一步解析推理和发掘隐藏的相关知识，从而扩充可用知识库[13]。

2.2 用户兴趣行为与建模

用户兴趣行为建模是从用户注册的基本信息和浏览、检索等历史浏览活动中分析和建立用户兴趣模型的重要步骤,力求准确、全面地描述用户的个性化知识要求,建模过程可以细分为用户模型表示、模型初始值优化和用户模型更新。

2.2.1 用户模型表示

通过本体语义概念层次结构、语义逻辑推理以及功能语义分析用户个性潜在需求，将其中自然语言逻辑关系转换为用户本体语义概念间逻辑关系，满足用户个性潜在需求并及时发现其潜在兴趣，实现满足用户兴趣的语义抽象化、结构化语义表示与信息存储[14]。

2.2.2 用户兴趣模型初始化

兴趣采集内容为用户个性化信息，有主要信息，如姓名、性别、年龄等；网页浏览、检索、访问历史、评价等行为记录信息，通过深挖，摸清用户的需求，构成用户特征行为数据库。利用数据挖掘、自然语言处理等技术，将用户利用行为信息进行分类，总结不同用户的行为偏好与行为模式、习惯等的相互变化，构建基于不同用户需求的用户行为管理知识库。图4为用户兴趣模型搭建过程。

图4 用户兴趣模型构建流程

2.2.3 用户兴趣模型更新

根据用户使用历史与兴趣爱好变化，动态改善与修正用户兴趣模型，以长期反映用户个性化需求。

2.3 知识服务机制

基于档案领域本体的档案知识服务过程如图5所示。首先,利用概念推理方法提取文件信息,建立结构化的文档数据库。其次,通过提取用户的兴趣爱好、行为特点,并存入档案用户行为本体库,从而形成了语义的档案用户兴趣爱好行为模式[14]。然后，通过档案知识的处理与分析及成果的呈现,制定服务策略与处理检索结果，生成用户个性化信息检索、推荐信息列表及相关知识语义链接等展示给用户。最后，对档案用户的反馈信息进行动态收集，对档案本体库和用户兴趣行为模型进行更新。

图5 档案知识服务机制

2.4 知识库管理

分为知识抽取、表示、存储及更新，主要管理用户兴趣资源、档案知识以及服务档案用户过程中产生的新知识。

2.4.1 知识抽取

从各种异构档案数据源中分别抽取档案实体、特定档案实体关系以及实体属性等结构化数据信息。对档案实体的识别提取，可以转化成标号顺序的问题，常用的方法有深度循环神经网络结合条件随机场（CRF）[15]；提取特定档案实体关系常用的是根据训练数据分析设计有效的关系特征值，根据监督提取方法学习各种分类问题模型的方法；实体属性的提取主要是从不同的档案信息来源中，对具体的档案实体进行属性信息的采集，一般情况下等同于实体关系抽取问题。

2.4.2 知识表示

由于档案实体拥有各种各样的属性关系，因此可以用档案实体、档案实体关系的属性图来表示知识。除了数据属性图之外，这里主要介绍用资源信息描述框架（RDF）来进行知识的表示，主要特点是数据易于独立发布和实时分享各类数据，通过两个实体的关系链接而形成一个有向的数据网络。见表2和图6所示。