APP下载

基于本体理论的红色档案知识服务探索

2023-06-16黄永勤杨安莲平硕国防大学政治学院军事信息与网络舆论系

浙江档案 2023年5期
关键词:知识库本体图谱

黄永勤 杨安莲 平硕/国防大学政治学院军事信息与网络舆论系

红色档案指中国共产党成立以来,领导机关组织[1]和带领广大人民群众在革命战争、社会主义建设、改革开放、新时代等各阶段[2]矢志奋斗实现中华民族伟大复兴进程中形成的能体现党的初心使命并且具有保存价值的各种文字、图表、声像等不同形式的历史记录。红色档案具有客观原始史料、内容信息丰富、红色价值导向、教育意义深刻、情感走心共鸣等特点,是传承红色基因和赓续红色血脉的重要载体。深度开发红色档案,开展知识服务能更好地满足社会公众多元化、个性化、知识化、深度化、智能化的利用需求,更好地服务社会经济建设、弘扬革命传统文化、强化主流价值引导、抵制历史虚无主义、提高政治教育实效。

从红色档案开发与知识服务的理论研究看。档案知识服务的研究重点包括:一是从理论研究维度探讨相关概念、方法、机制等;二是从技术实践维度讨论档案资源整合、馆际资源利用、服务模式等[3]。目前相关研究多聚焦红色档案的生成机理、价值意蕴、开发路径等,从知识服务的视角探索红色档案利用的成果很少,应用“本体”开展“档案知识服务”的研究也较少。

从红色档案开发与知识服务的应用实践看,还存在以下不足:一是红色档案资源整合不足。档案馆一般局限于本单位的资源开发红色档案,缺乏跨馆、互联网等资源的整合,资源建设方面存在“拥而难用、汇而不慧”的现象。二是红色档案开发深度欠缺,目前红色档案的开发主要以传统的编研和检索利用为主,已愈发难以满足用户对精准化/精细化数据分析、智慧搜索、自动问答、个性化推荐等知识性、深层次、智能化的信息需求。三是红色档案服务模式单一,有研究指出红色档案“叙事碎片化[4]”的问题,其根源还是红色档案的知识服务能力欠缺。

知识服务是解决红色档案开发利用与档案用户信息需求不匹配矛盾的重要途径,而“本体”是实现该目标的最佳方案之一,本文试图引入本体理论,探索其在红色档案知识服务的应用,以期为实践提供有益参考。

1 基于本体的红色档案知识服务理论框架

本体(Ontology)源于西方哲学领域的“存在论”,是共享概念模型明确的形式化规范说明[5],相关国际标准[6-7]进一步指出本体是规定知识域中具体或抽象事物及其关系的规范。有学者[8]将本体在信息行业的作用概括为:支持标引、检索、组织与浏览,以及充当知识库,提供知识服务。基于本体的红色档案知识服务是在用户兴趣模型和红色档案知识库的基础之上构建用户(需求)本体和知识本体,并基于本体映射机制、语义表示、逻辑推理等特性开展的相关知识服务应用。具体而言,主要包含以下内容:

1.1 服务模型

依据前述定义,基于本体的红色档案知识服务模型如图1所示,主要包括以下部分:

图1 基于本体的红色档案知识服务模型

1.1.1 从需求视角看。通过分析档案用户基本信息、行为信息等归纳并构建基于(需求)本体的用户兴趣模型。一是用户兴趣模型,旨在精确全面描述档案用户个性化需求,具体包括模型表示、模型初始化、模型进化等内容[9]。模型基于本体语义表示、知识推理等,其在结构化形式、兴趣信息采集、智能处理、动态进化等方面优势显著。二是需求本体,基于概念层次结构和推理分析,一方面可实现将用户自然语言转换为形式化、概念化、层次化、机器可读的档案用户需求,实现与知识本体的映射;另一方面也可实现用户需求语义化、结构化存储和表示,挖掘用户潜在需求,优化用户兴趣模型。

1.1.2 从资源视角看。一是信息采集,用本体转换非结构化、半结构化档案信息资源为结构化存储知识,并精确描述知识内容及其关联,解决红色档案资源类型多的问题。二是知识表示,用本体描述语言序化、结构化异源异构档案信息,将其转换为可共享、互操作的形式化知识,解决红色档案资源的信息集成问题。三是知识组织,基于本体映射机制、语义标注等方法组织和集成相关档案资源并导入本体知识库,解决红色档案资源的信息组织问题。四是知识存储,构建红色档案领域本体和知识库。五是知识更新,关联、更新红色档案领域本体、知识库等。

1.1.3 从服务视角看。一是服务机制,将用户浏览、提问、交互、检索行为等需求通过用户兴趣模型调用需求本体,并通过映射机制关联到知识本体,尔后知识本体调用知识库资源为用户提供服务。二是服务方式,目前常提供知识图谱分析、个性化定制、知识导航、知识问答、知识推荐、知识检索等。三是服务反馈,服务与评价形成闭环管理,便于优化服务方式、用户兴趣模型和本体库。

1.2 本体构建

1.2.1描述语言。一是基于Web本体描述语言,如SGML、SHOE、XML、RDF、RDF(s)、DAML、OIL、OWL、XOL等。二是基于谓词逻辑本体描述语言,如KIF、Ontolingua、Loom、Flogic、Cycl、OCML等。三是基于图本体描述语言,如概念图、WordNet语义网络等。其中XML、OWL、RDF和RDF(s)等在档案领域本体构建过程中广受青睐。

1.2.2 构建原则。最具影响力的是Gruber[10]提出的五条标准,即清晰性、完整性、一致性、可扩展性和最小约束性。现实情况中一般多灵活选择,档案领域可采用国际标准ISO 21127:2014(E)《信息与文献——文化遗产信息交换参考本体》提出的建模原则:单调(推理)性、(本体)最小化、(属性)简便性、(类)不相交性、类型关联性、动态扩展性、内容完整性[11]。

1.2.3 构建工具。一是基于Web本体描述语言的工具,如Protégé、OILEd、OntoEdit等。二是基于谓词逻辑本体描述语言的工具,如Ontolingua、WebOnto等[12]。其中斯坦福大学开发的开源软件Protégé是国内档案领域本体构建最常用的工具,其支持XML、RDF(s)、OWL、Flogic等多种描述语言。

1.2.4 构建方法。常用的方法包括TOVE法、骨架法、METHONTOLOGY法、DEFS法、KACTUS法、SENSUS法、IDEF5法、七步法等。不同方法各有优劣,实际中多依据具体项目、领域特点等进行选择,其中“七步法”是国内档案领域本体构建最常用的方法。

1.3 架构体系

1.3.1 体系结构。一是B/S体系结构,其灵活易维护,但服务器负荷重且安全性一般,一般包含数据层、业务层、应用层,并有相应接口完成层间交互。二是C/S体系结构,其数据管理透明,但维护成本较高,一般包含客户端和服务器端,对客户端要求较高。三是联合存储,为保证知识服务效率,一般在数据层基础之上采取本体库、知识库、用户模型库的联合存储模式。

1.3.2 功能模块。一是知识输入模块,主要采集领域知识、用户兴趣和行为信息等。二是业务处理模块,包括用户需求建模、知识管理、档案检索、知识推理等。三是服务输出模块,包括结果显示、评价反馈等。

1.3.3 架构流程。一是构建知识库,通过对知识资源进行收集、处理,完成语义标注,构建红色档案领域本体知识库。二是构建用户兴趣模型,基于用户行为抽取信息偏好、特征存入用户(需求)本体库。三是服务应用,处理用户检索请求、检索知识、匹配结果等。四是服务优化,收集显性和隐性的反馈信息,修正红色档案领域本体和用户需求模型。

2 基于本体的红色档案知识服务应用实现

“抗美援朝精神”是中央宣传部梳理的第一批中国共产党人精神谱系的伟大精神,2020年习近平总书记在纪念中国人民志愿军抗美援朝出国作战70周年大会讲话指出:“伟大抗美援朝精神跨越时空、历久弥新,必须永续传承、世代发扬”。“抗美援朝战争”红色档案是铭记历史、弘扬精神和资政育人的珍贵资源,调研发现党政机关、党史研究、思政教育等领域对此有强烈的档案利用和知识服务需求。基于前文阐述的服务模型、本体构建和架构体系,本研究以共产党员网《抗美援朝大事记》、抗美援朝纪念馆馆藏档案等数据为例,探索红色档案知识服务的应用场景。

2.1 知识管理

一是本体设计。知识表示描述语言选择OWL,构建方法选择“七步法”,构建工具选择Protégé。以RiC-CM和CIDOC-CRM本体概念框架作为主要标准,提炼出“时间”“地点”“参战部队”“参战人员”“战役”等核心概念集作为“抗美援朝战争”红色档案领域本体的顶层概念和规则,尔后进一步细化描述和实例化。本体概念模型如图2所示,主要包含概念层、实例层、内容层三个方面。二是知识采集。基于“抗美援朝战争”红色档案领域本体,采集和转换非结构化的档案信息为结构化存储知识并精准描述知识内容及上下文关联,如图2内容层所示,主要关联到具体的档案资源,包括照片档案(作战场景)、实物档案(缴获的“北极熊团”团旗)、文书档案(电报、战斗经验总结等)、专业档案(作战态势图等)。三是知识组织。利用本体映射规则、语义标注方法等构建知识链接关系,如图2实例层所示,提炼并组织档案信息中的知识及关系,图中描述了“新兴里进攻战斗”的相关实例,包括参战部队“志愿军第27军”和“美第31团级战斗队”、参战人员“彭德清”和“麦克里安”等。

图2 “抗美援朝战争”红色档案领域本体概念模型示意图

2.2 检索服务

查询检索是基于本体的红色档案知识服务最为重要的应用场景,可实现以下服务:一是知识检索。如图2所示,以“新兴里进攻战斗”为例,借助Protégé工具中的OntoGraf插件可实现知识的拓展检索,如检索“彭德清”,可以得到与其相关的人物,其实例周边有“参战人员”类,有“中国人民志愿军”“第9兵团”“第27军”“新兴里进攻战斗”等实例,且每个类或实例都有带箭头的实线或虚线相连接。二是扩展检索。展开“第9兵团”与“第27军”、“第27军”与“新兴里进攻战斗”的实例可以发现二者之间的隶属和参与关系,同时可以逆向推理出其领导关系和涉及关系,由此实现本体概念模型的推理功能和扩展检索。三是用户画像。依据档案用户检索行为,可进一步更新优化用户兴趣模型,并结合需求本体构建用户画像,当前主要采用基于概念标签的用户画像方法,后续可深化为基于深度学习的用户画像模型,以解决当前红色档案利用服务停留在基于档案用户共性需求普适化层面,无法关联用户行为特点、精准满足新媒体环境下用户个性化和差异化需求的困境。四是评价反馈。主要思路为通过档案用户提交的检索行为和系统反馈的档案知识,进一步计算需求本体和知识本体的相似度,具体包括本体概念相似度和本体关系相似度两个维度的计算[13],相似度计算结果越高表明两个本体越相似,也表明“资源视角”输出的红色档案知识产品越符合“需求视角”中的档案用户兴趣,反之则可以进一步优化用户兴趣模型和红色档案知识库的资源管理,以更好响应档案用户的需求。

2.3 知识图谱

本体作为知识图谱生命周期中“知识框架”的基础,亦是知识图谱构建的核心。本研究在“抗美援朝战争”红色档案领域本体的基础上,进一步完成知识融合、图谱存储、图谱索引等环节,形成了“抗美援朝战争”红色档案知识图谱,并开发了原型服务系统。初步实现了以下服务应用:一是知识导航。以可视化的方式展示知识的分布与关联,图中实体检索“毛泽东”,其中之一的检索结果展示了“毛泽东致电关系”的知识图谱片段,可发现“彭德怀”“宋时轮”“高岗”等与“毛泽东”存在致电关系,同时图谱中每个节点可以作为新的检索点,进一步导航知识片段。二是资源链接。检索结果不仅能展示相关实体,还可点击链接,关联与该实体对应的相关文档、图片、音视频等素材,方便用户直接浏览原始档案,图中展示了“彭德怀”实体对应的原始照片档案。三是知识问答。区别于传统以“关键词”为主要字段的档案检索,知识图谱服务系统能够基于本体的推理,完成自然语言形式的问答互动,图中展示了用户通过自然语言提问“毛泽东都跟谁致过电”和系统智能回答:“贺晋年、陶勇、宋时轮……”;进一步追问“毛泽东致电周恩来说了什么内容”,系统会通过需求本体映射知识本体,进而调用知识库中的档案知识,回答通话的具体内容:“指示要及时补充兵力连续作战……”。四是知识推荐。依据档案用户的提问和检索行为,系统可依据前文所述的用户模型和用户画像,推荐相关个性化知识服务,如图中所示,系统自动向用户推荐“想了解:毛泽东与彭德怀通话内容吗”,若用户需要可点击该问题链接,系统会通过需求本体和知识本体调用档案知识库并自动回答。

3 结语

大数据时代,信息爆炸式增长与用户有限资源处理能力的矛盾愈发突出,“认知过载”“知识迷航”的现象日益普遍,传统的档案信息服务已愈发难以满足用户多元化、精细化、知识化、智能化的需求。人工智能、元宇宙等新技术和新理念正加速各行各业向“数智”的变革升级,知识管理替代信息管理、知识服务替代信息服务已成大势所趋。《“十四五”全国档案事业发展规划》便提出:积极探索知识管理、人工智能、数字人文等技术在档案信息深层加工和利用中的应用。本体是知识管理的基石,也是解决个性化、智能化、精准化知识服务的最佳方案之一,本文创新性地提出了构建基于本体的红色档案知识服务模型,并以“抗美援朝战争”红色档案为例进行了相关开发利用的探索。后续研究可进一步关注以下几个方向:一是融入知识图谱构建链条,知识图谱强大的深度知识推理和逐步扩展认知的能力,已成为助推红色档案信息资源深度开发的关键技术,而本体作为知识图谱构建的重要环节,可进一步整合档案领域的知识本体,积极向知识图谱应用转化。二是支撑档案数字人文研究,红色档案应重视“非物质”特征的活态传承,但目前红色档案资源还处在整合、开发和利用程度较低的层次,本体理论可支撑数字人文视角下红色档案元数据、采集方法、数据治理、呈现方式等领域的研究。三是探索人工智能技术应用,本体是机器学习和人工智能技术的重要理论根基,未来可关注利用人工智能技术探索档案数据的自动分类组织、档案本体的智能构建、档案知识库与用户模型的自主更新等。

本文系国家社科基金军事学青年项目“联合作战中开源军事情报保障研究”(2019-SKJJ-C-064);国家社科基金青年项目“‘互联网+’背景下多媒体档案知识发现研究”(19CTQ033)阶段性成果之一

猜你喜欢

知识库本体图谱
Abstracts and Key Words
绘一张成长图谱
对姜夔自度曲音乐本体的现代解读
基于TRIZ与知识库的创新模型构建及在注塑机设计中的应用
补肾强身片UPLC指纹图谱
高速公路信息系统维护知识库的建立和应用
主动对接你思维的知识图谱
《我应该感到自豪才对》的本体性教学内容及启示
基于Drupal发布学者知识库关联数据的研究
Care about the virtue moral education