APP下载

基于本体的数字档案知识服务系统架构研究

2021-02-24孙雨生

中国科技资源导刊 2021年1期
关键词:知识库本体语义

袁 芳 孙雨生

(1.中国科学技术信息研究所,北京 100038;2.湖北工业大学经济与管理学院,湖北武汉 430068)

0 引言

大数据、人工智能、社交媒体、数字人文等新理念和技术的兴起加速了知识驱动下各行各业智能化、智慧化变革[1]和知识社会[2]到来,知识管理、知识服务已大势所趋[1]。在这种形势下,档案领域积极探索灵活化、系统化、个性化[3]档案知识服务模式并取得了一定成效:在档案馆公共服务领域,国家档案馆的公共知识服务管理知识库实践探索了更加便捷、优质档案馆知识服务发展途径;在军工档案领域,中国舰船研究设计中心基于集中、集成、集智的总体发展思路,策划并构建了知识服务型科技档案管理系统,于2014年在全中心推广使用[4]。

而随着数字档案资源量的急剧增长,与用户有限认知及处理能力间矛盾日益加剧,如何借助基于新型IT技术的知识服务系统有效描述、处理、存储、分析和利用海量异构数字档案资源,实现电子文件与数字档案一体化管理[2],进而个性化、智能化提供数字档案知识服务成为亟待解决的问题。传统数字档案知识服务系统[5]虽然能够基于用户信息、行为等部分预测其兴趣及需求并利用单一服务机制[6]提供数字档案及其隐含知识检索、知识浏览、知识推荐、知识问答等服务,但是由于缺乏语义技术支持,存在着档案知识利用率低、服务针对性弱、异构档案资源难以机读化[6]存储和共享等缺陷[5],反馈评价机制的缺失[2]也严重影响了数字档案知识服务质量及用户体验[6],降低了决策效率[2]。在这种形势下,基于本体的数字档案知识服务系统应运而生。其依托本体技术语义关联数字档案知识单元构建并可视化档案知识网络,降低用户认知负荷,再依托本体推理机制深挖用户潜在兴趣,以精确获取、形式化描述、动态进化[6]用户个性档案需求,利用本体特性描述、组织数字档案知识进而构建知识服务系统及交互式服务模式、策略[7],以智能匹配、整合知识服务机制。其基于本体描述数字档案资源以有效解决档案资源语义歧义、异构问题并充分发挥其价值,基于数字档案本体知识库及数据挖掘、机器学习等技术推理隐性知识实现数字档案知识增值并推动用户知识创新[8],最终提升数字档案知识服务易用性、针对性、共享性、集成性、智能性[5],并服务于创新活动。因此,研究基于本体的数字档案知识服务系统具有现实意义。

本文将从体系结构、功能模块、运行机理3个方面设计基于本体的数字档案知识服务系统架构,以供相关的研究者与系统实践者参考。

1 数字档案知识服务系统与本体技术

1.1 数字档案知识服务系统

目前,数字档案知识服务系统定义、内涵尚未达成共识。分析现有数字档案知识服务、知识服务系统文献,笔者认为,数字档案知识服务系统是基于数字化知识管理和档案后保管范式[1]、人本管理[8]等理论和档案的知识、服务价值取向[3],面向数字档案领域,以档案知识资源为对象,以档案机构、电子文件为中心,以档案业务部门工作及用户获取特定问题解决方法[9]需求为导向,以知识服务流程为核心,以实现文档一体化管理[2]、挖掘和发挥档案部门及档案资源智力支撑作用为目标,遵循面向用户、辅助决策、注重全时空[2]服务[1]、严格执行标准规范、保障档案资源安全、动态扩展知识服务[2]的原则,基于数字档案知识库、数字档案门户[8]、数字档案管理规范及标准(包括技术领域各项参数指标、信息处理环节制度标准及相应评估体系[3])、数字档案硬件设备及装备(涉及常规设备、档案处理设备、网络设备[3]),充分利用新型IT技术(用户画像、本体、语义网、关联数据[2]、知识推荐、知识挖掘、知识地图[8]、信息安全[9]等)以及档案著录标引、档案数据库、档案数字化、档案发布、档案信息安全[3]等专业技术整合数字档案显性知识并分析挖掘数字档案知识资源隐性知识[9],形成新的知识创造,并通过智能化方法、新型运作模式[3]和服务理念、服务方式(知识检索、知识咨询、知识推荐等[10])、服务机制、服务思维[1]以及档案工作者智慧分析、诊断、解决特定问题并重构服务流程[3],进而提供深层次、高质量数字档案知识或知识产品、知识结构[9]、新型档案利用形式[3],并能够深度挖掘档案价值、按用户反馈及相关评估动态调整[3]的集成性知识服务系统。

就内涵而言,数字档案知识服务系统基于档案知识采集、组织、分析、重组、可视化等过程和数字档案规范,根据用户问题和环境将档案知识融入用户解决问题的全过程[7],实现档案增值并降低用户认知负荷。数字档案知识服务系统主要由信息采集、知识抽取、知识组织、知识存储、知识推理、知识服务等功能模块组成,基于本体、知识地图、知识推荐、知识引擎、知识可视化等技术构建数字档案知识网络以集成数字档案领域内概念、主题、机构、事件、地点、人员、实物、关系等知识对象,并结合知识服务策略与机制为用户提供知识服务,以构建连接知识提供者与用户的知识供应链,促进数字档案知识生产、存储、加工、传播、交流、学习、应用、共享、评估及创新,进而使数字档案知识效用最大化。

1.2 本体技术

作为知识表示和分析手段[7]、语义网基础[11]的本体技术最早是哲学术语,是关于事物存在及其本质和规律的理论。计算机科学、人工智能领域本体是领域概念的结构化规范和形式,定义领域内概念间关系,可以在人及信息系统间形成对领域概念的共享和共同理解,实现知识共享和重用[7]。本体通用概念是Gruber于1993年提出,并经Borst完善、Studer系统化的“共享概念模型的明确的形式化规范说明”。其中,概念模型是指抽象客观世界现象相关概念所得模型;明确是指所用概念及其使用约束都有清楚的定义;形式化是指计算机可处理;共享是指体现共同认可知识,揭示相关领域中公认概念集[12]。本体常常被作为通用知识库支持信息资源及服务的语义化表示及智能整合、知识推理以提升知识服务质量及用户体验。

1.3 基于本体的数字档案知识服务

基于本体的数字档案知识服务是网络环境下面向用户特定实践应用及问题[7]、旨在形成解决方案、动态增值的智能化、一体化(涉及知识采集、表示、析取/分析、组织/重组、创新、存储、集成到应用等过程[7]并服务于用户解决问题全程以实现知识个人化,支持知识协作、知识创新)交互式服务。其通过在档案知识体系中引入本体形式化描述、关联数字档案单元间知识关联关系,界定档案主题框架及主题间等级、上下位和语义等关系,以满足用户多元化需求,其将用户、数字档案资源统一在虚拟语义环境中以便计算机处理[10];通过推理机制调用知识库中规则及约束以支持智能决策[12];通过知识可视化、知识映射等技术挖掘、分析、构建、绘制和显式图形化表达数字档案知识内在结构关系,进而创造知识共享环境以实现数字档案知识交流和深化。

具体而言,基于档案本体知识库、本体知识表示机制、本体映射机制构建用户本体,结合用户基本信息及行为、偏好信息构建并动态进化语义用户兴趣模型,以形式化精准表示用户需求,并基于本体语义表示、逻辑推理特性智能拓展用户潜在知识需求;基于本体语义描述数字档案知识服务机制,根据语义用户兴趣模型智能匹配、动态集成所需数字档案知识服务机制,以合适的渠道、方式[12]为用户提供最优数字档案知识解决方案[9]及相应知识资源并融入其解决问题全程;用本体形式化描述档案领域知识体系、结构化采集档案领域知识资源,基于语义标注关联本体与档案领域知识资源以高效采集、精准表示、智能发现、动态集成数字档案知识资源,最终高效协同用户、服务机制、数字档案资源、IT技术及信息装备、专家资源[9]实现数字档案用户体验、服务质量及性能、知识资源配置及管理最优化[6],智能辅助用户决策以提升用户解决问题能力、数字档案价值,实现系统集成、业务集成、功能集成[8]、服务集成和团队协同[9],同时提高用户学习和工作效率(语义化分布式原始资料形成系统知识结构,将领域本体深化成知识产品直接提供用户所需知识和资源)[13]。

2 基于本体的数字档案知识服务系统架构的总体设计

构建基于本体的数字档案知识服务系统就是用本体、语义检索[13]、知识导航、知识推荐等技术和方法构建数字档案知识库、数字档案本体库,用本体重组、整合数字档案所含知识单元,以机读模式组织、存储、检索数字档案信息,通过资源语义关联及知识导航能够更加精细化、规范化、自动化地揭示数字档案资源,并根据用户习惯采集用户行为和知识偏好,推断用户需求,构建用户服务匹配和知识发现机制,结合本体映射技术分析相关知识[7],实现数字档案知识跨资源类型、跨库检索及推荐,提供个性化、全方位知识服务,追踪用户需求变化进行服务优化[11]。基于本体的数字档案知识服务系统总体架构如图1所示。

2.1 体系结构

基于本体的数字档案知识服务系统体系结构分为表示层、应用层、业务层、数据层,且各层次业务联系紧密、构建逻辑相对独立[2,5],基于功能模块调用进行层间交互,基于本体操作接口(支持数字档案专家构建、维护本体)、用户操作接口(向用户反馈数字档案知识服务系统所推荐知识并接受反馈)传递数字档案知识及资源[5]。具体如图2所示。

2.1.1 表示层

表示层又称用户界面层,通常体现为档案知识门户(为用户获取和输出信息接口,集成多种接入方式以便用户与系统交互[10])、知识社区(支持问题中心、专家问答、知识论坛等)、专家黄页(以列表形式揭示专家知识、技能和专长[8])、个人知识中心、平台管理(监控知识服务系统以操作知识库及数据库[11])等,充当数字档案知识服务系统界面呈现载体及用户界面逻辑角色,通过在Web页面中编写用户界面控制逻辑代码(用于读取、设置服务器控件及知识服务事件处理等)并结合业务层知识服务机制实现服务器控件与数字档案知识绑定,支持用户访问(包括注册登录、知识浏览、知识检索、反馈评价等)[5]及其知识需求学习(基于知识使用情况、业务等动态进化用户兴趣模型、用户本体)、知识服务展示[5]。

图1 基于本体的数字档案知识服务系统总体架构

图2 基于本体的数字档案知识服务系统体系结构

2.1.2 应用层

应用又称知识服务层[13]、功能层,提供基于本体的数字档案知识服务引擎[12],基于大数据处理分析、人工智能(AI)、知识可视化、知识图谱等技术,通过用户需求分析和本体推理实现应用管理模块中系统功能,主要包括知识服务应用[2],如专题知识库、知识导航[11]、知识检索[13]、知识发现、知识推荐、知识地图、知识问答、参考咨询服务、智库情报服务[2]、(统计)数据产品[13]等,并应用解析接口预分类、细化和分析用户请求[2],调用知识服务程序与业务层交互,将知识服务结果反馈给表示层,再由其通过人机界面显示给用户。

2.1.3 业务层

业务层又称业务逻辑层,通常接收应用层转交的用户请求,基于元数据收割、信息抽取、Mashup等技术[2],与数据层交互处理数字档案业务并反馈结果给应用层[5],实现数字档案知识服务系统所需通用业务过程,如知识检索、知识过滤(按用户检索请求进行语义匹配、需求分析、语义推理后筛选档案)、知识推荐(基于推荐策略、用户需求本体和用户资料库,用推荐算法、情景推理[11]筛选档案资源及知识)、知识集成(采集数字档案资源,基于本体规则层次化、有序化数字档案知识元素以构建知识网络、揭示档案知识脉络[13])、知识抽取、知识标注(分析数据内容、关联特点,基于领域本体、本体推理对数字档案知识库中信息进行标注[11])、语义索引[13]、知识发现、知识组织(依托多维知识体系[8],关联形成相关主题的关联数据、推理规则、专家智慧等知识[2])、知识推理(涉及推理规则、推理约束[11])等,业务层专注数字档案知识服务业务逻辑算法实现,包括对数字档案业务实体建模的对象模型及表达用户知识服务策略和需求的业务规则,处理流程涉及用户兴趣建模、知识需求建模、知识检索、知识推荐[5]等。

2.1.4 数据层

数据层又称数据存储层、知识资源层,与数据库相连并响应业务请求[10],通常基于数据清洗、数据转换、信息抽取、元数据收割、自然语言处理、信息聚类、图像识别、分布式存储、云计算等技术[2],利用数字档案标准规范和信息装备为数字档案提供元数据收割、编目及维护、密级管理、权限设定、XML封装等,形成数字档案知识元、构建领域知识架构[13],实现数据持久化功能。通常按照业务层请求通过统一数据访问引擎[2]存取档案数据,包括事务处理、并发控制等,主要涉及数字档案知识库(用本体库的元知识标注从数字档案数据库、作者及其机构主页采集[11]的数字档案及相关信息,并以XML文档[12]存为数字档案资料库[11]),为领域本体库构建(提取易理解、共识性档案知识元素并以机读模式组织、存储、查询数据得到概念特征集并与领域本体映射以关联数字档案知识与领域知识[11])及知识检索、知识推荐等服务提供数据保障。存储对数字档案资源进行知识采集所得的数字档案相关信息(用本体形式化经语义标注、扩展、合成的结果并通过语义推理挖掘隐含语义[11]),以便高效检索[11]用户需求[11]本体库(存储用户基本信息、需求、兴趣偏好、操作行为[2]如日志流[11]、设备使用信息等,经概念特征提取[11]、本体映射构建)、数字档案本体库(基于数据仓库、AI、RDF、本体建模、本体语言等技术[2,13]和数字档案标准规范、资源特性,经机读采集数字档案知识资源、处理数字档案、标注语义[5]、知识推理和演化[2]等构建,存储应用本体描述数字档案知识内容的概念及其关系集[12])、领域本体库(辅助表示领域性数字档案资源中语义关系且概念层次结构良好、支持逻辑推理以语义化数字档案、方便档案知识组织与检索)、推理规则库(存储数字档案知识推理规则和约束条件以支持语义推理[5]、本体智能拓展和管理[2])、关系数据库[5](存储数字档案资源、自建专题档案数据等[2])、专家库、电子文件中心、容灾备份中心[2]等。

2.2 功能模块

基于本体的数字档案知识服务系统就是基于数字档案知识语义表示、智能关联满足档案管理员应用和智能管理档案知识需求,满足系统管理员管理数字档案知识服务系统运行维护需求,满足普通用户智能获取数字档案知识及资源需求,最终知识化管理数字档案。主要包括应用管理、知识库管理、知识源管理、文档一体化管理、系统维护管理等模块。

2.2.1 应用管理模块

应用管理模块又称知识服务平台及接口[10],通常基于知识门户围绕服务目标与用户直接接触,支持知识服务应用可视化显示、评价、反馈[5]。其主要涉及基于Web发布常规信息、档案资源,专题知识库(围绕专题重组、整合各部门档案资源建设或完善的专题数据库以提升知识服务深度和用户体验),语义(知识)检索(基于本体实现概念匹配和知识推理),数据挖掘(包括提供数据统计、关联分析、报(图)表输出、工具共享等),知识地图(包括可视化知识跨域导航、知识图谱等),个人知识中心(包括吸引用户参与系统开发、参考咨询服务提供等,激励用户参与档案标注和更新,构建用户社区和个人主页以根据用户订阅收藏、历史浏览、社交好友等构建用户本体进而推荐知识),参考咨询服务(包括推荐服务无法满足用户需求时由专业人员借助平台提供咨询服务),智库情报服务(包括基于决策支持系统挖掘档案资源隐性知识,提供情报和辅助决策建议[2]),档案管理专家系统以及档案生产加工指导服务、用户兴趣建模、知识推荐[5]等。

2.2.2 知识库管理模块

知识库管理模块支持其他模块[10],其水准的高低决定了整个系统知识服务能力的大小[2],通常针对问题求解需求,提取数字档案蕴含知识并归纳成有用知识[2]、梳理数字档案知识单元关系[5],进而按专题或系列构建基于特定知识表示方式的关联知识集[8],涉及用户需求本体库、本体库、数据库[10],功能主要包括知识条目维护和管理、一致性检验、知识元关联和推理规则管理、知识分类编码等元数据管理、本体构建和管理等[2]。

2.2.3 知识源管理模块

知识源管理模块整合各档案部门资源,提供设计各系统档案资源集成接口、档案资源收集和注册、分类管理、密级管理(保障档案资源公开且安全,常用强化ID登录管理、版权隐私声明等防止信息泄露、版权窃取、恶意篡改等)、XML封装功能等[2],涉及数字档案解析(支持DOC、PDF、XML等格式档案)、数字档案语义索引(基于分词器预处理并用高频主题词集标引数字档案)、数字档案检索[13]、数字档案知识加工、数字档案知识审核、数字档案知识标注[5]。

2.2.4 文档一体化管理模块

文档一体化管理模块按前端控制思想设计在线归档档案部门尚未归档的文件、电子公文等,功能包括构建电子文件中心、设计与OA系统接口、自动采集数字档案及元数据、自动匹配纸质档案与数字档案、自动分配(合成)档案号、在线移交档案、接收和归档管理档案等[2]。

2.2.5 系统维护管理模块

系统维护管理模块完成档案机构管理、用户账户与用户组管理、档案密级及公开权限管理、门户后台管理、档案容灾备份[2]、报表模板管理、档案知识体系管理、档案知识采集模板管理、结构化档案模板管理、知识库管理[8]、日志管理、菜单管理、档案门类管理等[2]。

2.3 运行机理

基于本体的数字档案知识服务系统服务流程:首先,构建数字档案知识库。通过数字档案知识资源采集、数字档案处理(用自然语言处理工具[7]对数字档案进行过滤、分词、特征词及关系提取并映射为领域本体,进行概念推理获取相关知识[7])、语义标注、语义索引构建结构化、机读式[13]的数字档案知识库[5],进而基于面向知识服务的信息资源组织方法[13]结合数字档案本体[5]按知识结构和语义特征[13]集成[5]数字档案资源(分析数字档案知识结构及异构知识源[5],用本体描述数字档案知识并语义关联以集成数字档案知识并存入数字档案知识库[5],形成面向多类应用需求及层次、较丰富完善的数字档案知识产品[13])并关联本体层与数字档案知识。其次,构建语义用户兴趣模型。提取挖掘用户兴趣、行为特征存入用户本体库,基于本体[10]构建语义用户兴趣模型。然后,处理数字档案知识并展示结果,基于用户本体库[5]、本体解析工具、语义扩展算法[13]分析用户知识检索请求、历史需求[2]、用户兴趣模型,以精准获取、推理其知识需求,并据此检索知识库、调用本体获取相关知识、制定服务策略[2]、处理检索结果(匹配、分类[2]、排序),生成个性化检索、推荐列表[5],知识地图及相关知识语义链接、相关分析工具[2]展示给用户并动态跟踪其应用情况。最后,优化数字档案知识服务。动态收集反馈信息(如系统使用情况[2])并存储数字档案知识服务准确率不高、不完善的信息,进化数字档案领域本体和用户兴趣模型及知识需求模型[5]。

3 结语

综上所述,本文从体系结构、功能模块、运行机理3 个方面研究了基于本体的数字档案知识服务系统架构,旨在基于数字档案规范、数字档案知识库、数字档案本体库、语义技术、信息装备来深度揭示、有机链接异构数字档案信息资源,挖掘数字档案知识间逻辑关系及隐性知识以解决档案信息分散封闭问题,实现数字档案资源高度精细化、深度结构化和广泛语义化,支持更高效、智能数字档案知识服务。具体而言,体系结构分表示层、应用层、业务层、数据层;功能模块分应用管理、知识库管理、知识源管理、文档一体化管理、系统维护管理模块;运行机理是构建数字档案知识库以集成数字档案并关联本体与数字档案资源、构建语义用户兴趣模型、处理数字档案知识并展示结果、优化数字档案知识服务。今后,笔者将进一步系统分析基于本体的数字档案知识服务模式及实现路径,继续开展数字档案知识服务系统的研究,为相关研究与实践提供参考。

猜你喜欢

知识库本体语义
语言与语义
基于TRIZ与知识库的创新模型构建及在注塑机设计中的应用
基于本体的机械产品工艺知识表示
高速公路信息系统维护知识库的建立和应用
“上”与“下”语义的不对称性及其认知阐释
《我应该感到自豪才对》的本体性教学内容及启示
基于Drupal发布学者知识库关联数据的研究
认知范畴模糊与语义模糊
专题
Care about the virtue moral education