面向铁路值班值守的任务本体构建方法
2024-05-07简宇翔董兴芝宋清水吕占民
简宇翔,董兴芝,宋清水,吕占民
(1.中国国家铁路集团有限公司 办公厅,北京 100844;2.中国铁道科学研究院集团有限公司 电子计算技术研究所,北京 100081;3.中国铁路北京局集团有限公司 客运部,北京 100860)
值班值守是铁路机关部门工作的重要组成部分,是形成铁路内部运转高效、应急有备、应对有序的关键环节,主要包括政务值班、应急值守和信息报送等内容[1]。值班值守工作涉及数据来源多样,其范围覆盖铁路各专业及其他领域,尽管跨部门数据流通渠道已基本建立,但横向部门间数据共享仍缺乏统一的规范和融合机制,导致相关数据的隐藏价值难以被释放,碎片化的值班数据难以为决策所用。
知识图谱技术近年来被广泛应用于知识检索、知识管理及问答等领域,其结构化知识表示形式能够更好地描述业务领域中客观实体及关系,这一技术优势切合了铁路值班值守数字化和智能化的发展需要。本体作为一种知识形式化表示方法,用以约束知识图谱数据的组织方式,是知识图谱构建的重要基础。领域本体在众多领域研究和应用的底层逻辑方面发挥了重要作用,能够促进领域知识的管理及应用,高质量的领域本体有助于提高图谱构建质量,提升下游任务效果[2-3]。
如今,各行各业均有学者开展了相关本体构建研究,于坤[4]提出了面向城市公共交通服务的本体映射方法,实现了多来源城市公共交通服务数据的关联;黄伟春等人[5]基于军事领域常用术语对领域本体进行了顶层设计,对军事领域的实体属性、关系等要素进行了规定,并对军事术语的提取规则进行了总结归纳,保障了军事领域知识图谱构建的规范性和准确性;唐懿飞等人[6]以疫情事件为驱动场景,基于疫情事件本体进行城市疫情放开领域知识建模,并进行了模拟验证,证明了方法的有效性。在不同领域本体构建中,研究人员往往会根据应用场景的差异提出不同的构建标准。领域本体通常可以划分为通用性常识本体、专业领域本体、任务型本体等[7]。比较有代表性的本体构建方法包括七步法、骨架法、IDEF5、TOVE、ETHONTOLOGY、KACTUS法及SENSUS法等,不同领域的本体构建方法,其构建原则和设计标准也不相同,难以实现本体的共享、重用和互操作。
基于上述分析,本文研究面向铁路值班值守的任务本体构建方法,构建值班值守任务库,设计值班值守任务本体架构,研究值班值守任务本体应用方案,从而规范值班任务语义的一致性,实现任务内容的高效组织与重构,全面提升铁路值班值守及应急管理水平。
1 值班值守任务本体架构
1.1 值班值守任务库构建
铁路值班值守涉及多个专业领域数据,不同专业来源数据的领域本体间在概念定义、属性关系方面均存在差异,无法直接进行合并使用,影响了值班值守信息的共享和继承,间接影响事务处置的决策[3],因此,以值班值守任务为驱动的本体构建,首先要围绕值班内容构建其任务库。
铁路机关值班值守任务主要包括:落实上级机关各项值班工作要求;建立本单位所属单位、 部门的值班体系,建立健全各项值班工作制度;本单位突发事件信息和重要紧急事项报告工作,协助处置各类突发事件。其任务库是由函件办理、应急任务处置等过程中产生的信息记录、传达、分析、请示上报等一系列处置情景要素构成。分析值班值守任务形式,识别信息报送、会议通知、应急事件信息等多任务情景要素是构建值班值守任务库的首要工作。通过综合专家知识、基础数据库、历史案例等数据,构建值班值守任务库,可为构建值班值守任务本体架构提供基础支撑。
1.2 本体架构设计
对值班领域内值守任务进行结构化及定义明确的描述,在全面涵盖值班领域概念基础上,使得该领域内各方参与者对这些概念的描述能够达成共识。值班值守任务本体架构如图1所示。
图1 值班值守任务本体架构
基于铁路值班值守任务库,汇集铁路值班值守领域涉及的数据资源,进而确定值班值守任务本体涉及的领域范围、主要概念关系及主题词,同时,归纳值班值守任务场景。结合行业专家的经验,提炼出描述值班值守任务的本体分析表达,进一步确定本体构建的框架结构,同时,开展合理性和可行性分析评估,不断进行动态优化调整。基于确定的值班值守本体框架,划分任务情景域并确定本体层级关系及关系类型。最终,结合既有铁路行业本体,修正完善值班值守任务本体。
1.3 值班值守任务本体实现
面向值班值守的任务本体偏向于多种值班任务内容的统一描述,因此本文参照事件性任务本体构建过程,设计值班值守本体流程。
1.3.1 定义值班值守任务涉及的类和类的继承
确保类的继承(is-a、kind-of)正确,同时考虑继承结构中的并列关系等,提出一种面向铁路值班值守领域本体构建的方法,其逻辑表达可定义为六元组形式,表示为
式(1)中,A表示值班值守的处置动作;O表示涉及到该值班内容的对象,包括部门、人员角色等;T表示值班内容发生的时间段,包括值班开始时间及值班内容事件记录时间;C表示值班内容的类型,可表示为会议邀请、礼遇函、感谢信、应急事件等;P表示值班记录员的信息;H表示概念层级,用于说明概念集合的层级划分,H(A1,A2)表示A1是A2的子概念。
1.3.2 定义属性和关系
基于类的基础,进一步定义其概念和概念间的内部联系。概念之间的联系可分为内部属性(Datatype Property)和外部属性(Object Property)。基于值班值守任务本体架构,调研分析当前Protégé、WebOneto、KAON、WebODE等常用的本体自动化构建工具,其中,Protégé的图形化构建界面操作简便,且支持中文语言推理及软件扩展等功能[8]。因此,本文采用Protégé本体编辑工具对值班值守任务进行类及其关系定义[9]。 值班值守任务函件办理类下的SubClassOf从属类定义过程如图2所示。
图2 值班值守任务类的定义
1.3.3 创建类对应的实例
创建实例后要为实例的属性赋值。基于铁路值班值守业务内容,根据日常工作任务,划分不同的作业类别,进而定义类和子类、对象属性和数据属性的应用。基于值守内容不同的类、子类等从属关系,实现了基于语义的关联架构。
函件办理属于值班值守任务的一项子类,包括礼遇函、邀请函、感谢信等处理内容,各处理内容含有不同的处理属性,通过处理过程中的不同操作触发其属性,形成函件办理的类别、属性关联架构,如图3所示。
图3 函件办理类别关联架构
2 值班值守任务本体应用
2.1 本体应用架构
本体是构建知识图谱的基础,是衡量图谱构建质量和完整度的重要依据[10],值班值守任务本体概念模型形式化地表达了其领域内相关概念的关系和基本术语规则,本体应用架构如图4所示。
图4 本体应用架构
基于构建的值班值守任务本体架构,既可支撑领域知识图谱构建,对复杂知识建模过程形成一种规范约束,保障领域知识图谱构建质量;又可通过本体及本体间的关联关系进行规则推理,实现知识的智能计算,最终服务于知识应用。基于本体辅助构建搜索引擎,可畅通和拓宽值班信息获取渠道,建立信息收集网络,提升获取信息线索的能力;建立健全突发事件信息报送制度,在接到上级单位突发事件通知后,事发地单位和相关部门须按通知时限和内容要求及时准确地组织报送有关书面材料。在本体基础上实现值班知识图谱数据库,能协助做好报送上级单位突发事件信息的起草、 修改等工作,大幅提升铁路机关办公的工作效率。
2.2 辅助值班文件主题内容检索
值班值守任务本体定义了任务规则规范,利用本体对知识的规范化描述来更好地理解信息资源的语义,可极大提升检索的效率及准确率,并为不同软件、系统间的知识共享提供坚实基础。在构建本体之后,开展值班文件内容的辅助解析服务。基于词频-逆文档频率(TF-IDF,Term Frequency-Inverse Document Frequency)方法,可评估某一实体在值班文档中的重要程度[11],并进行文本数据的关键词提取,进而归纳总结值班文件的主体内容。本文采用TFIDF方法,评估该文件中重要的主题词,结合值班值守任务本体,通过规则推荐方式锁定相关联的处置手段和应急策略,以支撑突发事件信息的快速启动应急。TF-IDF方法如下。
(1)TF 表示给定词语在该文档中出现的频率,设给定词为ti,文件为dj,则单词ti的重要程度可以描述为
式(2)中,ni,j为ti在文件dj中出现的次数,分母是文件dj字词出现的总次数和。
(2)IDF 表示给定词出现的普遍重要程度,逆向文件频率值越大,说明辨识度越好,公式为
式(3)中,|D|为值班语料库中的文档总数,|j:ti∈dj|为包含词语的文档数目。公式的分母加1是为了避免词语出现在文档中的数目为0。
(3)TF-IDF是基于词频与逆向文件频率的组合,给定词的权重Wi,j公式为
利用TF-IDF词频分析对突发事件文本内容进行解析,通过对文本关键实体词重要性排序,与应急值守本体领域实体相比对,筛选出该领域本体的关键实体词,实现对突发事件信息中涉及的安全事故类本体所对应实体的词频分析,同时,结合本体上下级关联关系,辅助值班值守人员快速定位突发事件涉及的主管部门及相关负责人员,大幅提升值班值守人员对突发事件内容的判断分析质量和信息报送效率 。
2.3 支撑领域图谱构建
本体的构建是知识图谱模式设计的关键,而本体对齐是实现知识融合的关键步骤,主要指在不同本体中,对具有相关语义的概念建立联系的过程,实现不同本体间的知识共享。值班值守相关政策要求在值班过程中切实强化信息报告的主动性,基于领域本体设计值班知识图谱有利于畅通和拓宽信息获取渠道。知识图谱是富语义网络,能够加强单一值班任务对各方面情况的掌握。同时,基于知识图谱强大的语义关联关系,可强化值班舆情监测和分析,尽早察觉出预警性、苗头性信息,做到早监测、早发现、 早报告。基于值班值守任务本体,可进一步分析值班事件的脉络关系,如以值班任务中来电值班内容为例,内容为“2023年9月12日8时,总值班室刘XX接到国际铁路联盟UIC的来电,邀请国铁机关及下属企业负责人派员主持轨道交通装备展览会议”,对来电值班任务进行实体映射,实例层和本体层对应关系如图5所示。
图5 实例层和本体层映射关系
3 结束语
本文阐述了面向铁路值班值守的任务本体构建的原理和实现过程,确定了值班值守任务本体涉及的范畴及构建原则,设计了值班值守任务本体架构。利用本体构建工具 Protégé 实现了值班值守任务本体的形式化表示,并对值班值守任务的事务操作进行关联,有助于值班人员从内容层面对值班任务进行知识组织和管理。由于铁路值班值守不是针对某一专业进行,而是面向全国铁路各专业,其数据来源多、结构松散、关系复杂多样,值班值守任务本体的构建一定程度上促进了各领域的信息共享,进一步推动了值班和应急处置工作的科学化和规范化。值班值守任务本体的构建是一个长期的系统工程,仍需要不断探索和实践,当前研究的粒度还不够细,对语义本体的完善、知识库的建设是本文下一步的研究方向。