一种公安院校教培知识图谱本体构建研究
2023-11-15刘彦飞毛博文袁浩然刘德智
刘彦飞,毛博文,袁浩然,刘德智
(1.天津大学 智能与计算学部,天津 300072;2.重庆警察学院 信息安全系,重庆 401331;3.重庆城市科技学院 人工智能与大数据学院,重庆 402167;4.重庆理工大学 两江人工智能学院,重庆 401135)
0 引言
人工智能的发展阶段逐渐由计算智能经感知智能向认知智能发展。《中国学生发展核心素养》[1]中“让核心素养落地”是课程标准修订中的重要工作,新课标强调对课程内容的结构化方式组织,注重学科之间知识的结构,同时注意学生活动和方式的结构。
目前,关于知识图谱在教学应用中的研究,将传统的教学知识组织成三元组,可视化的知识图谱在教学过程中可以灵活展示整个领域知识体系结构,教师也可以根据学生数据的分析跟踪优化教学进程。戈其平等[2]提出基于数学教学的知识图谱构建,通过图谱可视化使得离散碎片化的数学知识相对完整和有联系;茶思月等[3]提出基于学科核心素养的多模态教学图谱,提高教学知识图谱的趣味性和实用性。
为此,从用户需求、教学资源和教学任务3个维度出发,研究构建基于公安教育的知识图谱本体库,并将其运用到实际课程教学中,其具备较好的便携性、高效性和高参与性,让学生能够随时随地构建当前应用场景的热点图谱,充分理解众包构建过程,教师能即时反馈图谱运用可行性,使得在公安专业性方面的教学方式更加直观化,教学目的性更加突出。
1 相关工作
1.1 教培需求调研
随着社会数据的不断增加和人工智能技术的迭代更新,数据的巨量化运用在社会关系应用领域非常广泛。在社会关系网络分析中可以研究社群结构动态,在公共安全应用之中,对于特定人群的社群网络挖掘也同样具备实践依据。
在公共安全体系,研究公安教育培训主题的文献较少,基于知识图谱的移动端公安院校教育软件并研究其实践意义能够在多实际场景中让公安教育培训直观化,为培养下一代警务系统思想提供思路。
1.2 教培知识图谱
知识图谱是显示知识发展进程与结构关系的一系列各种不同的图形,用可视化技术描述知识资源及其载体,挖掘、分析、构建、绘制和显示知识及它们之间的相互联系。
公共安全应用的前景包括社会关系网络分析,研究关系结构动态[4];社群发现研究社区特征属性和演化方向,社会网络分析挖掘研究演化关系结构[5];社会人群研究保障社会安全稳定性,以上只是在社会研究方向中利用知识图谱的应用。
用于教培的知识图谱可以基于多种实体关系类型构建不同结构的优化图谱解决方案。根据数据来源的不同,应用多个教学场景构建跨图谱多学科交叉融合的领域知识图谱[6],利用众包思想[7]高参与度宏观展示知识结构,快速设计优化实体关系组来表达复杂关系。
2 教培知识图谱本体库研究
2.1 教培知识图谱本体库价值与解决问题
分析公安教培知识的广度化和可挖掘深度化因素,提出对公安教培过程的跨领域、跨学科需求,改善因教培知识的专业性而造成的知识低密度性。
公安教育的数据来源复杂度高,异构化数据较常规可用数据拥有不可被机器识别的特点,无法与相关课程现有离散数据契合。现有的公安教育数据库在大数据建设下,人机交互方面仍有所欠缺。
依据公安院校的教育知识情况,对常规教育过程的数据来源分析,提取其因广度、深度问题导致的用户需求、教育资源和教学任务问题[8],引入知识图谱工程对复杂学科系统的来源拟真鲁棒性分析。
2.1.1公安教育数据来源
公安院校中,课程教育资源在教学环境下主要表现在3个来源:公安机关内部资源、教育部门、其他通过审核的机构和组织。
公安内部资源是公安机关利用自身资源,如公安部门内部培训机构、警校、警察学院等进行教育培训,提供公安教育的课程资源。
教育部门资源针对公安院校的特殊性,专门制定审核发放专门院校靶向性知识。
公安相关教育部门还可以和其他受信任机构组织合作,例如法律部门、社会基层团体和企事业单位面向专门领域的知识教材。
2.1.2公安教培知识图谱数据来源
根据公安教育数据的来源分析,初步离散教学数据处于较高熵态,利用DIKWP模型[9]对其整个知识体系的建模进行分析,Data都是整个系统中的熵增个体,Information属于熵增单元的状态叠加表示,Knowledge代表了熵增单元组的信息提供系统输出,Wisdom是针对以上数据的组合分析状态态势,Purpose满足知识体系的跨领域关联。主要操作就是利用模型构建知识图谱,达到整个系统熵降。所以结构化知识图谱数据来源于对于公安教育数据的实体关系重构。
公安教培进程中,图谱化知识体系结构通过层次递进的方式满足用户需求、教育资源和教育任务,并推动数据重建。在跨领域关联的场景下,该结构能够避免较大混沌系统的产生[10]。
2.2 公安教培知识图谱的本体库构建设计
2.2.1公安教培知识图谱本体库设计目的
重点分析现阶段公安教培知识库中存在的问题,集中表现在教培过程中对于教育知识体系的专业性和课程跨学科领域数据质量低。从广度来看是公安知识的广度缺失,从深度角度分析,因为离散实体点缺乏广度关联,导致图谱区块的分离[11]。
为应对公安教育数据来源复杂,且更好耦合人力情报,服务教育本体[12],运用知识图谱,解构、重构知识主体,构建基于公安角度的知识图谱本体库是对日益复杂的公安知识体系的研究实践设计。
2.2.2公安教培知识图谱本体库设计要求
本体工程的建立依据Cruber的实践分析,本体库的清晰性、一致性、最大单词可扩展性、本体约定最小性对公安知识体系的广度、精度等方面要求较高[13]。
公安教培过程中,数据来源呈现较高复杂性,在知识体系网络分析中,异构特性突出且可利用耦合度低,从实际出发,除了满足以上本体库建立的几大特性以外,还对目的功能提出具体化需求。一是具有基本管理本体的功能,满足本体库中各个因子的清晰一致性。二是提炼出的课程所关联的知识库无法很好地与人力知识库耦合,依据本体构建基础和结合教育认知心理学,从课程知识导向出发,强调了人机交互功能的重要要求。三是以公安知识广度、深度方面着重课程知识对教培过程的需求,提出标准化本体库设计功能需求。四是根据本体工程建设要求,扩展最大单词可扩展性到公安教培领域,本体构建库中应当具有经审核后的扩展性和维护性。
2.2.3公安教培知识图谱本体库设计方法
1) 德尔菲法运用
称为人脑云计算的德尔菲法(delphi methods,DM)根据匿名原则、循环往复原则、控制反馈原则、团体回答原则和专家共识原则设计选择因子问卷发送给领域专家,列出所需功能因子清单,不断地匿名隔离反馈和重复评审因子权重来对因子选择排序。DM流程如图1 所示。
图1 DM流程框图
根据当下文件资料和存在问题,知识图谱专家参与因子排序后进行排序考核,经过整理归纳等数据初步处理之后,再反馈给专家进行权重划分,重复集中反馈后获得稳定因子。
2) 层次分析法运用(AHP)
对于权重通级因子的划分,使用基于判断矩阵的AHP进行指标权重一致性检验,判断矩阵计算出相对权重,使用递归计算对级影响因子权重划分序列。
根据专家提交的文本中功能因子关键词,结合TF-IDF方法进行抽取,依据词频和逆向文件频率来计算。
3) DF-IDF法
词频(term frequency,TF)是指某单词在文件中出现的次数,如下式所示。
(1)
式中:ni,j代表单词i在文件j中出现的次数。
逆向文件频率(inverse document frequency,IDF)衡量词汇的一般意义,如式(2)中|D|是文件总数,|j:ti∈dj|代表包含词语的因子数。
(2)
最终得到功能因子i在专家提供的样例j中的权重,如下式所示。
TF-IDFi,j=TFi,j×IDFi
(3)
通过专家提供因子划分权重计算,得到本体特征因子。
2.2.4公安教培知识图谱本体库设计过程
1) 本体库构建数据来源
本体库构建数据来源于几个方面,分别是基于现阶段法律法规的提取、大数据构建所总结的决策知识库、公安内部相关背景决策和专业行动知识。
2) 本体库构建数据提取
关于本体库构建的方式以复用归纳为主要操作手段,迭代过程如图2所示,复用是针对数据来源中的类进行层次划分;归纳是使用DF-IDF算法进行类的相似度计算,最终得到种子因素,研究参考文献对种子因素的迭代发散和DM发散,完成本体因子库的扩充,形成最初版本本体库“汇合因子”。
图2 本体迭代过程
二次DM法对汇合因子进行筛选,其基础工作是排除语义易混淆的因子,之后制定相关规则来限制因子层级关系和数量[14],最终运用DM-AHP算法,根据属性三元组关联形成基于公安教培的本体库。
2.2.5公安教培知识图谱本体库设计
结合德尔菲法、层次分析法和认知能力学构建知识图谱教培体系,该体系基于相关政策文件和现阶段公安教培数据资料构建,选择因子权重计算获得体系结构,教学过程中结合认知心理学针对广度知识化的公安教培环境指定宏观策略。设计策略是:2个二级因子,前端功能选择和后端功能选择;12个三级因子,中前端10个功能设计和后台主要2个因子功能设计,后台分别是用户权限管理和知识图谱管理,10个功能按照认知心理学在实际课程不同层级的知识教培阶段情景划分权重排序;7个四级因子主要是对于后端功能应用的细分。德尔菲法功能设计指标因子如表1所示,层次分析法功能因子权重如表2所示。
表1 德尔菲法功能设计指标因子
表2 层次分析法功能因子权重(取整)
功能设计因子的设计和权重划分结合关联主义认知心理学学习策略,对领域知识图谱不断迭代优化,探索多学科融合优势[15],具象化知识图谱教培应用。
公安教培知识图谱软件构建方案的提出是尝试为公安院校培养复合型、创新型人才探寻路径,使此类专业人才具备创新的思维潜能,在走上工作岗位遇到具体案件时,能积极、主动地从新的角度发现问题,用新的方法分析问题,用综合的手段来解决问题。让学员明白在专业知识、职业素质和技能等方面达到预期目标的培养过程不可能一蹴而就,需要按照一定的次序,层次递进性地由浅入深、由低级到高级逐步完成。
3 公安教培本体库实践样例
公安院校教学内容的泛化性需要大规模关联集成,但现阶段的教学实践环境中,常规教学数据处理相对离散,因此开发基于知识图谱的移动端教培软件成为了必要的需求。该软件可以在常规课程时间内由学员在教师指导下进行学习,同时也支持课后知识众包活动,让学员参与数据整合和挑战赛等活动,以便更好地提升自身知识水平。
在常规教学活动中,学员可以根据教师上传的资料进行当前课程的学习,还可以通过爱学习功能强化自己的兴趣领域,并通过挑战赛等活动在划定领域中进行知识的碰撞和扩充,从而不断扩展自己的领域和知识。
当学员掌握了宏观基础理论和进行初步设计实践之后,在教师的授权下,学员可以拥有更多的权限实现知识众包技能。他们可以提出自己的算法和预处理方式,以控制庞大离散数据采集,降低时间和空间复杂度,确保数据的兼容性和结构化[16],并导入平台进行标注审核,最终实现数据向领域知识图谱的转变。
在该平台中,其他学员和普通用户可以依据图谱相关操作,如语义检索、语义浏览等,进行知识的全覆盖遍历,查询知识实体和实体之间的关系图谱,实时了解课程热点和实际运用领域的热点TOP10,回顾查看内容,实时跟踪学习进度和历史,满足后期对于功能兼容和扩充的全部频道。
在课程实践过程中,学员在教师指导下对离散数据进行处理,最终审核纳入采集数据库,通过对实体的增删改查和对关系的优化设置,把所得到的结构数据由相关责任分组的学员录入后台系统进行实体关系关联,拥有普通用户权限的用户和学员组可在前端界面使用语义浏览。使用遍历卷功能从宏观层面查询某一个关键信息的覆盖关系领域图谱,结果如图3所示,生成由不同色块对不同实体进行分类的领域关联图谱,可以帮助学员在宏观思想下弥补由传统教学所带来的数据广度密度缺失,为培养下一代警务系统思想提供思路。
图3 公安本体实体映射实践
3.1 基于公安教培本体库构建的实际前端应用
如图4所示,为了使用户在教培过程中直接了解软件功能实际运作和可视化交互,前端功能界面由Delphi法结合AHP分析法构建设计后由关系图谱、AB路径、遍历卷、TOP10、来劳动、晋级路、挑战赛、爱学习、我历史、全部频道等主要模块组成。
图4 前端因子实践逻辑视图
对于课程知识的定义在现有研究中并没有一个完整的定义。在《简明国际教育百科全书》中,“课程知识”的含义包括课程内容和课程编制知识,是对基本概念、相关原理、基本法则和知识之间的内在联系的总概述。
在公安教育体系中,课程知识不仅仅局限于当前课本的内容编制,因其知识广度多元化特点使得公安领域教育专业性过强,对于跨学科知识的组织较弱。依据教学实践过程中的认知心理学学习理论和参考课程不同定义,教培应用在关联主义中具有阶段层级结构。学员发挥主观能动性,在教师的指引下,建立自己的知识网络,通过与其他知识实体连接获取对应知识点。知识图谱教学逻辑中默认学员自我创建,从而用于研究开发知识图谱软件功能模块。
依据用户教学资源需求来进行软件前端功能划分。如果需要进行重点知识点的语义检索浏览,在“关系图谱”功能中实现以搜索知识点为中心的相关联图谱;2个对象的关系分析,运用“AB路径”功能查找检索实体间的关联;主题中从宏观角度了解领域关系图谱,能够以最大的视角来进行整个事件统筹化分析,“遍历卷”功能为其提供领域图谱支持;宏观到中观再到微观的操作逻辑给予遍历卷功能的放大缩小操作逻辑,让用户可以全方位、细致化地对领域知识结构浏览。
教培过程中,学习、复习、自我强化、实战环节作为课程知识体系中牢基应用需求,即时性的可交互“TOP10”功能让学生和老师能随时查看热点节点和按照所需定义热点;“来劳动”增加学生自我深化能力;“晋级路”囊括整个教学内容;实战题目可运用“挑战赛”,以及强化运用能力,课外拓展自身结构化知识能力的“爱学习”。基于知识图谱的移动端教培APP将合理教学可追踪的服务运用到实际课程中,众包逻辑让教培参与性提升,层次化递进学习法为培养人才提供实践途径。
3.2 基于公安教培本体库构建的实际后端应用
移动端公安院校教培知识图谱软件的后台功能设计分析基于认知科学,并结合教学环境中的两大角色——学生和教师,建立知识图谱模式。
在常规教培环境中,教师和学生通过用户角色管理互动。教师可以将学生分组[17],如图5所示,满足不同分组的不同责任划分,或作为发布众包任务的标注任务发布者来审核本体资源和数据资源[18]。对于当前教培任务的资源管理,可以通过精细化、标准化课程所需功能模块来管理。学生可以利用实体管理扮演多个角色,在常规教学任务中灵活应用图谱管理功能,作为数据采集活动的角色分组,对离散数据采集、清洗和审核后录入平台统一管理。学生分组将其分类并设置知识节点之间的关系,通过知识众包等方式,构建场景领域知识图谱,从而为普通用户在前端界面提供语义检索、浏览和宏观查看领域知识图谱。
图5 本体实体映射实践逻辑视图
4 公安教培本体库评估
4.1 公安教培本体库评估目的
从课程需求角度出发,构建公安院校教育本体库可以满足学生学习和研究的需要。其中,“知识广度耦合较低”和“知识深度耦合较低”表明学生需要掌握的知识点较为分散,且知识之间的关联性不是很强,因此需要一个本体库来系统地整合和组织这些知识点。此外,本体库也可以用于教师开设课程,帮助教师更好地掌握课程的知识点和相关概念,提升教学效果。
从课程内容角度出发,公安院校教育本体库的构建包含各种数据和知识点,以满足用户需求。其中,“数据知识量庞大”是一个重要的关键词,表明本体库需要包含大量的数据和知识点。为了确保本体库的质量和有效性,需要对数据和知识点进行分类、筛选和组织。此外,对于不同学科领域的知识点,需要进行分类和整合,确保用户可以轻松找到所需的知识点。
从用户需求角度出发,公安院校教育本体库的构建可以满足不同用户的需求。例如,学生可以通过本体库找到自己需要的知识点和相关概念,提升自己的学习效果;教师可以利用本体库更好地组织课程内容,提高教学质量和效果;同时,其他研究者也可以利用本体库进行相关研究和分析。因此,从用户需求角度出发,本体库的构建需要考虑不同用户的需求和使用场景,提供多种查询和搜索方式,以方便用户获取所需信息。
4.2 公安教培本体库评估方法
从本体库构建因子个体因素分析本体的准确完整性、可读可维护性和交互操作。本体所包含的实体关系是否准确无误,以及是否覆盖了相关的概念和实体;本体的格式规范、命名规则、注释等是否符合标准,以及是否容易理解和修改。
4.3 公安教培本体库评估实践结果
本体的质量直接对知识表征与推理结果产生影响,决定了本体在实际应用场景中的有效性。
使用本体质量评估框架(the ontology quality evaluation framework,OQuaRE)方法[19],结合公安教培知识图谱的本体实践情况做出评估。
定义:Ci代表本体中的第i个类,RCi代表类Ci具有的关系,PCi代表类Ci的属性,SupCi代表类Ci的直接父类,Thing是所有类的根源。
指标1:Weighted Method Count (WMCOnto)表示每个类的属性与关系的平均数量,其计算方法如下:
指标2:Number of Children (NOCOnto)表示直接子类的平均数量,其计算方法如下:
指标3:Response for a class (RFCOnto)表示可以直接从类中访问的属性数,其计算方法如下:
指标4:Lack of Cohesion in Methods (LCOMOnto)表示类的语义与概念相关性,可以用于度量本体元素的代表性与本体元素的独立性,其计算方法如下:
式中:∑path(|C(leafi)|)是叶类i到Thing的路径长度;m是本体中的路径的总数。
指标5:Coupling between Objects (CBOOnto)表示相关类的数量,其计算方法如下:
指标6:Modification stability(Mods)表示本体在稳定性方面的评估结果,其计算方法如下:
ModS=φ(WMCOnto,NOCOnto,
RFCOnto,LCOMOnto,CBOOnto)
式中:φ(x1,x2,…,xn)用于计算各项指标的算数平均值,并将得分转换到1~5。
从实践过程出发,由OQuaRE计算,如图6所示,所得公安院校教培知识图谱本体平均分高于3分,表明其符合本体工程构建基本要求。其中,图谱管理的本体质量优势较高,主要体现在处理知识元过程中该项占有主导地位,而前端功能因子优先级较低,从用户需求出发,主要是满足用户的语义浏览等过程。
图6 公安教培知识图谱本体评估得分直方图
5 总结与展望
为解决公安教培过程中知识广度缺失而无法充分覆盖领域学科的问题,构建多模态跨界图谱应用。应用德尔菲法和层次分析法对用户需求、教育资源、教学任务进行梳理,结合教育心理学研究构建公安教培本体库。运用本体实体构建实现多场景融合,实现了“开发功能”以学员课程与知识图谱结合为指导;“晋级路功能”在本体迭代性学习中具有较好的靶向性;“爱学习功能”在深化本体构建方法上融合教学,实现学员自我突破;“众包功能”实现人人参与共建的领域知识图谱库。
对于公安教培知识图谱本体的丰富是一项持续性工作,在下一步的研究中,可以充分利用以ChatGPT为代表的大模型工具助力本体设计,大模型在知识图谱本体构建中能够发挥重要作用,可以帮助学习本体结构,推断属性和关系,处理实体链接和消岐,并支持本体的扩展和修订。这些功能使得大模型成为构建高质量知识图谱本体的有力工具。