我国高校管理知识图谱构建与应用研究
2021-11-01张金福
张金福, 刘 雪
(上海应用技术大学经济与管理学院,上海 200235)
0 引 言
近年来,随着人工智能技术和计算机图形学的迅速发展,高校管理的信息化研究有了更多的技术支持与思路指引[1]。海量的高校管理数据是推进教育智能化的基础要素[2],高校管理过程具有时空跨度大、涉及范围广等特点,在招生、教学、教师管理等方面产生了大量结构化与非结构化数据,这些大规模数据进行合理化利用,可为高校的科学管理与决策提供强有力的支撑。但这些复杂多形态的大数据存在碎片化、多源异构且层次多维的特点[3],数据集聚程度低,难以实现丰富的语义表达,无法满足用户获取综合知识信息的需求,阻碍了高校管理创新发展的进程。因此,高校管理数据分析的关键是从这些海量的孤岛数据中抽取出可用度高的信息,构建一张相互关联的信息结构网,有效架起高校管理数据孤岛的关系桥梁,并通过对象之间的关系提供组织的整体视图,加强顶层设计系统化,促进高校管理的规范化和科学化。
作为语义网络的数据处理与关联分析的关键技术,知识图谱是一种对知识领域建模并使用图形结构数据模型或拓扑来集成数据的知识库,凭借其强大的语义处理能力,对海量信息进行知识抽取、融合和处理,形成结构化的语义知识网络,增强其搜索引擎结果的正确反馈率[4]。通常用于描述存储实体与实体之间相互关联,在实现知识问答、智能化语义搜索等领域起着的基础和桥梁作用,已成为大数据时代工程与科学研究领域的前沿热点方向。根据在知识表示、获取与应用方面的差异,可将知识图谱划分为通用知识图谱(General-purpose Knowledge Graph:简称GKG)和领域知识图谱(Domain-specific Knowledge Graph:简称DKG)两大类。GKG的一些知名应用案例主要有德国马普研究研制的YAGO[5]、采用结构化数据形式的Freebase[6]、2012 年发布的Google Knowledge Graph 以及国内百度知心、搜狗知立方和复旦大学知识工场实验研发的CN-DBpedia 等[7],而聚焦于特定领域的领域知识图谱也逐渐被重视,例如地理信息领域知识图谱Geonames、“天眼查”的企业领域知识图谱等[8]。
1 相关研究综述
目前,国内外已有研究将语义技术应用于科研系统、机构知识库等领域,实现知识的关联与挖掘。Pujara等[9]利用由MusicBrainz 音乐社区,以及NELL项目中包含超过100 万提取和70K 本体关系的真实提取集构成的合成链接数据语料库,使用概率软逻辑(PSL),展示了如何将实体及其关系的不确定性提取转化为知识图。Liu 等[10]基于社会分类的协同特性,获取企业知识资源的个体知识标注数据,并从标签中筛选出一些重要的主题,形成领域知识图。然后将不同领域的主题进行相似度关联,构建企业知识图谱。此外,很多学者对知识图谱技术在网络安全、网络舆情[11]、应急管理、地理信息领域和数字图书馆[12]等众多垂直领域的应用进行了深入探究。例如,贾焰等[13]基于知识图谱与网络安全的概念来构建网络安全知识库,并在此基础上,提出了一个基于网络安全知识库的五元组模型;杜志强等[14]针对自然灾害应急领域中存在的"数据-信息-知识"转化能力不足问题,围绕自然灾害事件、灾害应急任务、灾害数据、模型方法4 个要素,提出了自上而下和自下而上相结合的自然灾害应急知识图谱构建方法;张雪英等[15]结合地理知识的时空特征和知识图谱的表达形式,提出了一种顾及时空特征的地理知识图谱构建方法;陈晓慧等[16]首先在解析COVID-19 病例数据基础上,利用知识图谱技术提出了构建适应多样化描述方式的COVID-19 病例活动知识图谱,兼顾时空和语义特征研究传染病传播过程;雷洁等[17]通过总结分析当前科研档案管理的技术与模式,构建出科研档案管理知识图谱;甘容辉等[18]认为全球高等教育已经全面进入信息化时代,智慧校园建设要紧跟信息技术的最新发展动态,高校应积极探索应用新一代信息技术,把握技术变革趋势,聚力建设智慧校园,推动教育智慧化转型。但当前关于知识图谱在高校管理领域的应用研究仍然比较少,现有研究多是依托CNKI 期刊论文数据库,使用文献分析的方法,构建和分析我国职业教育研究群体[19]、高等教育研究学术群体[20]、教育技术学术群体可视化知识图谱[21]和教育技术学者合著网络知识图谱[22];从构建技术上来看,袁满等[23]人在对国内外教育领域内标准进行研究的基础上,以系统理论为依据提出并构建出一个教育资源知识图谱标准词汇参考模型。杨博等[24]研究表明,相较于基于词汇和规则的知识抽取,基于本体推理的抽取更有益于数据间隐含关系的挖掘和知识的融合。Kafkas S 等[25]基于本体论与统计方法相结合的方法,提出了一种利用文本语义间共现关系从文献中挖掘基因-表型关联的方法;陈晓燕等[26]以汽车领域评论语料为数据源,基于深度学习的领域本体构建方法,搭建起汽车领域本体架构。
基于领域知识图谱构建的理论基础及相关技术,本文旨在对我国高校管理数据知识图谱的构建进行研究与设计,以深入揭示高校管理知识之间的关联性、优化高校管理知识资源检索和深度推理进程,为我国高校管理的知识研究提供理论研究框架,同时也为高校管理领域的精准决策提供资源支撑。
2 知识图谱整体架构设计
高校管理知识图谱是以高校管理过程中产生的数据为基础,以图形化的直观方式构建网络知识表达模型,可为高校管理数据之间的关联分析与复杂语义关系推理提供技术支撑。知识图谱可将分散的、关联度低的数据整合到一起,形成庞大的知识网络,可以融合教师、校园地图、学生与课程数据等与高校管理教学密切相关的数据资源,深入挖掘高校管理过程中数据之间的关联关系和整体教学状况。
知识图谱的构建方式主要包括自上而下和自下而上2 种.前者主要是利用百度百科类网页数据,抽取本体与模式,加入知识库中,如利用维基百科为数据源的Freebase项目。而自底向上的知识图谱构建,需要运用一定的数据挖掘技术,从已有开放性的数据源中提取出初始领域概念,再通过关联规则构建本体,筛选后再加入,实现原有知识库的优化扩充[27]。如Google的Knowledge Vault和微软的Satori知识库,均是依托于开放性的海量网页数据,运用自动抽取资源的方式来构建、丰富和完善现有识库的。
基于高校管理资源的领域性和特殊性,主要依据自下向上的知识图谱构建技术构建了高校管理整体知识图谱的框架如图1 所示,框架图自下而上主要包括4 个层级,分别为基础数据层、图谱构建层、信息解析层和人机交互层。首先,从各高校网站抓取基础数据资源,运用知识抽取技术抽取从不同来源的数据资源中抽取数据集,形成高校管理的知识单元实体,将实体进行知识融合用于实体间的关联分析,通过挖掘知识间的隐含关系,从语义层面实现高校管理数据知识的组织表达,形成高校管理的知识网络。
图1 高校管理知识图谱整体框架
3 构建方法与解析
3.1 基础数据层——高校管理知识来源
基础数据层是构建知识图谱的核心工作,主要存储大量高校管理数据资源,如位置数据、教师数据、课程数据、学生数据与学校基本情况介绍等各类型数据集,更重要的是,基础数据层具备将不同结构属性的高校管理数据无缝衔接和一体化存储管理的能力。由于高校管理数据具有相互交叉、重合度高的特点,数据之间存在较强的依赖性,因此将基础资源层的数据库设计为空间图形数据库,兼具结构化、半结构化和非结构化数据的存储。基础资源层是高校管理产生数据的存储基础,为知识的提取提供了数据仓库集。
3.2 图谱构建层——高校管理知识获取
知识单元层具有承上启下的功能,高校管理数据知识获取主要通过知识抽取规则,从基础资源数据库中获取高校管理数据的属性知识关系,着重于实体属性之间的关联分析,为高校管理的知识图谱与本体构建提供数据资源。知识单元层的工作主要分为两部分,首先是构建高校管理的本体,然后在本体的基础上进行知识规则抽取。
(1)高校管理本体构建。基于高校管理的专业知识和数据资源,对高校管理的整体知识结构进行分析,确定高校管理的核心概念,从而形成概念体系。知识单元层采用自上而下的构建方式,定义了类、属性、实体,通过对高校管理的类、属性及其之间的关系进行分析,可构建高校管理本体类目层次图,如图2 所示。最终形成高校管理的知识逻辑体系,呈现出具有树形结构的高校管理知识组织体系,即高校管理本体框架,高校管理的本体是开放集成的体系,从语义表达的层面来实现高校管理知识之间的关联、共享与重复利用,在知识图谱构建过程中具有重要意义。
图2 高校教育本体类目层次图
(2)知识抽取。信息抽取是一种自动化地从半结构化和无结构数据中抽取实体、关系以及实体属性等结构化信息的技术,涉及的关键技术包括:实体抽取、关系抽取和属性抽取[28]。
高校管理的基础资源中包括结构化数据、半结构化数据、非结构化数据和空间位置数据。知识抽取建立在基础资源数据库的基础上,首先对知识单元中的实体、属性和关系进行数据抽取,以此建立高校管理数据之间的关联关系,基于高校管理的领域本体架构,采用机器学习中的多策略学习算法来自动获取数据知识,利用多策略学习算法可以全面获取知识并且可以剔除数据之间的冗余关系的特点,通过抽取显著性较强的知识特征,来概括表达整体与局部的关键信息。结构化数据具有简单易读的数据结构,抽取容易且准确率较高,可通过D2R 映射将数据直接映射到RDF中的类和属性,从而构建知识图谱中的知识单元。半结构化数据虽然是结构化数据的一种表现形式,但不符合结构化数据的数据模型结构,可通过Wrapper (数据包装器)来进行信息抽取,将数据还原为结构化数据,接下来对这两类数据的抽取结果作统一处理,将其都加入种子集中。由于非结构化数据是纯文本数据,可根据已有实体得出先验知识,再对未知文本进行自动标注,从无监督学习或半监督学习转换为有监督学习,采用远程监督和基于模式相结合的增量迭代抽取方式。远程监督工作的前提是假设两个不同实体间存在某种联系,因此任何含有这两个实体的不同的短语或者语句都可能表达同一关系,通过自动标注种子集中的文本数据生产高质量的工作模式,将这些模式学习的新知识加入种子集中。通过这一过程的不断迭代,直到学习不出新知识,结束此次任务执行。采用这种方式可完成高校管理知识单元的获取。
3.3 信息解析层——高校管理知识融合
(1)实体对齐。①通过知识抽取的关键技术,从不同来源的数据集中抽取出相对孤立的知识结构单元,得到很多分散、关联度低的抽取图谱。将这些孤立图谱进行集成整合和知识融合的集中处理,得到完整的高校管理知识图谱。考虑到抽取数据来源范围大,包括结构化和非结构化数据,多种类型数据之间融合分析也面临很大的挑战,如实体命名不一致、多个实体对应一个词语、实体属性值缺失、实体属性异常、实体与属性多对多映射等,②数据质量也参差不齐,需要进行数据清洗得到合理有效的数据集。实体对其在解决这些问题时有着突出的优势,实体对其可以识别过滤不同标签属性,找出其在现实世界中对应的唯一实体,并将实体集合融合为一个实体,并为其创建一个全局唯一标识属性值,将实体对象集成到知识图谱中。现阶段,基于聚类的实体对其算法应用比较广泛,可以将具有相似属性的实体划分到一类集合中,在此基础上进行实体对齐。
(2)实体关联构建。实体关联是知识图谱构建过程中的核心环节,是进行知识挖掘的重要基础。
抽取出的实体(E1,E2,…)都具有一定的属性值,如教师的属性包括职称、职务、年龄和学位等,以教师为例,实体属性结构图如图3 所示。
图3 高校某教师实体属性示意图
具有相同属性值的任何两个实体都可以通过其之间的状态或属性关系来建立联系,形成多个三元组数据集,将具有关联关系的多个实体进行集合聚类,可以构成具有多维度数据关系的可视化表达方式。图4 即为高校部分实体关联结构图。结合高校管理数据中的实体、属性与关系的多样性和异构性,为了建立更为完整知识图谱,对相对复杂的关联规则除了要依赖高校管理的本体模型外,还需使用人工标注与推理等方法来保证知识图谱模型的精度。
图4 高校部分实体关联结构图
构建了实体、属性和关系的关联之后,数据资源库成为一个包括基础数据、特色数据和高校管理数据等的一个富含语义关系的知识库,可以满足不同客户的需求并为其提供各类高校管理知识服务。
3.4 人机交互层——知识应用层
在信息解析层通过实体对其和实体关联等关键步骤,构建了高校管理本体模型与富含语义关系的网络知识库,知识图谱将高校管理中的实体及其属性之间的关联关系最大程度地展现出来,在此基础上可以做语义搜索、辅助决策等很多应用开发研究。
(1)高校管理知识检索。知识图谱的底层是一个庞大的关联知识库,可以完成对高校管理的基本搜索服务,能对高校管理类专业术语进行查询并对不同术语之间进行知识关联,用户可以通过知识图谱系统的搜索得到直观的可视化知识地图。例如在搜索框输入“高等代数”这一关键词,可以得到高等代数这门课程的相关知识,包括授课教师、学分、选修的学生和开设专业等相关实体以及实体之间的关系。这样更有利于用户更加直观、快速获取所需知识,降低获取不同类型数据的时间成本。
(2)高校管理知识发现。在知识发现这一应用场景下,以关键词为驱动,可以实现以知识图谱为基础的具有相同属性的知识单元的聚类关联。例如,输入教师A,知识图谱会反馈一个以教师A为中心的可视化图谱,呈放射状分布,该教师的属性展示为年龄、教授课程、职称、硕/博导、研究领域与获奖经历等,通过点击“研究领域”与“发表论文”等关键属性,可以发现教师A 擅长的研究方向、发表过的论文和指导过的学生,就能对该老师的科研水平有一个大致的判断,这能对学生的研究生报考与研究生导师的选择提供一个可参考的决策支持。
(3)高校管理建设指导。数字化表达是高校管理知识图谱的重要应用领域之一,可以对高校管理教学的建设与改革提供相关的辅助决策与指导,包括高校新兴学科筹建、教师岗位培训、学生培养计划制定与完善、校园智慧智能化管理等,知识图谱模型能将已有知识进行关联重建,形成新的知识表达[29]。构建知识图谱可以将校园信息、教师信息、专业信息与学生信息等不同类型数据进行关联分析和统一处理,基于海量的高校管理数据分析形成全新的高校管理知识表达方法,可以挖掘更多高校管理过程中的问题,形成更科学、规范的决策。
4 结论与讨论
大数据是推动高校管理全方位改革创新的重要力量,确立教育大数据的战略地位,把握技术变革趋势,聚力建设智慧校园,推动教育智慧化转型,是新时代高校管理的重要趋势[30]。本文旨在对高校管理知识图谱的构建进行设计与研究,基于高校管理数据知识分布分散、异构多样、结构复杂的特点[31],结合领域知识图谱构建的技术方法,解析数据层中丰富的实体概念及属性关系,实现知识的抽取与知识融合,初步构建了轻量级的高校管理知识图谱体系架构;从语义关联的角度实现高校知识资源的关联和挖掘,促进数据资源的交换共享、有效流通,为高校管理知识组织研究提供科学框架和奠定理论基础,拓展充分挖掘教育大数据潜在价值的思路,同时也期望为其他领域知识图谱的构建提供一定的参考价值和借鉴意义。
高校管理的知识信息在实际应用中存在动态性,知识结构随着科学研究的深入会不断更新和变化,产生的数据也会随之实时更新,所以定期筛查高校管理本体结构和知识库信息,实现知识图谱的迭代更新,对科学管理与决策有很大意义。关于高校管理知识图谱的构建还处于初步探索阶段,本文研究目标侧重于对整体架构进行设计,其中各个层级的研究还不够深入和完善,诸如只考虑了高校内部的各类知识关联而弱化了影响高校管理的复杂社会环境,语义关联的组织和挖掘还不够深入和详尽,期望后续有更多的学者关注和深入在这一领域的研究。