APP下载

面向高校课程的知识图谱联合嵌入模型研究*

2022-11-26阎鸣鹤

现代教育技术 2022年11期
关键词:三元组类别图谱

熊 余 张 宇 阎鸣鹤 蔡 婷

面向高校课程的知识图谱联合嵌入模型研究*

熊 余1张 宇2阎鸣鹤2蔡 婷1

(1.重庆邮电大学 教育信息化研发中心,重庆 400065;2.重庆邮电大学 通信与信息工程学院,重庆 400065)

知识图谱嵌入是构建高效精准知识图谱的基础,但目前大多数知识图谱嵌入方法只注重结构信息,而忽视或未能充分利用实体的背景信息,使得嵌入信息不够准确。为充分利用课程实体中丰富的信息以更好地将知识图谱技术应用于教育场景,文章设计了一种面向高校课程的知识图谱联合嵌入模型,包含结构信息嵌入、目录信息嵌入、语义约束计算、联合嵌入四个模块。之后,文章进行了链接预测实验和实体分类实验,来分别验证该模型的有效性和准确性,实验结果显示:该模型的性能良好;与现有模型相比,该模型嵌入的质量和分类的效果均得到较大提升。最后,文章展望该模型可为面向课程的智能问答、路径推荐、信息检索和数据的可视化交互等下游教育应用提供有力支撑,其研究将加快推动知识与数据驱动的智能化教育落地。

知识图谱;联合嵌入;高校课程;链接预测;实体分类

近年来,随着数据资源快速增长,计算机算力不断提高,深度学习技术也连续取得新突破,人工智能发展迎来了新的浪潮。知识图谱作为推动人工智能从计算智能、感知智能到认知智能发展的核心驱动力,可为教育信息化2.0时代的教学改革赋能,并为智能教育信息系统的研发特别是个性化知识导航提供有效的知识信息管理[1]。教育知识图谱以教育的相关学科知识为核心,可从知识组织、学习者认知、知识服务等不同视角进行构建[2]。其中,面向高校课程的教育知识图谱是从知识组织视角出发,通过图结构将培养方案中的课程组织起来,为下游任务做准备。但高校课程繁多,课程的目录信息、简介信息、类别信息等背景信息丰富,因而课程知识图谱规模较大,难以快速、准确地捕获课程之间的关系。而知识图谱嵌入是将实体和关系映射到连续低维向量空间的技术,有助于提高知识图谱构建的效率,并可为下游任务提供语义支持。为推动课程的学习路径导航、个性化课程资源推荐等应用[3],本研究尝试设计能够准确计算教育知识图谱中课程实体向量表示的知识图谱联合嵌入模型。该模型以课程为实体,通过定义课程实体之间的逻辑关系,形成三元组结构信息并嵌入,再充分融合课程的目录信息、简介信息和类别信息,以使学习到的嵌入信息更加精准,并使同类别下的课程在向量空间呈现出聚类效果。

一 知识图谱联合嵌入模型的相关研究

一般知识图谱嵌入模型仅仅将体现网络拓扑结构的三元组数据映射为向量,以此计算实体和实体之间的关系。根据实现原理的不同,一般知识图谱嵌入模型可以分为:①翻译模型,是将实体之间的关系表示为嵌入在向量空间中的翻译,即头实体与关系作用后靠近尾实体,代表模型为TransE[4]。TransE具有简单、高效的特点,但难以准确建模知识图谱中一对多、多对一、多对多的复杂关系。②语义匹配模型,是将实体建模为向量、关系建模为矩阵,在向量空间中匹配实体和关系的潜在语义来度量三元组的合理性,代表模型为RESCAL[5]。RESCAL含有矩阵乘法,虽比TransE的参数更多,但其对复杂关系的建模能力优于TransE。③复平面模型,是将每个嵌入表示为实部与虚部的组合,通过评分函数度量三元组的合理性,代表模型为RotatE[6]。④几何代数模型,是利用多级向量表示实体和关系,通过几何乘积度量三元组的合理性,代表模型为GeomE[7]。RotatE和GemoE均适用于具有对称/反对称、逆和组合关系的数据,但在含有少量对称关系或无对称关系的数据集上的泛化能力较差。⑤神经网络模型,是将头实体向量与关系向量拼接为二维向量,通过卷积神经网络和全连接网络捕捉头实体与关系之间的交互信息,代表模型为ConvE[8]。ConvE能更为有效、准确地捕捉头实体与关系之间的交互,但其参数较多,计算也更为复杂。

为提升嵌入的准确性,在一般知识图谱嵌入模型的基础上联合实体或关系的文本信息、类别信息等背景信息,便产生了知识图谱联合嵌入模型。例如,Xie等[9]提出集中描述知识表示学习(Description-embodied Knowledge Representation Learning,DKRL)联合嵌入模型,该模型在TransE的基础上将实体的文本描述信息联合嵌入到实体的向量表示中,较好地提升了嵌入的准确性;Xu等[10]提出适应性长短期记忆网络(Long Short-Term Memory,LSTM)编码器对文本信息编码,捕捉文本的语义与上下文信息,在TransE的基础上通过门控机制联合文本信息与结构信息;Yao等[11]首次提出教育知识图谱联合嵌入模型,通过基于变换器的双向编码器表征模型(Bidirectional Encoder Representation from Transformers,BERT)1BERT是将文字映射为向量表达的词嵌入模型,能结合上下文语境来提高嵌入准确度,具体请参考:https://github.com/google-research/bert。来编码文本信息,从而实现更准确的文本向量表示,并通过三个门控循环单元(Gate Recurrent Unit,GRU)联合头实体、关系、尾实体的结构信息和文本信息,实现联合嵌入。但多个GRU单元无法对一个实体进行统一的嵌入表示,即同一实体的头尾嵌入可能不同,进而影响连接预测任务的性能。

由上可知,一般知识图谱嵌入模型只考虑了结构信息,无法实现精准的实体向量表示。而现有的教育知识图谱联合嵌入模型未考虑课程实体特有的体现内容的目录信息、体现语义的简介信息及其本身所属的类别信息,故要实现对课程知识图谱更精准、高效的构建,有必要结合课程知识图谱中数据的结构复杂且带有明确类别特征等特点,设计新的知识图谱联合嵌入模型,以使背景信息实现更准确的嵌入表示,提升实体分类任务的性能。

二 面向高校课程的知识图谱联合嵌入模型设计

为充分融入实体的背景信息特征,提升嵌入的表达能力,本研究针对现有模型的不足,设计了面向高校课程的知识图谱联合嵌入模型(Knowledge Graph Joint Embedding model towards University Curriculum,KGJE-UC)。KGJE-UC模型由结构信息嵌入、目录信息嵌入、语义约束计算、联合嵌入四个模块组成,如图1所示。

1 符号定义

图1 面向高校课程的知识图谱联合嵌入模型设计

2 模块组成

(1)结构信息嵌入模块

结构信息嵌入模块用于对课程知识图谱中体现结构信息的三元组数据进行嵌入表示,是联合嵌入的基础。对于课程三元组结构信息,本研究使用语义匹配模型RESCAL对其进行向量化表示,结构信息嵌入的头实体、关系、尾实体向量对应的符号表示为hMt。结构信息嵌入的评分函数定义如公式(1)所示。

f(h, t)=hMt公式(1)

(2)目录信息嵌入模块

h=LSTM(d,h)公式(3)

(3)语义约束计算模块

语义约束计算模块主要计算相同类别下两两课程简介信息体现的语义差异,将其作为语义约束因子来约束实体在向量空间中的分布,可以提升实体分类任务的性能。对于课程简介信息,本研究使用Sentence-BERT模型对其进行向量化表示[12],课程头实体、尾实体简介向量对应的符号表示为ii,对其求相似度后取绝对值,得到课程简介信息的语义相似度sim,如公式(4)所示。

为了使课程实体嵌入更加符合课程实体的分类属性(即相同类别下课程实体向量相互靠近、达到聚类效果,同时又给予一定区分、使不同类别下课程实体向量互相疏远),本研究在考虑课程简介语义相似度的基础上,引入语义约束矩阵WR×来约束头实体和尾实体在向量空间中的分布。语义约束矩阵中的元素为w,表示头实体和尾实体的语义约束因子,其计算如公式(5)所示。其中,c表示课程实体的类别,w=0表示两门课程不属于同一类别,即对两门课程不做任何约束。

在最小化S的过程中,当语义约束因子趋于1时,实体在向量空间中的距离会更加靠近,而当语义约束因子趋于0时,其对实体在向量空间中的距离限制更小,从而使两两实体在互相靠近时不会过度接近。

(4)联合嵌入模块

联合嵌入模块主要是融合结构信息嵌入、目录信息嵌入和语义约束计算三个模块的内容,实现对课程知识图谱结构信息和背景信息的融合,从而达到联合嵌入的目的。为了保证实体嵌入的一致性,本研究使用一个GRU单元对结构信息和目录信息向量进行融合,并通过语义约束S限制实体在向量空间中的分布,将头尾实体分别存储为、,关系存储为M。以课程头实体为例,GRU单元内部隐藏状态的计算如公式(7)所示。

h=GRU(h h)公式(7)

同理,要约束实体在向量空间中的分布,提升实体分类任务的准确性,就需在结构信息和目录信息的基础上融入语义约束。联合嵌入的损失函数定义如公式(8)所示,其中n表示训练集中三元组的个数,L是联合结构信息和目录信息,S则实现对课程实体向量空间的约束,使得同类别下的课程实体在向量空间互相靠近但又有所区分,超参数λ在L和S之间进行权衡。

综上所述,本研究设计的KGJE-UC模型首先对三元组结构信息(h,M,t)进行向量化表示,并计算课程目录信息的向量(h,t);然后在对课程简介信息的向量(i,i)进行表示的基础上根据课程类别信息(c,c)引入语义约束矩阵W,进而提出语义约束S;最后使用GRU单元融合课程三元组的结构信息和目录信息,同时联合语义约束S训练模型,由此提升知识图谱嵌入的准确性和实体分类任务的性能。

三 面向高校课程的知识图谱联合嵌入模型的实验分析

为验证KGJE-UC模型的有效性和准确性,本研究开展了两个实验:一是链接预测实验,主要评价嵌入结果的有效性;二是实体分类实验,主要评价嵌入结果中语义约束的准确性。

1 数据集

本研究的实验数据来自西南地区C大学的本科生培养方案,相关数据经预处理后被存入本课题组前期建设的“课程基础数据库”[13]。从中,本研究选取计算机学院五个专业的121门课程作为研究对象。为使课程关系符合路径导航任务的逻辑,根据本科生培养方案中课程的学期信息、类别信息以及不同课程的联系,可将课程划分为思政理论课、大学外语、大学体育、学科基础课、专业基础课、专业课六类,同时将课程关系归纳为递进、互补、包含、平行四种。

本研究对课程知识图谱不同数据类型的数量进行了统计,结果如表1所示,可以看出:课程简介、课程目录的数量均小于或等于课程实体的数量,这是因为实际数据中存在两两课程简介相同或目录相同的情况,也存在少部分课程目录丢失的情况。为保证数据的一致性,实验在进行数据处理时要求每门课程只对应一个课程类别。

表1 课程知识图谱不同数据类型数量的统计信息

2 链接预测实验分析

链接预测是指对某个三元组给定头实体、关系预测尾实体,或给定尾实体、关系预测头实体,能直接反映模型对知识图谱嵌入的质量。为了比较不同模型的性能,本研究针对每个测试集中的三元组(),分别计算()和(),其中来源于实体集合E。

实验一以平均排名(Mean Rank,MR)、平均倒数排名(Mean Reciprocal Rank,MRR)和前k命中率(Hits@k)作为评价指标。一个测试集中的三元组()可能存在一个或多个()和()都为正三元组的情况,会严重影响评价结果,故本研究默认过滤掉()和()都为正三元组的情况,再统计所有指标数据。MR越靠前,MRR就越靠后、Hits@k就越高。

为验证KGJE-UC模型的有效性,本研究选取翻译模型TransE、语义匹配模型RESCAL、复平面模型RotatE、神经网络模型ConvE、教育知识图谱联合嵌入模型五个模型为基线模型。实验一对课程目录信息嵌入时,统一设置课程章节数目为J=7,每个章节下词的数量为K=5。不同模型的链接预测结果如表2所示,可以看出:KGJE-UC模型在各项指标上的性能均优于TransE和RESCAL模型,特别是在MR、Hits@10、Hits@3和Hits@1指标上的性能最优;RESCAL的各指标性能均优于TransE,这是由于数据集中存在大量的复杂关系,通过矩阵建模三元组中的关系,使得模型的泛化能力更强;RotatE在复平面通过旋转的方式建模课程头实体和课程尾实体之间的逻辑关系,其在各指标的性能均优于RESCAL;ConvE模拟头实体与关系的交互,具有最优的MRR指标性能;教育知识图谱联合嵌入模型通过GRU单元拟合文本和结构信息,在MR、Hits@10、Hits@3、Hits@1四个指标上的性能均优于除ConvE外的其他四个基线模型。

表2 不同模型的链接预测结果

3 实体分类实验分析

实体分类是一种以预测实体类型为目标的多标签分类。在数据集中,每一门课程实体都存在唯一对应的实体类别。实验二首先将实体的嵌入向量作为特征,输入由Scikit-learn实现的支持向量机分类器[19],然后将训练集和测试集的比例设置为5:5、6:4、7:3,最后使用5折交叉验证的平均值作为最终的分类结果。

不同模型的实体分类结果如表3所示,可以看出:随着训练集与测试集的比例上升,所有模型的准确率都有不同程度的提升。TransE、RESCAL、RotatE、ConvE四个基线模型仅仅考虑了结构化信息,而在实体分类实验中的性能不突出。另外,五个基线模型均未单独考虑实体的类别信息,但KGJE-UC通过语义约束将实体的类别属性嵌入到向量表示中,调整了实体在向量空间中的分布,这使得此模型在实体分类实验中的性能最优。

表3 不同模型的实体分类结果

四 面向高校课程的知识图谱联合嵌入模型的教育应用展望

上述实验表明,KGJE-UC能够提供更有效、更精准的嵌入向量和分类特征。基于此,结合知识图谱嵌入的降低数据稀疏性、提供语义支持、提高计算效率等优势,KGJE-UC可为面向课程的智能问答、路径推荐、信息检索和数据的可视化交互等下游教育应用提供有力的支撑。

①面向课程的智能问答:在虚拟学习空间中,智能问答能够辅助师生互动答疑,有利于推动教育元宇宙相关应用的落地。而KGJE-UC能提升智能问答系统回答的精准性和响应的迅捷度,并可通过嵌入课程领域的背景知识,进一步丰富教育元宇宙的知识库,推动人工智能技术与教育场景的融合,促进智慧教育应用的普及。

②面向课程的路径推荐:基于知识图谱技术的课程学习路径推荐使得推荐结果具有可解释性,而KGJE-UC的应用将使这种推荐更加精准、高效。通过KGJE-UC推荐的课程学习路径,学习者可获得有针对性的指导和适合自己的学习资源,从而便于学习者开展自主学习。

③面向课程的信息检索:信息检索服务可以方便师生从海量的课程资源中检索到自己所需的各种信息,而KGJE-UC可为师生提供高效的知识查询工具。利用KGJE-UC,师生可以更快更准确地检索出课程的简介、目录、类别等信息,从而提高工作与学习的效率。

④课程数据的可视化交互:KGJE-UC的语义约束计算功能可为课程嵌入标注类别特征,实现同类课程、相似课程的聚类,这有助于进行课程的可视化展示交互,使教学管理者可以直观地掌握培养方案的课程建设情况,教师可以更好地规划备课、授课的内容,而学习者可以更好地决策选课、修课的路径。

[1]李振,周东岱,王勇.“人工智能+”视域下的教育知识图谱:内涵、技术框架与应用研究[J].远程教育杂志,2019,(4):42-53.

[2]李振,周东岱.教育知识图谱的概念模型与构建方法研究[J].电化教育研究,2019,(8):78-86、113.

[3]高嘉骐,刘千慧,黄文彬.基于知识图谱的学习路径自动生成研究[J].现代教育技术,2021,(7):88-96.

[4][14]Bordes A, Usunier N, Garcia-Duran A, et al. Translating embeddings for modeling multi-relational data[A]. Proceddings of 26th International Conference on Neural Information Processing System-Volume 2[C]. Neveda: ACM Press, 2013:2787-2795.

[5][15]Nickel M, Tresp V, Kriegel H P. A three-way model for collective learning on multi-relational data[A]. The International Conference on Machine Learning[C]. Bellevue, Washington: ICML Press, 2011:809-816.

[6][16]Sun Z, Deng Z, Nie J, et al. RotatE: Knowledge graph embedding by relational rotation in complex space[A]. International Conference on Learning Representations[C]. New Orleans: ICLR Press, 2019:1-18.

[7]Xu C, Nayyeri M, Chen Y Y, et al. Knowledge graph embeddings in geometric algebras[A]. Proceedings of the 28th International Conference on Computational Linguistics[C]. Barcelona: ACL Press, 2020:530-544.

[8][17]Dettmers T, Minervini P, Stenetorp P, et al. Convolutional 2D knowledge graph embeddings[A]. Proceedings of the 32nd AAAI Conference on Artificial Intelligence[C]. New Orleans, USA: AAAI Press, 2018:1811-1818.

[9]Xie R, Liu Z, Jia J, et al. Representation learning of knowledge graphs with entity descriptions[A]. Proceedings of the Thirtieth AAAI Conference on Artificial Intelligence[C]. Phoenix: AAAI Press, 2016:2659-2665.

[10]Xu J, Qiu X, Chen K, et al. Knowledge graph representation with jointly structural and textual encoding[A]. Proceedings of the 26th International Joint Conference on Artificial Intelligence[C]. Melbourne: AAAI Press, 2017:1318-1324.

[11][18]Yao S, Wang R, Sun S, et al. Joint embedding learning of educational knowledge graphs[A]. Artificial Intelligence Supported Educational Technologies[C]. Cham: Springer, 2020:209-224.

[12]Reimers N, Gurevych I. Sentence-BERT: Sentence embeddings using siamese BERT-Networks[A]. Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing[C]. Hong Kong: ACL Press, 2019:3982-3992.

[13]熊余,储雯,蔡婷,等.高校教育大数据应用支撑体系的设计与实践[J].现代教育技术,2020,(11):91-97.

[19]Bisong E. Introduction to scikit-learn[A]. Building Machine Learning and Deep Learning Models on Google Cloud Platform[C]. Berkeley: Apress, 2019:215-229.

Research on the Joint Embedding Model of Knowledge Graphs Oriented to University Curriculums

XIONG Yu1ZHANG Yu2YAN Ming-he2CAI Ting1

The embedment of knowledge graphs is the foundation for the construction of efficient and accurate knowledge graphs.However, most knowledge graph embedding methods only focus on structural information, but neglect or fail to make full use of entity background information, resulting in the inaccuracy of embedding information. In order to make full use of the abundant information in the curriculum entity and better apply the knowledge graph technology to the educational scene, the joint embedding model of knowledge graphs oriented to university curriculums was designed in this paper, which included four modules of structure information embedding, directory information embedding, semantic constraint calculation, and joint embedding. Then,the link prediction experiment and the entity classification experiment were conducted to verify the validity and accuracy of the model. Experimental results showed that the model had good performance, and the embedding quality and the classification effect of this model were greatly improved, as compared with the existing models. Finally, the strong support of the model for downstream education applications such as intelligent question answering, path recommendation, information retrieval and visual interaction of data oriented to curriculums was expected, and the research of this paper could accelerate the implementation of knowledge and data-driven intelligent education.

knowledge graph; joint embedding; university curriculums; link prediction; entity classification

G40-057

A

1009—8097(2022)11—0110—08

10.3969/j.issn.1009-8097.2022.11.013

本文受全国教育科学规划国家一般项目“人工智能与教育深度融合的政策体系研究”(项目编号:BGA210055)、重庆市技术创新与应用发展专项重点项目“智能化教育评价关键技术研发与应用”(项目编号:cstc2021jscx-gksbX0059)资助。

熊余,研究员,博士,研究方向为人工智能与智慧教育,邮箱为xiongyu@cqupt.edu.cn。

2022年3月29日

编辑:小米

猜你喜欢

三元组类别图谱
基于图对比注意力网络的知识图谱补全
时序知识图谱的增量构建
论陶瓷刻划花艺术类别与特征
绘一张成长图谱
一起去图书馆吧
关于余挠三元组的periodic-模
一个时态RDF存储系统的设计与实现
图表
基于Spark的分布式并行推理算法①
主动对接你思维的知识图谱