APP下载

基于图神经网络的学习推荐算法研究

2023-10-30王槐彬

现代计算机 2023年16期
关键词:图谱卷积神经网络

李 月,李 琳,陈 丽,王槐彬

(广东交通职业技术学院信息学院,广州 510650)

0 引言

随着大数据和人工智能技术的发展,科学技术应用于教育教学也变得越来越广泛。由于当前教育的入口呈现多样化趋势,学习者的差异性也越来越大。对于大学生学习者而言,就存在全国夏季统一高考、单独自主招生、中高职衔接、三二分段等多种多样的入口方式,这也导致同一届学生中的学情存在较大差异。不仅同一届学生的学情呈现多样性,同一门课程中的学生也会因为个人基础、兴趣爱好、接收方式的不同,导致同一批学生对同一门课程的学习产生不同的需求。

学生广泛存在的学情差异,也决定了教育教学资源不能是千人一面发布的静态内容。采用大数据及人工智能技术构建教育资源,可以充分利用技术手段提升学习者对于学习资源的利用效率,同时解决信息过载情况下的知识爆炸问题。同时,信息技术和新媒体的快速发展,也使得学生在信息选择、信息接纳、信息偏好上呈现出“千人千面”,学生所处的学习情境不同,也会对学习资源产生不同的需要。如,当学生处于线下教学时,他们对于学习资源的需求可能更多的是文字性资源,用以临时了解不清晰的知识点;而当学生处于线上教学时,他们可能更需要的是直观的视频和语音资源,同时需要更具真实感、体验感的交流互动方式。这些个性化学习需求也要求教学资源随之做出适应性变革。

如何解决大学生学习者的个性化学习需求,以及解决学习者在海量数据中快速获得有效资源的问题,已存在相关研究,其中推荐系统就是解决方式之一。推荐系统是海量数据时代兴起的一类系统,主要应用于各类电商网站、社交媒体、新闻资讯等系统中,用以解决海量信息中信息过载及长尾物品等问题。推荐系统通过对用户数据、物品数据、交互行为等多方面内容的计算和筛选,形成满足用户个性化需求的结果向用户进行推荐,以提升用户的使用感受、增加用户粘性、提升系统使用效率。

1 相关工作

推荐系统的发展经历了一个从传统的推荐算法到基于深度学习技术的算法的发展过程。传统的推荐算法主要有基于内容的推荐、协同过滤推荐和混合推荐三种模式。基于内容的推荐方法需要提取用户的偏好特征和物品的特征数据,推荐结果极大地依赖于特征信息的选择。协同过滤方法利用用户之间的相似性关系来发现不同用户间可能存在的潜在偏好相似性,但是模型好坏取决于用户评分数据的准确性和完整性,容易遭遇数据稀疏和冷启动问题。混合推荐方法通过融合不同的推荐模型进行推荐,包括特征层面的融合、算法层面的融合以及结果层面的融合多种形式[1]。

随着人工智能的发展,深度学习已经广泛应用于各个领域,并且取得了良好的应用成果。在图像识别、机器翻译、阅读理解、语音合成等方面,深度学习技术的引入都极大地提升了系统性能。基于深度学习的推荐系统一般通过输入层、模型层、输出层的三层架构实现从系统原始数据到输出结果的转换。通过多层感知机、卷积神经网络、自编码网络、循环神经网络等技术实现基于内容的推荐、协同过滤推荐和混合推荐等。总体而言,基于深度学习技术的推荐模型能够有效地融合多源异构数据,结果不依赖于人工选择特征,能实现从多源异构数据到预测的端对端训练,最大限度地发挥了用户的显性数据和隐性数据的价值,学习到数据的非线性的多层次抽象表达,从而有效提升推荐性能。

不管是传统的线性模型还是神经网络模型,所处理的数据主要都是针对欧式空间数据,然而在现实世界中,很多数据都是从非欧式空间数据产生的,例如分子结构的表达、社交网络关系、交通流量网络、人体骨骼结构等,都是具有明显图结构特征的数据类型。在推荐系统中,就存在用户和用户之间的社交关系网络、用户对物品的评价数据网络、物品间的层次网络数据等多种网络数据融合而成的复杂图状网络结构。对于图状结构的数据,因为数据之间不再存在固定不变的关系和位置,并且数据节点的结构不统一,因此目前常见的神经网络模型在处理这部分数据时并不适用。

但是由于图网络中的边信息、节点间的图结构信息等关联信息对于捕获节点之间的隐藏依赖关系、挖掘节点的特征值具有重大作用,因此通过对图结构数据直接进行计算能获得更为优质的推荐结果。

为解决学习中的学习推荐问题,同时结合图神经网络强大的数据建模和特征提取能力,我们提出了一种基于图神经网络的学习推荐模型。

图卷积神经网络是基于深度学习的卷积神经网络在图结构上的推广,它能同时对节点特征信息与结构信息进行端对端学习。图卷积神经网络适用性广,适用于任意拓扑结构的节点与图。在节点分类与边预测等任务上,在公开数据集上的效果要远远优于其他方法[2]。因此,将图卷积神经网络的模型应用于推荐系统,可以取得更好的推荐效果。

和传统的卷积神经网络相比,图卷积网络具有卷积网络的相同性质[3]:

(1)图卷积网络中局部参数共享,卷积算子是适用于每个节点的,算子在不同节点上处处共享。

(2)模型感受野正比于层数,最开始的时候,每个节点包含了直接邻居的信息,再计算第二层卷积时就能把二阶邻居的信息包含进来,这样参与运算的信息就更加充分。模型的感受野与卷积层数成正比,卷积层数越多,参与运算的信息就更多。

同时,图卷积网络同样具备深度学习的性质:

(1)图卷积网络具有层级结构,特征一层一层抽取,一层比一层更抽象,更高级。

反之,如Φ0(z)在D内全纯,且连续到边界L上,则也容易证明由式(4)所确定的分区全纯函数Φ0(z)必满足式(1),且连续到L上.这样,提出的RH问题就转化为求在D内全纯,且连续到边界L上的函数Φ0(z),使它满足由式(2)转化的相应条件.将式(4)代人式(2),可得下述条件:

(2)非线性变换,增加模型的表达能力。

(3)可实现端对端的训练,不需要定义任何规则,只需要给图的节点一个标记,让模型自己学习融合特征信息和结构信息。

图卷积网络同样具备深度学习的特性。比如,图卷积网络具有层级结构,特征一层一层抽取,一层比一层更抽象、更高级。

基于图神经网络的特征提取能力,提出的基于图神经网络的学习推荐系统模型如图1 所示。首先,采用图卷积方式对用户特征进行提取,然后再采用图神经网络对学习中的知识内容进行图卷积,获得面向知识内容的知识特征,最后根据获得的用户特征向量和知识特征向量进行学习预测,并以此向学习者进行学习推荐。

图1 系统模型

1.1 学习者建模

与其他系统中的数据不同,推荐系统中的一类重要数据是用户数据信息,而中华文化中对于用户有一句谚语是“物以类聚,人以群分”,也就是说由人构成的数据天然具有群体属性。因此,在推荐系统中,用户具有群体聚集的属性,就像现实世界中,熟悉的人总是更接近一样,他们之间的联系也会越紧密,这种紧密联系会形成图像上的聚集,导致群体的密度升高。同样的道理,学习者形成的社会网络中,也会存在这种群体相似性,也就是通过用户的好友可以刻画当前用户。比如一个热衷于点赞美食标签地点的用户,其好友也可能是喜欢打卡美食地点的人。将用户社交关系图中与当前用户节点有关联的好友用户进行图卷积聚合计算,就可以得到当前用户的隐层信息。虽然图卷积神经网络可以通过堆叠多层卷积层来获得更远用户的信息,但是依据社交理论,距离太远的用户其实与当前用户之间并不相似,因此模型中只需要聚合三跳以内的邻居信息即可。

用户具有非常多的属性特征,如原始属性包含性别、年龄、籍贯、学历等,隐含特征包含短期兴趣、长期兴趣、行为动作、活动轨迹,等等。要想获得学习者的用户特征向量表达,首先需要构建用户和用户之间的社交关系矩阵。并且基于图神经网络提取用户的隐层信息。一层图卷积可以获得当前中心节点一阶领居的节点信息,通过多层图卷积,就可以获得用户的二阶邻居和三阶邻居等信息。根据三度影响力理论,以及图卷积网络堆叠过多层会引起过平滑现象的特性,堆叠至三层即可。计算公式如下:

其中,Nu表示用户u在社交图层中的所有一阶邻居,是用户社交图层的原始输入,是用户社交图层中第l层卷积的权重参数,是用户u在用户社交图层中第l-1层卷积的邻居节点。

1.2 知识建模

随着人工智能技术的发展和应用,知识图谱现已被广泛应用于智能搜索、个性化推荐等领域。知识图谱通常以三元组的形式存储实体及其关系,其将现实世界中的知识建模成(kh,r,kt)三元组的形式,其中kh和kt分别表示头实体和尾实体,r表示实体之间的关系。三元组不仅可以帮助我们理解知识实体之间的关系,也可以存储知识实体的属性。知识图谱中项目之间丰富的语义关联有助于探索它们之间的潜在联系,提高推荐结果的准确性,同时知识图谱中的各种关系有助于合理地扩大用户的兴趣,增加推荐项目的多样性,将知识图谱引入到推荐系统不仅有利于信息的挖掘和推荐结果的发散,还可以增强推荐的可解释性[6]。

知识图谱表示学习不仅要考虑图的结构特征,还需要考虑结点和边的语义类型信息。虽然TransE 和DIstmult 等知识图谱模型在一定程度上也能捕捉图的结构信息,但是图神经网络对于图结构特征信号考虑更为充分,因此可以利用图神经网络帮助知识图谱表示学习算法更好地捕捉图谱中的结构信息。对于学习系统中的知识特征提取,可采用以下公式计算:

其中,Nk表示知识K在知识图谱中的所有一阶邻居,是知识层的原始输入,也就是各个知识的知识图谱表示,是第l层卷积的权重参数,是知识在知识图谱网络层中第l-1 层卷积的邻居节点。

将用户对于知识的评分进行降序排序,将前n个知识形成知识推荐列表推荐给用户即可。

模型在参数求解时的损失函数采用BPR 损失函数,其公式定义为

其中Ds定义为

其中,R+表示用户u对知识i的评价高于只是j的数据,R-表示用户对只是i的评价低于只是点j的数据。表示用户对知识感兴趣程度的预测得分,λΘ表示控制L2正则化强度以防止过度拟合的参数,Θ表示模型中所有可训练的参数。

2 实验与分析

为检验提出算法的有效性,选取了泛雅学习平台上广东交通职业技术学院《软件测试技术》课程中的学习数据作为实验数据。泛雅平台是超星公司“一平三端”智慧教学系统中的一环,“一平三端”是以在线教学平台为中心,涵盖课前、课中、课后的日常教学全过程,融合教室端、移动端、管理端各类教学应用于一体的信息化教学整体解决方案,即泛雅网络教学平台+手机端(学习通)+教室端(x.chaoxing.com投屏)+管理端(运行数据监控)。泛雅网络教学平台和学习通数据互通共享,已构成一个相对完善的学习网络,学习者之间的关联关系包含好友关注、点赞、讨论、聊天、学习者自行组建学习小组、学习者共读书籍、共同加入同一直播或在线公开课等多种社交行为[7]。以平台上广东交通职业技术建设的《软件测试技术》课程为例,可采集到学生数据867 人,该部分学生数据可通过平台提供的身份信息,以及结合广东交通职业技术教务部门的数据信息,获得较为完整的用户属性信息,包括学生年龄、性别、籍贯、所在院系、过往学习成绩等数据,该部分统计信息可以较好地刻画学生的固有属性特征。同时,平台通过数据采集,还可以获得867 人参与学习的行为数据和社交数据等。对于该门课程下的知识内容,可以提取知识点433个,依据三元组和知识本义构建基于知识图谱的知识表达,实验中用到的数据情况见表1。

表1 实验数据内容

实验通过观测加入学习推荐前后的数据对比验证学习推荐对于学习者学习质量提升的作用。实验中随机抽取学习者100名,再随机分为两组进行对照。其中A 组采用传统的资源学习方式,B组通过推荐算法对学习者提供知识推荐。考虑到学习后进行测验的数据并不能完全真实客观地反映学习者的学习效果,实验中还同步观测了学习者在是否产生学习推荐下的学习过程数据,包括学习总时长,同一知识点学习是否产生回看等。对于A/B 对照组学生,从433个知识中随机抽取10个知识进行学习,考察这10个知识点的学习情况,得到的数据见表2。

表2 实验结果

通过以上数据对比可知,有推荐组B 组学习者在绝大部分的知识学习上的平均学习时长明显低于无推荐组A 组,同时可以看到,在知识点复杂的情况下,也就是学习时长较长的情况下,有推荐组的学习时长显著短于无推荐组,表明对于复杂的知识内容,学习推荐可明显缩短学习者对复杂知识的学习时间,显著提升学习效率。同时,有推荐组的学习者因为产生学习困惑而反复学习同一知识点的情况也明显好于无推荐组,表明学习推荐内容可以较好地帮助学习者理解知识,从而减少回看次数和学习时间。从最后的同一测验考察情况来看,有推荐组的学习者在学习效果上也明显高于无推荐组的平均考核成绩,表明学习推荐算法确实能提升学习者的学习效率和内化程度,从而提升学习质量[8]。

3 结语

学习推荐是解决学习者在海量学习数据中产生知识迷航问题的重要手段。在学习中加入学习推荐,可以有效提升学习者的学习效率,提升学习质量。基于人工智能技术在知识学习中产生有效的学习推荐,既可以提升资源利用率,又能有效缩短学习时长。对于学习型社交网络中的推荐问题,除可以采用图神经网络进行数据建模和提取外,如何更加有效地采用其他类型的图结构方法,以及如何更为有效地融合知识谱图技术,都是可以进一步深入研究的方向。

猜你喜欢

图谱卷积神经网络
基于3D-Winograd的快速卷积算法设计及FPGA实现
绘一张成长图谱
神经网络抑制无线通信干扰探究
从滤波器理解卷积
基于傅里叶域卷积表示的目标跟踪算法
补肾强身片UPLC指纹图谱
主动对接你思维的知识图谱
基于神经网络的拉矫机控制模型建立
复数神经网络在基于WiFi的室内LBS应用
基于支持向量机回归和RBF神经网络的PID整定