基于自组织映射网络与时间权重的电力企业大学资源快速精准检索方法研究
2022-09-07郝腾飞郭建龙冯伟夏
郝腾飞,郭建龙,刘 晓,冯伟夏,熊 山
(广东电网有限责任公司培训与评价中心,广州 510520)
近年来,在线学习获得了飞跃的发展,2020 年新冠肺炎疫情的爆发更是让线上学习成为了一种不可或缺的学习方式。线上学习具有获取知识便捷、节约学习时间和价格成本低等优点,但在线学习还存在一些不足,如视频内容快速检索困难、回放定位辅助操作不清楚、知识点与视频帧无关联等,从而不利于知识信息在视频中的注入和检索生成,导致学习者难以快速精准获取适合自身的个性化学习资源[1-4]。
针对MOOC(Massive Open Online Course,MOOC)教学视频内容检索不便和知识点与视频帧无法关联的问题,许邓艳等[5]基于知识注释的MOOC 视频快速检索系统探究了视频快速分割方法,但在视频检索并未考虑用户的个性化信息。针对在线学习个性化欠缺的问题,朱晓云[6]认为应当研究用户群需求,进而从数据庞大的资源中提取真正满足用户需求的资源;张莉萍[7]强调知识整合,认为应当着眼用户需要,积极为其提供完善的知识信息服务。刘爱琴等[8-10]提出在在线学习中利用自组织映射网络(Self-Organizing Feature Map,SOM)神经网络算法对用户个人特征信息、行为数据及文献数据库进行聚类分析,进而提出一种自适应学习框架,用来满足用户学习的个性化需要。上述文献中提出的方法都在一定程度上提高了检索速度或精度,但均未考虑不同历史时间段浏览内容与本次用户检索内容的关联性,对新的搜索特征缺乏敏感性,无法根据用户搜索内容及时调整对应的资源快速推荐库,导致资源检索的快速性和精准性较低。
针对上述问题,本文提出了一种基于SOM 和时间权重的资源快速精准检索方法。该方法首先基于员工基本信息和历史浏览记录构建用户特征集并进行SOM 聚类,得到不同特征用户组成的用户集群,并将利用该用户集群得到的关联资源集生成的资源快速推荐库供用户检索,检索内容被采纳后则生成浏览历史记录;再检索时,根据用户浏览历史记录与本次搜索时间的远近赋予时间权重,根据所赋时间权重更新用户特征集并再聚类,获得新的关联资源集群,并进而得到新的资源快速推荐库,依此类推。仿真结果显示本文提出的方法提高了检索精确度,缩短了检索时间。
1 SOM 神经网络聚类算法
所谓聚类系指基于一定特征的相似程度分组,实现组内相似度最大,组间相似度最小的过程[11-12]。鉴于自组织特征映射神经网络SOM 算法具有无导师自组织学习、无参数、精准化和稳定性强的特点,广泛应用于智慧神经网络构建分析、大数据分析处理和用户个性化服务,在聚类时间和聚类效果上比其它算法更好。因此,本文采用自组织特征映射神经网络SOM 算法实施用户聚类。
1.1 SOM 神经网络结构
如图1 所示,SOM 神经网络基本结构通常由输入层和输出层构成,神经网络没有隐含层。由图1 可见,一维输入层与二维输出层所有神经元之间存在纵向全权连接关系,输入层中各个神经元之间彼此独立,不存在权连接关系;输出层各神经元之间存在双向权连接关系。本文所采用的SOM 神经网络框架,其输入层由m 个神经元组成,对应输入为m 维向量x1,x2,…,xi,…,xm记作x=[x1,x2,…,xi,…xm]T,i=1,2,…,m。输出层由n 个神经元组成,任一输入向量xi与输出向量纵向全权连接权值向量为wi1,wi2,…,wij,…,win记作wi=[wi1,wi2,…,wij,…,win],j=1,2,…,n。
图1 SOM 神经网络基本结构
对SOM 神经网络而言,一旦网络结构、输入向量及输出向量确定后,其关键是通过训练对神经网络的输入与输出、输出向量之间的连接权值向量进行调整,以提高SOM 神经网络的训练精度和速度。
1.2 SOM 算法原理
自组织特征神经网络算法实质是对各神经元之间连接权值向量调整和优化过程,该过程分为粗学习与粗调整和精学习与细调2 个阶段。粗学习与粗调整阶段,常用欧式距离法或余弦法计算输入向量和输出向量之间相似程度,大致确定输入向量在输出层所对应的影射位置[13]。精学习与细调整阶段,在粗调整阶段所建立的输入和输出拓扑关系基础上,在小范围内对连接权值进行调整。
SOM 算法流程如图2 所示,介绍如下。
图2 SOM 算法流程图
(1)权值向量的归一化。对全连接权值向量wi=[wi1,wi2,…,wij,…,win]赋予初值,假设权值向量值wij线性无关,则可归一化为
式中:j 为输出向量个数,j=1,2,…,n。
(2)输入向量的归一化。对输入向量x=[x(1t),x2(t),…,x(it),…x(mt)]T进行归一化,即
式中:xi(t)为第t 次学习优化得到的输入向量;t 为优化次数,t=0,1,2,…。
(3)计算任一输入向量xi(t)与第j 个输出向量之间权值向量的欧式距离,即
选择欧式距离dj最小的对应的输出向量为获胜神经元j*。
(4)选择优胜邻域。以获胜神经元j*作为中心,根据优化次数t 来确定优化邻域半径。初始邻域范围Sj*(0)最大,随着优化次数的增加,邻域范围Sj*(t)逐步收缩。本文采用指数衰减法来缩减邻域范围,即
式中:T 为衰减常数,直接影响学习优化迭代次数。
(5)权值向量优化学习调整。对权值向量进行优化调整,调整函数为
式中:βt为第t 次优化的学习率,粗学习阶段βt=β0e-t/T,精学习阶段βt=β0(1-t/T);hij(t)为第t 次优化学习时输出层获胜神经元j*调整的邻域程度;β0为初始学习率。
调整后的权值向量为
重复以上步骤,直至优化学习率小于设定值或达到设定的优化学习次数,模型优化结束。
2 时间权重
目前,基于用户特征的个性化资源推荐策略中,往往只考虑了用户浏览历史记录特征出现的的频率,而忽视了其时间相关性。实际上,用户搜索的内容具有时间有效性,用户兴趣会随时间流逝而变化[14],过去某个时间段出现频率较高的关键词,在当前阶段搜索中并不一定密切相关,而用户近期内频繁搜索或者检索内容与当前搜索内容更具延续性和关联性,对当前搜索内容更具影响。基于这一考虑,本文依据用户历史浏览资源距当前检索时间的远近而赋予不同的权重,即考虑时间权重的方法,将其纳入基于用户特征的个性化资源推荐策略中。时间权重主要涉及有效历史时间跨度t、周期划分及权重函数,即
(1)有效历史时间跨度t 的确定
有效历史时间跨度系指所选取的有效浏览历史记录涵盖的时间长度,由用户学习同一领域相关内容的周期长度决定。用户学习同一领域相关内容的周期越长,则有效历史时间跨度越大,反之亦然。如果学习同一领域相关内容的周期长,有效历史时间跨度选取较小,则会导致用户有效信息被遗漏。反之,如果学习同一领域相关内容的周期短,有效历史时间跨度设置过大,则会极大增加平台的数据处理量。有效历史时间跨度应结合实际情况,根据用户学习同一领域内容的周期来确定。
(2)权重周期的划分
将有效历史时间跨度t 划分为不同的权重周期T,同一权重周期内的历史浏览资源取相同时间权重值。有效时间跨度t 与权重周期的关系可表示为
式中:Ti为有效历史时间跨度t 内的第i 个权重周期,与本次检索的时间排序由近及远为T1,T2,…,Ti,…,Tn。
权重周期的选取与用户的学习频率密切相关,学习频率越高,则T 的长度越短,反之亦然。权重周期长度的划分基于以下2 点原则:其一要保证能够及时提取用户的新特征,其二要确保系统能够滤除偶然因素对用户特征的干扰。这2 点原则具有矛盾性,因此,权重周期的划分需要权衡并通过测试达到最优。
(3)时间权重函数的确定
对不同周期的历史浏览资源赋予时间权重,决定了历史浏览资源的对当前检索内容有效性。因此,选取合适的权重函数对检索结果的准确性至关重要。张驰等[15]根据记忆激活理论,研究了用户历史行为物品对当前物品影响的时间权重。通过对指数型函数、线性函数及二次函数的分析,指数函数具有初始递减速度快、近期资源权重占比大的特点,更加符合资源检索的实际情况,故选定指数型函数作为时间权重函数,即
式中:k、b 为待定系数,通过测试确定。
3 基于SOM 神经网络聚类算法电力资源快速精确检索
基于SOM 神经网络聚类算法电力资源快速精确检索流程如图3 所示。精确检索流程图介绍如下。
图3 电力企业大学资源快速精确检索流程
(1)用户聚类。根据用户的基本信息和历史浏览记录提取用户特征集,采用SOM 神经网络算法对用户依据标签进行聚类,根据聚类结果构建构建具有相似特征的用户集群;对集群用户的历史浏览记录进行统计处理并形成关联资源库,为刷新快速推荐资源库做好准备。
(2)资源推荐。用户登录后,首先提取用户所在的聚类集群信息,然后从用户输入信息中提取特征并与用户特征集进行匹配。若匹配成功,则优先从快速推荐资源库进行资源推荐;若匹配不成功或快速推荐资源库没有符合用户要求的资源,则从平台总资源库进行检索并推荐。
(3)用户特征集更新。当用户采纳推荐资源后,自动生成历史浏览记录。基于时间权重对用户特征集进行更新。用户特征集每次更新后不一定重新参与聚类,需要对用户特征集变化与设定阈值进行比较,若超过设定阈值则重新聚类,当用户被重新划分到不同的聚类集群后,相应的快速推荐资源库也会相应刷新。
3.1 基于SOM 算法的用户聚类
为对电力企业大学平台用户进行聚类,首先需根据平台资源和用户信息建立用户特征集体系,用户特征集体系主要包括是否新员工、资源类型、作业对象、业务类型和电压等级等,见表1;然后根据用户信息和历史浏览记录建立用户特征集;最后,利用SOM 算法对用户进行聚类。任一用户特征集可用n 维特征向量表示为
表1 用户特征集体系
式中:Nk为任一员工k 的特征集信息;xkn为任一号员工k 的第n 个特征,n 为正整数。
根据式(9)所示的用户特征集,利用SOM 算法对用户进行聚类,将具有相似特征的用户归类,得到不同类族用户的集合。
3.2 考虑时间权重的特征集更新
通常用户检索内容与历史浏览记录具有相关性和延续性,不同时期的历史浏览记录对用户当前检索的影响不同,因此对不同周期的历史浏览记录赋予时间权重,可使得检索结果更加符合用户的期望。因此,当用户产生新的浏览记录后,重新对历史浏览记录的权重周期进行划分,并对不同权重周期的历史浏览记录赋予时间权重,对用户特征集进行更新,为下次用户检索做好准备。
根据权重周期数量均匀地从时间权重函数中取权重向量y=[y1,y2,…,yj,…,yn],任一用户k 第j 个权重周期权重值ykj的归一化为
于是,任一用户k 的第i 个特征值可表示为
式中:xki为用户k 的第i 个特征值,i=1,2,…,m;wkj为用户k 第j 个权重周期的归一化权重,j=1,2,…,n;Nji为第j 个权重周期中用户第i 个特征出现的次数。
用户特征集是否更新的述判据可表示为
式中:xki(j)为用户k 第i 个特征第j 个周期的特征值;xki(j+1)为用户k 第i 个特征第j+1 个周期的特征值;Xit为第i 个特征的设定阈值。当用户的特征值发生改变且满足式(12)时,则对用户特征集重新聚类更新;反之,维持原有聚类结果,不对用户特征集进行更新。
4 应用验证及结果分析
以某电网电力企业大学在线学习平台为例,对本文所提出的资源检索方法的快速性和精准性进行了验证。
4.1 基于SOM 算法的用户聚类结果及分析
建立电力企业大学在线学习平台用户特征集体系。从中随机抽取600 条员工信息;将每个用户按照“是否新员工”“浏览资源类型(视频、PPT、AR 和VR)”“作业对象(变压器、线路设备、断路器、隔离开关和工程项目)”“业务类型(运行、维护、检修、调度、巡视和财务结算)”“电压等级(10、35、110、220 kV)”20 个特征作为输入神经元,以及输出神经元10×10 构建SOM 神经网络;利用SOM 聚类算法对用户特征集进行聚类,聚类结果如图4 所示。图中“·”代表具有相似特征的用户类,“+”代表用户。
图4 聚类结果
由图4 可见,共有95 个输出神经元被激活,表明600 名员工被划分为95 个聚类簇。其中大的聚类簇有十几个用户,小的聚类簇仅有几个用户。之所以出现这种情况,是因为聚类群体总量较小,随着聚类群体数量的增加,聚类簇内用户的数量会随之增加。
4.2 资源检索结果及分析
在上述用户聚类的基础上,假设新员工没有聚类群组和关联资源集群,老员工有聚类群组和关联资源集群;随机从平台中提取多名新员工和老员工连续的历史数据(包含检索信息和与被采纳的资源信息)各300 条;时间权重函数的待定系数由试验确定。通过统计分析,得到新老员工资源检索的正确率变化趋势分别如图5、图6、表2 及表3 所示。
表2 新员工平均正确率 %
表3 老员工平均正确率 %
图5 新员工用户资源检索准确率
图6 老员工用户资源检索准确率
由图5 和表2 可见:①由于新员工没有历史浏览记录,未能形成聚类群组和关联资源集群,其资源检索正确率较低,随着检索次数的增加,历史浏览记录增加,资源检索的正确率逐渐提高;②不考虑时间权重时,资源检索正确率较低,且资源检索次数与资源检索正确率的关联性弱;③采用指数时间权重函数时,能够更快地提取历史浏览记录中新出现的特征,加速聚类并更新快速推荐资源库,因此,采用指数时间权重函数的资源检索的正确率最高。
由图6 和表3 可见:①由于老员工已有聚类群组和关联资源集群,其资源检索正确率较高,受偶然性因素的影响,资源检索正确率可能在小范围内波动;②不考虑时间权重时,资源检索正确率较低,且资源检索次数与资源检索正确率的关联性弱;③相较线性时间权重函数及二次时间权重函数而言,采用指数时间权重函数的资源检索的正确率最高。
5 结论
提高在线学习平台用户资源检索的快速性和精准性,本文提出了一种基于SOM 和时间权重的电力企业大学资源快速精准检索方法。主要结论:①基于用户基本信息和历史浏览记录建立了用户特征集,采用SOM神经网络实现了对特征相似用户的精确聚类,生成关联资源集群并建立了用户资源快速推荐库。②提出了时间权重的概念,利用时间权重函数对用户特征集进行更新,并对更新的用户特征集再聚类,有效地提高了检索资源推荐的快速性和精准性。③本文所提出的方法应用于某供电公司电力企业大学在线学习平台,验证结果表明,采用本文所提出的资源检索方法,用户可快速精准地检索所需要的资源。