APP下载

一种适用于“电力数据口袋书”业务的多维度协同过滤推荐算法设计

2022-03-31王峰高强代作松曹国强

科技创新导报 2022年21期
关键词:协同用户算法

王峰 高强 代作松 曹国强

(1.南京南瑞信息通信科技有限公司 江苏南京 210000;2.国网辽宁省电力有限公司信息通信分公司辽宁沈阳 110000)

为适应大数据与“互联网+”融合创新应用的需求,国家电网公司于2015年初正式提出了“全球能源互联网”的发展战略,即以特高压电网为骨干网架(通道)输送清洁能源、建设全球互联泛在的坚强智能电网为目标,将应用大数据、云计算、物联网、移动互联、智能穿戴、计算机视觉等技术,增强输变电设备状态的智能感知与实时评价、设备精准定位、故障自动预警等能力,优化大电网分布部署与集中协调的控制模式。全球能源互联网将运用大数据技术,对多元能源数据(如燃气网数据、热力网数据、发电厂数据、电网数据等)和经济、气候等外部数据进行快速、及时、准确的分析,提升能源供应的效率,实现互联网与风能、太阳能、地热能等可再生能源的融合与全球能源互享。

数字化发展是建设数字中国的重要战略布局,数字化转型过程中,信息化数据的真实性、信息化业务流程的可靠性、关键业务流转的可溯源性一直是企业资源管理数字化的重要问题。特别是在电网企业在开展电力工程基建、线路设备运检等生产经营活动中,数据诚信体系的构建更是成为“后信息化时代”的重要课题。重要的核心业务数据的采集、固化、传输、封存到查验、鉴定等工作的公正性和权威性,直接决定了数据和业务的公信力[1],取证手段有限、证据效力不高及传统司法鉴定服务不够便捷等问题逐渐成为安全生产电子证据的重要研究难点。

本文实现的智能推送算法可以方便、安全地部署于国网的各类移动应用中。第一,易于实现和维护。开发者可以借此方便地处理全部数据,并且算法易于测试。第二,支持运行时更新。新增一个评分项时,能即时更新得到新的推荐结果,高效率查询响应,即快速地执行查询,虽然这一般需要占用更多的空间。第三,对初次访问者要求低。对于初次的访问者,其评分项一般在这种情况下也可以获得较好的推荐结果。第四,合理的准确性。与最准确的推荐算法相比,此方法应该是在合理的准确范围内的,而且准确性方面的微小增长不应该牺牲算法的简单性和扩展性。

1 提出的协同推荐算法

本文提出了一种基于图神经网络的协同推荐算法(见图1),由于其较好的性能和可解释性,最近已成为一种广泛应用的图分析方法。推荐系统中的用户—项目交互关系可以看作一个图,即用户和项目作为节点,两者之间的交互作为边,同时还可以融入用户的社交网络、项目的属性信息等。面对推荐中的用户与项目为不同类型的节点,可以应用异质信息网络;面对数据稀疏及长尾问题,可以引入邻居采样等技术;面对图的大规模问题,可以进行采样及子图训练等优化方式。

图1 协同推荐算法

2 关系图的建立

为了解决上述限制,本文提出了一种基于采样的关系型图神经网络,该算法可以从知识图中提取与推荐相关的信息。首先,本文根据它们的中间实体连接知识图中的项目并创建新的关系,例如,在电网大数据中,相关的项目由同一个单位审批实施,那它们就可以标记为关联项目关系,构建过程如图2所示。通过这种方式,本文可以明确地揭示项目间的关系。同时,本文采用基于采样的邻居聚合来避免邻居大小的指数增长,从而缓解过度平滑问题。

图2 关系图的建立

在基于知识图谱的协同推荐算法中,大多数基于采样的图神经网络采用均为邻居的均匀采样,无法区分用户的喜好及相关关系[2]。现有的工作中,采样的策略与优化过程是分离的,这进一步阻碍了“电力数据口袋书”业务中端到端、用户到用户的训练方式。

本文中提出了一种全新的训练模型,专利中涉及电力数据知识图谱上的相关业务,使用关系图神经网络进行推荐,叠加用户喜好及用户权限。对于给定的用户登录及相关电路数据业务,如果可以确定它们是关联关系或者关联的节点,本文首先就计算关联项的相关性值。相关性分数用于对top-K相关的邻居项进行采样,因此,本文的模型可以根据关系和项目类型在连接的邻居中区分推荐相关项目。本文还在采样过程中采用了Gumbel-Softmax 重新参数化技巧,它从分类分布中近似采样概率,从而使采样过程可微,因此,采样组件与训练目标联合优化,从而享受端到端的时尚。本文根据关系和项目类型计算相关性分数以进行采样,这可以导航模型以选择推荐相关项目。

基于知识感知的“电力数据口袋书”项目的议题推荐的目标是:在给定了电力数据业务中用户的历史交互数据及电力业务的知识图谱的情况下,预测用户u是否对新业务或者新项目p感兴趣。具体的说,来自用户U与电力业务或项目P的历史交互表示为用户—业务的二维图关系GY={(u,yup,p)|u∈U,p∈P},其中,yup=1表示用户u通过点击、浏览等方式与电力业务p进行了交互。知识图谱由与电力业务或者项目的关联属性共同组成,如电力业务的主管单位、项目的类型是否为国网下拨、省地市的相关业务来源、业务的属性(发、送、输、变、配)。本文将知识图谱统一为有向异构图GK={(l,r,t)|l,t∈E,r∈R}(如甘肃省公司,国网下拨科技项目,二〇二〇年,第二批),其中,E和R表示实体和关系。因此,知识感知推荐任务可以形式化如下:

式中,yup是对用户对项目p兴趣的预测,Λ是权重为ω的学习预测函数。

3 相关邻居节点的构建

节点度偏度限制了知识图谱中具有稀缺连接的项目的可用邻居项目池。本文提出了“协同交互”模式来建立更高阶的项目—项目、业务—业务及实体—实体的关系,用以缩短相关项目之间的路径距离。举例说明,用户可能对同一电力业务发布单位所撰写的电力业务报告感兴趣,本文可以从“电力数据口袋书”中设置的知识图GK中提取协同交互模式,并使用一组新的关联关系构建一个业务—业务的协同交互无向图GI,其定义如下:

式中,rn表示新的“I-r”关系。遵循这些关系的导航,本文连接具有协同交互模式的项目,并构建项目—项目图,这样,本文可以直接连接高阶邻居,避免感受野的指数增长。本文将用户—项目二部图GY和项目—项目协同交互图GI统一为一个单一的图,称为关系图,因此,本文可以在后续任务中考虑用户和物品之间的所有这些关系[3]。

在这里,本文介绍了提议的用于邻居选择的可微采样,本文只从涉及的电力项目的角度来说明它,因为它对用户来说是相同的过程,协同交互关系与推荐的相关性因用户而异。例如,相同类型的电力业务的影响比相同的项目负责人影响更大。此外,协同交互关系是不平衡的,因为“电力数据口袋书”中相关项目负责人的业务到业务的对比就比同类别的要少得多,这会影响到电力数据业务协同推荐的有效性,即当潜在邻居池很大时,高度相关的邻居会减少。为了降低这一影响,保留真正相关的信息,本文引入了从关系角度分配权重的关系感知采样方法,如图3所示。采样过程中,首先为每个项目定义一个新的关系感知相关性分数分布,然后从中采样。项i在其相关邻居Z(i)上的关系感知相关性得分分布定义如下:

图3 相关邻居节点的构建

式中:m(pi,j=1|ωl,b)表示项目j与目标项目i相关的合理性;ωl∈Rd和b∈R是可学习的权重和偏差;rij∈Rd和sj∈Rd分别是关系和邻居项的嵌入,而d是嵌入的维度。相关性和邻居项共同决定了它的邻居相关概率,这就强调了在采样的相关性计算中关系意识的必要性。本文对用户应用相同的相关性计算过程[4-5]。

给定计算出的相关性分布,本文因此只选择最相关的top-K项目,也就是说,推荐性能高度取决于选择程序的结果。为了使这个过程可区分并与优化过程相结合,本文应用了Gumbel-Softmax 重新参数化技巧。假定Gumbel噪声g~Gumbel(0,1),本文可以使用以下等式绘制软分类样本:

式中:mi∈Rd由等式(3)中定义的所有邻居j∈Z(i)的相关性分数m(pi,j)组成;T是退火温度。

前期的工作已经证明,当T趋0 时,yi近似于单热编码器。本文重复上述过程K次,并对近似的单热编码器求和。在每次推荐开始时,所选项目的mi中的相关性得分将设置为0,这样,本文可以获得一个K-hot向量,表示为后续学习过程选择的top-K相关项目。

除了关系因素之外,本文还应该在top-K邻居消息传播过程中考虑叠加用户对电力数据业务的喜好[6]。由于用户可能对各种关系有不同的偏好,本文在聚合中考虑了这些关系。聚合过程如图4所示,推断项目i的嵌入如下:

图4 用户聚合过程

式中,oij是从采样过程中获得的项目K-hot向量中的第j位置值,表示项目j是否被选为项目i的邻居。su∈Rd是用户的嵌入。对于用户,本文在类似的过程中获得推断的用户嵌入,但注意力是使用连接的项目嵌入计算的。

本文使用点积生成用户u对项目i的偏好分数,分别具有推断的用户/项目嵌入和预测计算如下:

本文使用成对BPR 损失来优化top-N推荐,其定义如下:

式中,Ψ是一组三元组,每个三元组由用户u、一个交互项i和一个从用户u从未与之交互的项中采样的负项组成。

4 结语

针对电力大数据业务中的查询及使用,本文研发设计了基于采样的关系型图神经网络叠加喜好的多维度智能推荐算法,详细讨论了算法的设计流程、参数优化,并给出了实例化的论证。与传统的推荐算法相比,该算法推荐准确度高,同时在大数据环境下较为现实。此外,由于叠加了用户权限及喜好,相关算法能够对电力行业的用户数据进行分析,并匹配出适合的目标用户,最终实现电力数据的高质量推送。

猜你喜欢

协同用户算法
蜀道难:车与路的协同进化
基于MapReduce的改进Eclat算法
Travellng thg World Full—time for Rree
“四化”协同才有出路
进位加法的两种算法
关注用户
三医联动 协同创新
关注用户
一种改进的整周模糊度去相关算法
关注用户