基于协同过滤的电力信息运维知识个性化推荐模型
2017-06-13曲朝阳徐鹏飞娄建楼
曲朝阳,徐鹏飞,娄建楼,颜 佳,曲 楠
(1.东北电力大学信息工程学院,吉林 吉林 132012;2.国家电网吉林省电力有限公司信息通信公司,吉林 长春 130062;3.江苏省电力公司检修分公司,江苏 南京 210000)
基于协同过滤的电力信息运维知识个性化推荐模型
曲朝阳1,徐鹏飞1,娄建楼1,颜 佳2,曲 楠3
(1.东北电力大学信息工程学院,吉林 吉林 132012;2.国家电网吉林省电力有限公司信息通信公司,吉林 长春 130062;3.江苏省电力公司检修分公司,江苏 南京 210000)
提出了基于协同过滤的电力信息运维知识个性化推荐模型.首先给出了电力信息运维知识个性化推荐模型的建立流程;其次引入隐式评分机制,将运维人员的学习行为转换为对电力信息运维知识的隐式评分;再次对传统协同过滤算法的不足进行改进;最后基于改进协同过滤算法构建个性化推荐模型,对电力信息运维知识进行推荐.实验结果表明,该个性化推荐模型能够有效提高推荐效果,具有实际意义.
协同过滤;电力信息运维知识;个性化推荐;隐式评分
随着电网企业信息化建设的不断发展,电力信息运维知识严重“过载”,运维人员很难在大量的电力信息运维知识中找到自己真正需要的知识.推荐系统是解决电力信息运维知识“过载”问题的主要工具,它能够根据运维人员的习惯偏好向运维人员推荐可能感兴趣的电力信息运维知识.协同过滤作为目前推荐系统中应用最成功的推荐技术,它是通过寻找与目标用户习惯偏好相似的邻居用户,把邻居用户感兴趣的知识推荐给目标用户.[1-2]
电力信息运维知识个性化推荐是提高运维人员电力信息运维知识水平的有效途径,但目前对电力信息运维知识个性化推荐的研究仍然没有突破性进展,依旧面临缺乏有效的推荐技术、推荐质量,难以满足运维人员的需求等问题.针对以上问题,本文结合运维人员的学习行为,首先引入隐式评分机制,将运维人员的学习行为转换为对电力信息运维知识的隐式评分,然后对传统协同过滤算法的不足进行改进,最后构建基于改进协同过滤算法的个性化推荐模型,并将其应用于电力信息运维知识推荐.
1 电力信息运维知识个性化推荐模型建立的流程
图1 电力信息运维知识个性化推荐模型建立的流程
真实可靠的评分数据是进行电力信息运维知识个性化推荐的前提,评分数据应该尽可能地反映运维人员对电力信息运维知识的感兴趣程度,因此引入隐式评分机制,将运维人员在线学习过程中的学习行为转换为对电力信息运维知识的隐式评分.传统协同过滤算法在用户相似性计算过程中没有考虑项目之间的相似性以及在未评分值预测过程中没有体现用户兴趣的动态变化,严重影响推荐质量.因此改进传统协同过滤算法的不足,并基于改进协同过滤算法构建个性化推荐模型对电力信息运维知识进行推荐.运维人员可以根据推荐结果发现自己感兴趣的知识,进而增强电力信息运维知识水平.电力信息运维知识个性化推荐模型的建立流程如图1所示.
2 基于协同过滤的电力信息运维知识个性化推荐
2.1 隐式评分机制
由于运维人员在线学习过程中会对电力信息运维知识产生一定的学习行为,比如对电力信息运维知识的下载、收藏、分享、学习时长等,因此引入隐式评分机制,通过跟踪记录运维人员的学习行为,将这些学习行为转换为对电力信息运维知识的隐式评分.隐式评分能够较好地解决运维人员对电力信息运维知识“学而不评”的现象,并且能够客观地反映运维人员对电力信息运维知识的感兴趣程度,具有比预测更高的可靠性.[3]
隐式评分是通过计算运维人员的单一学习行为或组合学习行为的分值而得到的,本文用D(下载),C(收藏),S(分享)和T(学习时长)来表示运维人员的学习行为,电力信息运维知识的评分采用5分制.运维人员学习行为对应的电力信息运维知识评分值如表1所示.
表1 学习行为对应的评分值
2.2 协同过滤算法
2.2.1 传统协同过滤算法
协同过滤可分为两类,分别是基于存储的协同过滤和基于模型的协同过滤[4-5].前者利用评分数据计算用户或项目相似性得到邻居集合或项目集合,根据邻居集合中用户对项目的评分进行预测;后者对已有数据运用概率统计和机器学习得到一个模型,根据模型进行预测.
基于存储的协同过滤算法通过分析用户的历史评分数据,寻找和目标用户习惯偏好相似的邻居用户,把邻居用户感兴趣的项目作为结果推荐给目标用户.它的实现过程分为获取用户评分数据、寻找最近邻居、产生推荐列表3个步骤.[6]
(1) 获取用户评分数据
用户评分一般情况下表示成一个m×n用户-项目评分矩阵R=(rij),其中m表示用户数量,n表示项目数量,rij表示用户评分值,一般rij∈[0,5]且rij是整数,评分值越高则表示用户对该项目的感兴趣程度越大.
(2) 寻找最近邻居
用户相似性计算的目的是寻找和目标用户习惯偏好相似的最近邻居集合,也就是说,对目标用户u寻找一个按照用户相似性从大到小排列的集合Nu={u1,u2,…,un},u∉Nu.本文采用Pearson相关系数来计算用户相似性sim(u,v),公式为
(1)
(3) 产生推荐列表
根据最近邻居集合预测目标用户u对未评分项目iT的评分值Pu,iT,选择评分最高的前N个项目作为结果推荐给目标用户.公式为
(2)
2.2.2 改进协同过滤算法
传统协同过滤算法在用户相似性计算过程中没有考虑项目之间的相似性以及在未评分值预测过程中没有体现用户兴趣的动态变化,严重影响推荐质量[7].本文对传统协同过滤算法的不足进行以下改进.
(1) 用户相似性计算
传统协同过滤算法在用户相似性计算过程中只考虑用户共同评分过的项目,但忽略了项目之间的相似性,那么用户共同评分过的项目中或许存在和被预测项目不相关却被考虑在内,使得找到的邻居用户不准确.为了减小不相关项目对用户相似性计算的干扰,将项目相似性sim(i,j)引入到用户相似性计算中.该计算有多种不同的方法,如余弦相似性、Pearson相关系数、条件概率等[8].本文运用条件概率计算项目i和项目j之间的相似性
(3)
其中freq(i),freq(j),freq(ij)分别表示对项目i和项目j进行评分的用户人数以及同时对项目i和项目j进行评分的用户人数,α∈[0,1]表示缩放比例因子.
引入项目相似性后用户相似性计算公式为
(4)
其中:iT表示待预测项目,sim′(u,v)表示用户u和用户v基于iT的相似性.
(2) 未评分值预测
传统协同过滤算法在未评分值预测过程中将用户不同时间对项目的评分看做是相同的,忽略了用户是在不同时间对项目进行评分不同这一事实.由于用户兴趣随着时间流逝而改变,但在较短时间段内用户兴趣改变较小,因此一个用户最可能会对其越晚评价的项目越产生兴趣.心理学家艾宾浩斯对遗忘现象的研究结果表明:人类的遗忘过程是逐步的、非线性的[9].借鉴人类的遗忘规律,将时间函数f(t)引入到未评分值预测中,体现用户不同时间内评价的项目对预测未评分值的影响,即用户越晚评价的项目对预测未评分值的影响越大,那么f(t)应该是一个单调递增函数,函数值在(0,1)范围内.本文使用指数函数作为时间函数,公式为
(5)
其中:t表示用户u评价项目iT的时间,e表示自然底数.
引入时间函数后未评分值预测的公式为
(6)
2.3 基于协同过滤的个性化推荐模型
图2 基于协同过滤的个性化推荐模型
以对隐式评分机制与协同过滤算法的研究为基础,构建一个基于协同过滤的个性化推荐模型,并将其应用于某省电力有限公司试运行的电力信息运维知识培训平台中,该推荐模型如图2所示.
推荐引擎是该模型的重要组成部分,它是实现电力信息运维知识个性化推荐的中枢.推荐引擎的基本思想是将运维人员信息、电力信息运维知识、隐式评分信息通过输入接口传送到推荐引擎,引擎中的推荐模块利用本文改进的协同过滤算法对电力信息运维知识进行推荐,并将推荐结果通过输出接口呈现给运维人员.
个性化推荐模型中推荐引擎的算法流程:
(1) 获取用户评分数据:查询数据库,得到用户-项目评分矩阵.
(2) 寻找最近邻居:根据公式(4)计算目标用户u和其他用户之间的相似性,即sim′(u,v),把用户按照相似性由大到小排序,选择前n个作为目标用户u的邻居用户.
3 实验结果与分析
实验数据使用某省电力有限公司试运行的电力信息运维知识培训平台中100个运维人员对1 200个电力信息运维知识的15 000条评分数据,并且每位运维人员至少对120个电力信息运维知识进行了1到5之间的评分,评分数值越高,表示运维人员对该电力信息运维知识的感兴趣程度越大.
度量标准使用统计精度度量方法中的平均绝对偏差MAE,它是通过计算预测的用户评分与实际的用户评分之间的偏差度量,可以得到预测的准确性,MAE越小推荐效果越好.[10]设预测的用户评分集合为{r1,r2,…,rn},设实际的用户评分集合为{s1,s2,…,sn},则平均绝对偏差MAE定义为
(7)
最近邻居集合的大小影响MAE,因此,在同一个数据集上选择大小不同的最近邻居集合,比较本文改进协同过滤算法和传统协同过滤算法的推荐效果,实验中将最近邻居集合大小从10增加到45.
图3 本文改进算法与传统算法的MAE比较
本文提出的改进协同过滤算法与传统协同过滤算法的MAE比较如图3所示.
从图3中可以看出,改进协同过滤算法的推荐效果比传统协同过滤算法好.原因是改进协同过滤算法在计算用户相似性时引入了项目相关性,使得找到的邻居用户更准确,在预测未评分值时引入了时间函数,体现了用户兴趣的动态变化,从而提高了推荐效果.
4 结语
为了从海量电力信息运维知识中向运维人员推荐出可能感兴趣的知识,本文提出了基于协同过滤的电力信息运维知识个性化推荐模型.针对传统协同过滤算法的不足,在用户相似性计算时引入项目相似性以减小不相关项目的干扰,并在预测未评分值时引入时间函数以体现用户兴趣的动态变化,改进协同过滤算法构建电力信息运维知识个性化推荐模型,解决了电力信息运维知识“过载”问题.最后通过实验证明了该个性化推荐模型能够有效提高推荐效果,具有实际意义.
[1] 冷亚军,陆青,梁昌勇.协同过滤推荐技术综述[J].模式识别与人工智能,2014,27(8):720-734.
[2] 赵琴琴,鲁凯,王斌.SPCF:一种基于内存的传播式协同过滤推荐算法[J].计算机学报,2013,36(3):671-676.
[3] 孙歆,王永固,邱飞岳.基于协同过滤技术的在线学习资源个性化推荐系统研究[J].中国远程教育,2012(8):78-82.
[4] 孙光福,吴乐,刘淇,等.基于时序行为的协同过滤推荐算法[J].软件学报,2013,24(11):2721-2733.
[5] 荣辉桂,火生旭,胡春华,等.基于用户相似度的协同过滤推荐算法[J].通信学报,2014,35(2):16-24.
[6] 胡勋,孟祥武,张玉洁,等.一种融合项目特征和移动用户信任关系的推荐算法[J].软件学报,2014,25(8):1817-1830.
[7] 邢春晓,高凤荣,战思南,等.适应用户兴趣变化的协同过滤推荐算法[J].计算机研究与发展,2007,44(2):296-301.
[8] 刘东辉,彭德巍,张晖.一种基于时间加权和用户特征的协同过滤算法[J].武汉理工大学学报,2012,34(5):144-148.
[9] 于洪,李转运.基于遗忘曲线的协同过滤推荐算法[J].南京大学学报(自然科学版),2010,46(5):520-527.
[10] 陈志敏,姜艺.综合项目评分和属性的个性化推荐算法[J].微电子学与计算机,2011,28(9):186-189.
(责任编辑:石绍庆)
Personalized recommendation model of power information operation and maintenance knowledge based on collaborative filtering
QU Zhao-yang1,XU Peng-fei1,LOU Jian-lou1,YAN Jia2,QU Nan3
(1.School of Information Engineering,Northeast Dianli University,Jilin 132012,China;2.Information and Communications Company State Grid Jilin Electric Power,Changchun 130062,China;3.Maintenance Branch of Jiangsu Electric Power Company,Nanjing 210000,China)
Personalized recommendation model of power information operation and maintenance knowledge based on collaborative filtering was proposed.First,the establishment process of personalized recommendation model of power information operation and maintenance knowledge is built.Second,implicit rate mechanism is introduced,which can transform learning behavior of the operation and maintenance personnel into implicit rate of power information operation and maintenance knowledge.Third,improve the shortcomings of traditional collaborative filtering algorithm.Finally,personalized recommendation model which is used to recommend the power information operation and maintenance knowledge was built based on improved collaborative filtering algorithm.The experimental result shows that the personalized recommendation model can effectively improve the recommendation effect,with a practical significance.
collaborative filtering;power information operation and maintenance knowledge;personalized recommendation;implicit rate
(责任编辑:石绍庆)
1000-1832(2017)02-0084-05
10.16163/j.cnki.22-1123/n.2017.02.016
2016-03-06
国家自然科学基金资助项目(51277023);吉林省科技计划重点转化项目(20140307008GX).
曲朝阳(1964—),男,博士,教授,主要从事智能信息处理、网络技术、虚拟现实研究;通信作者:徐鹏飞(1991—),男,硕士研究生,主要从事智能信息处理研究.
TP 311 [学科代码] 520·40
A