APP下载

面向电力用户的群簇核心推荐算法

2021-10-11宫立华刘鲲鹏朱银龙徐倩丽

计算机集成制造系统 2021年9期
关键词:相似性渠道协同

宫立华,盛 妍 ,李 磊,刘鲲鹏, 朱银龙,何 薇,徐倩丽

(1.国家电网有限公司 客户服务中心,天津 300322;2.国家电网有限公司 营销部,北京 100031;3.国网山西省电力公司 营销服务中心,山西 太原 030009;4.中电普华信息技术有限公司,北京 100085;5.北京数洋智慧科技有限公司,北京 100044)

1 问题的提出

随着互联网经济的快速发展,线上消费已成为当前主流的交易模式[1]。由于用电客户类型繁多,需求各异等特性,电力企业紧跟我国支付方式变革的脚步引入了多样化的缴费方式[2],并引导用电客户采用电子支付方式缴费,形成了多渠道全面发展的电力缴费线上线下缴费共存的现象[3]。目前,电力企业的缴费渠道仍以线下为主,线上线下渠道发展不平衡、渠道引流方式效果不好等现象广泛存在[4],导致目前电力企业终端运营管理压力很大[5]。因此,将线下缴费用户引流到线上十分必要。

目前针对用户的引流一般采取广告投放,人员随访等线下方式,这类方法效果差、成本高,难以适用于电力用户的引流这种大规模、跨地域的情景中。因此,通过智能系统辅助式的实施线上引流成为电力企业的不二之选。对电力用户进行精准引流的关键在于一个适用于电力场景下的可靠的推荐系统。推荐系统不仅可以为用户提供个性化的服务,还可以提高用户对产品的依赖,提高用户的忠诚度,直接或间接地提升经营收入[6]。协同过滤推荐算法由于其可拓展性、易实现、应用范围广等优点,已经成为推荐系统中应用最广泛的算法之一,在电子商务、新闻传播等方面均有应用[7]。电力用户存在稀疏程度高、时效性差,存在大量冷启动用户等问题,这也是推荐系统应用中所面临的首要问题。

为快速对线下缴费用户实施线上精准引流,本文以电力用户往期缴费数据为基础,详细分析用户属性及消费习惯,基于用户缴费历史数据、用户特征和渠道选择之间的关联关系提出了面向电力用户的群簇核心推荐模型。根据模型输出结果,电力公司可采用上门、电话等方式进行营业厅客户分流引导。具体流程如图1所示。本文主要有如下贡献:

(1)根据用户自身属性和消费特征提出了面向电力用户的群簇核心推荐模型,利用基于密度的聚类方法挖掘用户之间的关系,求同存异,将用户进行群簇划分。然后,将群簇核心用户的缴费信息引入协同过滤推荐算法,对目标用户进行簇内推荐,从而达到引流用户的目的。

(2)在最终的线下测试中,本文模型表现出了良好的性能。并在最终的线上测试中有效地提高了经济效益。

2 相关工作

2.1 协同过滤推荐算法

协同过滤推荐算法是推荐系统中的一种经典方法,其核心思想是假设用户u和v对n个项目的评分都相似,或有相似的行为(例如购买、观看、收听),则会对其他项目进行类似的评分或采取类似的行动[8]。传统的协同过滤算法存在相似性度量不准确、推荐方式不具有针对性、不能有效解决冷启动现象等问题[9],针对这些问题,国内外学者开展了系列研究。陆航等[10]将用户与用户,项目与项目之间的差异融入到基于用户的协同过滤算法中,且用户兴趣的变化随时间的变化,一定程度地解决了用户相似性度量不准确的问题。冯晨娇等[11]利用非线性函数的度量用户以及商品之间的相似度,有效缓解了用户可能对物品的极端评分行为而导致用户相似性度量不准确的情况。张凯涵等[12]依据用户的社交方式并结合了用户的评分信息,并根据用户的影响力选定为社区的专家,利用专家的权威性对新用户进行推荐,有效地解决了冷启动问题。当然,也有许多学者将协同过滤算法应用到了实际的生产生活中。ZHAO等[13]通过结合移动终端用户的历史记录和通信网络将协同过滤算法应用到了通信系统中。曲朝阳等[14]在协同过滤算法的基础上利用电力交易用户最优特征子集代表全体用户在套餐交易过程中的兴趣度,对售电套餐属性进行相似性计算,提出一种对售电套餐进行推荐的方法。

当前研究将协同过滤推荐分为基于用户的协同推荐、基于项目的协同推荐和基于模型的协同推荐[15]。基于用户的协同推荐认为用户选择的推荐对象是基于朋友的推荐,即用户对一些物品或项目有相似评分,说明他们的行为有很大的相似性,从而推断他们的偏好应该是相似的,则用户对目标或项目的评分应该也一致[16]。由于国网客户数据的时效性、线上渠道操作便捷性、用户便利性,本文将群簇核心用户信息引入协同推荐模型,提出了群簇核心推荐模型并将其应用于电力用户缴费方式精准引流中。

2.2 聚类分析

聚类作为一种经典的数据分析技术[17],在不同的科学领域有着丰富的应用,在无监督的学习场景中尤为重要。理想情况下,聚类方法无需任何先验的信息便可推断数据的结构。目前,许多聚类方法都对数据结构进行了一些基本假设[18]。一个突出的假设是每个类簇都有一个可以被识别为集群中心或核心的区域。例如,K-means[19]根据数据的紧凑性质假设存在单个类中心,而Mean Shift[20]方法将该区域定义为簇内密度最高的区域。

DBSCAN ( density-based spatial clustering of applications with noise )算法[21]等基于密度的方法通常假设不同的簇具有相似的密度级别,并且簇的核心是基于密度来定义的,其算法核心思想为:从某个选定的核心点出发,不断向密度可达的区域扩张,从而得到一个包含核心点和边界点的最大区域,区域中任意两点密度相连[22]。DBSCAN算法适用的数据分布较为广泛,并且无需根据先验信息确定类簇个数,能发现不同类型的类簇结构,在大规模数据上也有很好的算法效率,并可在一定程度上排除噪声的干扰。因此本文用该方法对电力用户进行的划分。

3 面向电力用户的群簇核心推荐算法

电力用户类型繁多、购买行为多元、用户需求异质、缴费偏好参差不齐,例如:不同年龄层次、不同地区的用户在选择购电渠道时可能具有明显的差异,因此对用户进行缴费推荐时,根据用户属性、消费行为对用户进行群簇划分,然后针对不同群簇进行个性化推荐将会产生更加精准的推荐效果。在进行推荐的过程中,由于某一群簇之内的用户量并不确定,用户之间的行为也有一定的差异,因此使用群簇内的所有用户信息进行对目标用户进行推荐会有一定的误差。为减少这种误差,在群簇内取一定的用户作目标用户的参照系将会更加精准地模拟目标用户的行为,实现更加精准的推荐效果。因此,本文在传统的协同过滤推荐算法的基础上引入群簇核心用户信息,提出了群簇核心推荐模型。首先,根据缴费历史数据、用户特征和渠道选择等特征通过聚类分析技术(DBSCAN算法)挖掘用户之间的相似性,将用户划分为若干个具有不同特征的群簇,同一群簇内的用户具有相同的特质;然后,针对不同的群簇提出基于群簇核心用户的协同过滤推荐模型,对线下目标用户的购电渠道进行精准化引流。

3.1 相关定义

定义1“用户-缴费渠道”评分。设有n个用户和m个可选择的缴费渠道,记U为用户集,I为缴费渠道集,则根据用户在各缴费渠道的缴费次数可构建“用户-缴费渠道”评分矩阵(简称评分矩阵),记为R=(rui)n×m,其中rui为用户u在缴费渠道i进行缴费的缴费次数,这里表示用户u对缴费渠道i的评分,rui=0表示用户u并未在缴费渠道i进行过缴费,因此评分为0。

定义2用户群簇。 根据用户特性通过聚类分析技术可以将用户分为不同的群簇,用户u所属的群簇记为Cu。

定义3群簇核心用户。 目标用户的核心参照用户群定义为用户u的群簇核心用户,这些核心用户取Cu中与用户u最相似的K个用户。用户u的群簇核心用户的集合记为S(u,Cu),

S(u,Cu)={vs1,vs2,…,vsk}。

其中vsj(j=1,2,…,K),表示对S中的元素进行降序排列后前K个值所对应的参照向量。其中:

S={suv=sim(u,v)|∀v∈Cu,v≠u}。

其中suv=sim(u,v)为用户u和v的相似性,相似性越大,说明两个用户在选择购电方式时具有越相似的消费习惯,因此本文取目标用户最相近的K个用户作为其核心用户。

定义4“用户—缴费渠道”评分估计。对用户缴费渠道进行推荐需要估计用户对缴费渠道的接受程度,即要预测用户对目标渠道的评分;理论上认为用户在选择购电渠道时,可能会更倾向于选择其群簇核心用户所选择的渠道。因此,对用户u在缴费渠道i的评分进行预测时,需要加入群簇核心用户对该渠道的评分,评分函数如式(1)所示:

(1)

当用户冷启动(新用户)时评价函数计算公式如下:

(2)

定义5用户间的相似性度量函数。本文采用修正的余弦相似性对用户间的近邻关系进行度量,较余弦相似性不同的是修正的余弦相似性[9]考虑到不同缴费渠道获得的打分标准不同的问题,则用户u和用户v的相似性计算公式如下:

(3)

3.2 群簇核心推荐算法实现

为了方便对算法的理解与实现,本节根据3.1所述相关定义和内容给出群簇核心推荐算法的伪代码和算法流程图,如图2所示。

算法1群簇核心推荐算法。

输入:电力用户的缴费历史信息、用户特征等数据(具体包括:用户编号、用户基本信息、缴费渠道、渠道缴费次数等);

输出:推荐的渠道。

步骤1根据用户属性和缴费信息使用DBSCAN聚类分析算法将用户划分为不同的群簇,得到用户所属的群簇Cu;

步骤2基于用户缴费历史数据和渠道选择之间的关联构建“用户-缴费渠道”矩阵R;

步骤3在目标用户所属的群簇Cu中通过式(3)计算相似性得到用户的群簇核心用户集S(u,Cu)。

步骤5将待推荐的目标缴费渠道按估计评分进行降序排列,取前P个缴费渠道推荐给用户。

4 仿真实验

4.1 实验设计

为有效地检测算法的推荐效果,本文从国网客服中心的客户中随机采样了6 680名用户,提取了用户档案、缴费行为、线上渠道接触程度3个维度的特征,进行线下测试,以求在推荐系统上线之后能给用户带来良好的体验,提取的用户特征如表1所示。

为进行线下测试,本文将数据集随机划分为训练集和测试集,并分析了不同划分比例对推荐结果的影响,同时为了消除算法产生的随机性,更加准确地验证模型的性能,本文中的实验结果均为独立重复10次实验之后的平均值。此外,本文所述模型运行在以CPU为Intel Core i7 6700, 内存为8 GB,系统为Ubuntu 18.04的PC上,所有实验相关代码均由Python编写。

表1 用户特征信息表

4.2 性能分析

准确率(Precision)、召回率(Recall)、F-值(F-measure)和覆盖率(Coverage)等是对推荐模型进行离线测试时常用的评价指标[23],本文拟采用准确率、召回率和覆盖率3个指标来验证模型在电力用户缴费渠道推荐中的效果。Lu表示用户u的缴费渠道推荐列表,Bu为用户实际选择的缴费渠道,则

(1)准确率(Precision)[24]。用户u的推荐准确率为推荐列表中用户实际选择的缴费渠道所占的比例:

(2)召回率(Recall)[25]。用户u的推荐召回率为推荐列表中的缴费渠道有多少是用户实际选择的:

(3)覆盖率(Coverage)[26]。覆盖率用于度量推荐系统推荐给所有用户缴费渠道数占缴费渠道数的比例:

在这3个指标下,对文中提及的模型(ClusterR)与TOP-P推荐方法(MP)以及按用户性别划分的推荐方法(Sex-MP)进行性能比较,实验结果如图3所示。结果表明,本文模型(ClusterR)在与TOP-P推荐方法(MP)以及按用户性别划分的推荐方法(Sex-MP)相比时,均处于较大优势。在将用户按性别进行分类之后,推荐的效果明显提升,这也从侧面反映出将用户进行分组可以提高推荐的效率。以上分析说明,本文方法在进行电力缴费渠道推荐时,具有稳定性高,准确度高的特点,有一定的可行性。

4.3 参数分析

为了准确分析影响算法效率的不确定性因素,本文采用控制变量法结合模型的特点分别从:目标用户的群簇核心用户数(K)、向目标用户推荐的缴费渠道的个数(P)、在线下测试中的训练集占数据集的比例(r)三个方面出发,逐一进行实验比较和分析,以选择最优参数,提高算法的可信度。

(1)K值变化对推荐结果的影响

将推荐渠道数P设定为5,训练集与测试集的比例为4∶1的情况下进行实验,3个指标下推荐系统性能随K值变化的趋势如图4所示。在随着参照评分用户的数量不断变化的过程中,3个用于评价算法效率的指标由初始的上升逐渐趋于稳定,在K=20之后几乎趋于稳定。因此在之后的实验中K值设定为20。

(2)P值变化对推荐结果的影响

在设定训练集和测试集比例为4∶1的情况下,不断调整推荐缴费渠道的数据量以观察其对推荐系统性能的影响。实验结果表明(如图5),随着推荐

渠道数量的不断增多,召回率和覆盖率明显提升并在P=5时趋于稳定,而推荐精确度在逐渐下降。当推荐的渠道个数增多时,在计算精确度时意味着总共的推荐数量增多,因此精确度必然会相应有所下降。在给用户做推荐时,要将用户几乎可能用的所有缴费渠道全部推荐给用户,这也就意味着推荐方法必须有较高的覆盖率,另外,将所有缴费渠道推荐给用户也是不切实际,不符合用户需求的。因此,通过结果分析发现,在推荐渠道数量为5时,覆盖率已经趋于稳定,并且在对用户的缴费渠道进行分析的时候,用户的最多缴费渠道种类为5种,由此在之后的推荐过程中,P设定为5。

(3)r值变化对推荐结果的影响

在分析训练集比例对推荐结果的影响时,如图6所示,当r值逐渐增大时召回率随着训练集比例的不断提升而增加,最后趋于平稳,覆盖率虽偶有波动但是基本保持稳定,推荐精确度也保持稳定。

4.4 应用实践测试

充分的线下测试表明,本文提出的模型具有良好的性能,因此该模型被率先试用于国家电网山西省公司电网用户的缴费渠道的引流过程中,基于对网省公司全量客户缴费历史数据,利用聚类分析方法(DBSCAN算法)挖掘用户间的关联关系,将用户划分在不同的群簇中,在不同的群簇中,识别用户缴费渠道偏好,通过群簇核心用户推荐算法对下线客户进行渠道推荐(Top 5),根据模型输出结果,选择用户最佳适配渠道,客户经理对营业厅客户分流引导,释放线下渠道压力。具体实施方式描述如下:

(1)国网客服中心通过推荐模型,输出营业厅窗口存量客户引流目标渠道,同步推送至中心95598业务支持系统(中心坐席人员响应客户诉求的核心系统)和国网山西省公司大数据平台。中心侧坐席人员在受理客户诉求后,结合引流目标渠道数据,针对性地开展线上渠道引流,探索通过网上国网渠道激活线上沉默客户。

(2)网省侧接收引流数据后,处理形成引流标签,推送至营销系统,在确保数据安全的前提下提供客户近期缴费渠道、近期应收电费和客户电话号码(拨打95598使用电话)等字段的查询、筛选功能,辅助引流人员确定选择引流方式与上门引流时机。通过客户近期缴费渠道及缴费次数,分析客户缴费偏好;通过近期应收电费,识别客户是否为长期外出,减少人员上门次数;通过95598电话记录,核实客户档案电话准确性,提升引流成功率。

5 结束语

针对当前电力缴费中存在的缴费渠道单一,线上渠道使用率不高等问题,本文提出了面向电力用户的群簇核心推荐算法。该算法针对电力用户的缴费特点进行建模,具有速度快、可迁移性高、参数敏感性低等特点。经过线上线下仿真试验结果表明该模型有较高的适用性,能够快速实现对电力用户的缴费行为推荐,具有很高的实用价值。此外,该算法对于其他相关行业用户线下至线上引流具有重要的参考价值。另外,用户群簇的划分对推荐结果起着决定性的影响,接下来的研究将从群簇用户的划分方法以及划分特征选取两方面着手,有望得到更加精细的群簇,从而进一步提高渠道引流的成功率。

猜你喜欢

相似性渠道协同
一类上三角算子矩阵的相似性与酉相似性
聚焦“五个一” 打通为侨服务渠道
蜀道难:车与路的协同进化
浅析当代中西方绘画的相似性
“四化”协同才有出路
三医联动 协同创新
低渗透黏土中氯离子弥散作用离心模拟相似性
渠道
协同进化
渠道与内容应当辩证取舍