电力企业干部资质画像准确性评价系统设计
2022-09-01苏华权严宇平林跃晓冯志鹏
苏华权, 严宇平, 林跃晓, 冯志鹏
(1.广东电网有限责任公司,信息中心, 广东,广州 510600;2.广东电网有限责任公司,广东,广州 510600;3.广东电力信息科技有限公司,广东,广州 510600)
0 引言
电力企业干部资质画像的构建可以提供更好的个性化服务[1-4],用户画像的准确性对电力企业干部资质评定至关重要,因此有必要设计和研究干部资质画像的准确性评价体系。
顾兆军等[5]提出基于可拓关联度的画像准确性评价系统设计方法,该方法建立画像准确性评价指标子系统,在可拓关联度的基础上通过多级模糊评价方法量化处理评价等级,实现画像准确性评价。金杉等[6]提出基于模糊小波聚类混合的画像准确性评价系统设计方法,该方法在模糊小波神经网络的基础上设计画像准确性评价系统,建立决策输出子系统,筛选显著低效覆盖单元,通过k均值聚类算法对画像准确性进行评价。但是上述方法在设计系统架构的过程中都无法实现实时流计算和离线批处理技术的联合,存在系统的实时性和完整性较差、评价精准度低的问题。
为了解决上述方法中存在的问题,将用户画像应用到电力企业中,提出电力企业干部资质画像准确性评价系统设计方法。
1 画像准确性评价系统整体架构
在Labmda架构的基础上设计评价系统的整体架构。
首先,结合实时流计算和离线批处理,实现相互补充,其应用形式如图1所示。
图1 实时流计算和离线批处理技术应用形式
1.1 数据来源与采集
(1)数据来源
数据来源包括外部系统产生的补充数据、服务端中存在的业务数据和用户数据。用户数据为客户端中用户的行为数据,客户端通常包括Web端、PC客户端和移动App[7]。在构建电力企业干部资质画像时,以上述数据为基础数据,挖掘上述数据获得用户触发的各种行为、位置属性和设备属性。
服务器端的业务数据描述了用户在使用客户端时产生的与业务相关的数据,通常包括社交关系、注意力关系和注册信息。为了保证数据的真实性,需要对服务端业务数据的真实性进行验证。
干部资质画像的原始数据来源为服务端中存在的业务数据和客户端产生的用户行为数据。外部获取的数据是构建画像的重要数据来源。
(2)数据采集
在业务数据源中,采集电力企业干部资格肖像原始数据的过程就是数据采集。这一阶段通常存在结构化数据,如业务方数据库中的数据、业务协议上报的数据,在数据采集过程中也会采集到业务方的日志等非结构化数据[8]。电力企业干部资格画像准确性评价系统的数据采集阶段包括实时流数据、业务数据库数据同步和移动SDK数据上报。
1.2 数据仓库
在电力企业干部资格肖像准确度评价系统中,需要深入挖掘干部的基本属性、服务端业务数据和用户行为,因此有必要建立一个面向在线分析处理的数据仓库。电力企业干部资质画像准确性评价系统将数据仓库模型分为画像应用层、DW层和ODS层,如图2所示。
图2 数据仓库结构图
1.3 标签计算
因为时效性与业务场景要求之间存在差异,将计算阶段分为两个部分,分别是实时计算和离线计算[9]。
(1)实时计算
实时标签在对接推荐系统中的应用较为广泛,根据实时标签推荐系统可以提高推荐效果。实时计算过程如图3所示。
图3 实时计算过程
(2)离线计算
在业务数据库中同步的数据触发时间通常都是固定的,属于离线处理[10]。一些需要大量运算、统计时间较长的数据也需要离线计算。离线计算结构如图4所示。
图4 离线计算结构
采用Hive作为SQL解释层,进行离线计算。
1.4 标签结果数据存储
经过计算层处理后,根据用户数据获得标签结果数据将其存储在标签结果存储层中。实时运算和离线运算后的最终结果都存储在标签结果存储层中,方便数据查询[11]。
1.5 画像应用服务
电力企业中干部资质画像存在以下功能:
(1)面向运营团队和产品的页面功能类应用,为电力企业提供可视化数据。
(2)用户其他系统如推荐系统的对接数据服务,提供数据导出。
1.6 准确性评价
电力企业干部资格肖像准确性评价系统的主要目的是对干部资格肖像的准确性进行评价,这是系统的核心。精度评价模块包括系统评价分析、指标权重确定和指标标准化。
专家和评审员参与了干部资质画像的准确性评价。专家组利用自己的历史教训、丰富的知识和经验,对干部资格素质的各项指标进行评分。当干部资质画像准确性评价结果出现偏差时,评价者对电力企业干部资格肖像准确性评价系统的设定参数进行修正和处理,并通过人工干预功能提高评价结果的准确性。
2 评价系统的实现
引入集值统计方法,对画像准确性评价指标进行去模糊化处理。
通过S个评审专家对核心画像准确性评价指标N进行估值,获得S个区间估计值,通过估计值获得集值统计序列{X1S,X2S},采用样本投影函数Y(X1k,2k)(X)对集值统计序列进行描述[12]:
(1)
(2)
设Xmax代表的是最高值,Xmin代表的是最低值,利用下述公式对准确性评价指标N对应的评价值进行计算:
(3)
(4)
设Pi代表的是中间变量,其计算公式为
(5)
yi=(1-e-Pi)/(1+e-Pi)
(6)
在区间[-1,1]内指标进行二次变化:
zi=[(yi-yimin)/(eyimax-yimin)]-1
(7)
其中,i=1,2,…,m。
将画像准确性评价指标变换到区间[0,1]内,保障了准确性评价指标数据的精度和数据之间存在的变动规律[13]。
(8)
式中,nk代表的是第k层子目标中存在的元素个数。令:
(9)
式中,P(k)代表的是关于第k-1层各元素,第k层子目标nk个元素构成的nk×nk-1矩阵。设W(k)代表的是关于总目标第k层子目标的组合优先权重向量,其表达式为
(10)
其中,k=1,2,…,n,利用分量的形式描述权重向量:
(11)
通过上述过程,获得电力企业干部资质画像准确性评价指标对应的权重W(a)为
(12)
设电力企业干部资质画像存在s个不同的灰类、m个评价指标,xi代表的是画像准确性评价指标对应的估计值。
划分各画像准确性评价指标的取值范围[x1,xs+1],获得s个区间[x1,x2],…,[xk-1,xk],…[xs-1,xs],[xs,xs+1],根据实际情况确定xk的值。
不同灰类对应的三角白化权函数的表达式分别为
(13)
(14)
(15)
设存在p个评估者对画像准确性评价指标Xij打分,获得评分aijp,A代表的是评估样本矩阵,可根据第k个评估者的评分aijk获得,其表达式为
A=(aijk)(n1+n2+…+nm)×p
(16)
式中,nm代表的三级评价指标在二级评价指标中的定性样本得分数量。
将准确性等级划分为5级,获得对应的阈值λ1,λ2,…,λ5和白化权函数f1(x),f2(x),…,f5(x)。
所有评估者给出的评分都可以看做灰数[14],p个评价者针对画像准确性评价指标Xij给出的评分为aij1,aij2,…,aijp,评价者认为画像准确性评价指标Xij属于第l个灰度评估类对应的白化权函数为fl(aij1),fl(aij2),…,fl(aijp)。
设rijl代表的是画像准确性评价指标属于灰类l时对应的灰色评价,其计算公式为
(17)
其中,l=1,2,…,g。
设rij=(rij1,rij2,…,rijg)代表的是画像准确性评价指标Xij对应的灰色评价向量,由画像准确性评价指标Xij属于每个灰类对应的灰色评价构成[15]。
设WYi代表的是二级画像准确性评价指标Yi对应的权重向量,二级指标的灰色综合评价向量可通过下式计算得到:
Yi=WYi×Ri
(18)
式中,Ri代表的是灰色评估矩阵,其表达式如下:
(19)
通过上述过程,获得电力企业干部资质画像准确性评估向量Z:
Z=WYi×Ri
(20)
至此,完成电力企业干部资质画像的准确性评价系统设计。
3 实验与分析
为了验证电力企业干部资质画像准确性评价系统设计方法的整体有效性,需要对电力企业干部资质画像准确性评价系统设计方法进行测试。
本次测试所用的操作系统为Redhat Fedora Core 6。以2020年03月27日某电厂通过个人自评、党员互评、民主测评、组织评定等环节组织开展的“画像”评价工作内容为数据来源,数据样本是该厂利用第一季度支部党员大会对所属党员领导干部进行的测评数据,分别采用电力企业干部资质画像准确性评价系统设计方法(方法1)、基于可拓关联度的画像准确性评价系统设计方法(方法2)和基于模糊小波聚类混合的画像准确性评价系统设计方法(方法3)进行测试,通过评价时间和完整性系数δ对系统的实时性和完整性进行测试,对比结果通过图5、图6进行展示。
图5 不同方法的系统实时性
图6 不同方法的系统完整性
由图5的数据可知,3种方法的评价时间随着电力企业干部资质画像的增多而增长,但方法1评价画像准确性所用的时间远远低于方法2和方法3评价画像准确性所用的时间,表明方法1的系统实时性较好。分析图6的数据可知,在多次迭代中方法1的系统完整性系数高于方法2和方法3的系统完整性系数,系统完整性系数较高时,表明系统可以通过多方面对电力企业干部资质画像的准确性进行评价,获得的评价结果较为全面。通过上述测试结果可知,方法1的系统实时性好、完整性好,因为方法1在Labmda架构的基础上结合实时流计算和离线批处理对画像准确性评价系统的整体架构进行设计,提高了系统的实时性和完整性。
将评价精准度作为测试指标,对上述方法进行测试,测试过程中获得的数据用直方图进行表示(见图7)。
图7 不同方法的评价精准度
分析图7可知,方法1的评价精准度在多次迭代中高于方法2和方法3的评价精准度,因为方法1联合实时流计算和离线批处理实现了数据流之间的相互补充,并对画像准确性评价指标进行了去模糊化和无量纲化处理,提高了评价结果的精准度。
4 总结
用户画像通过不同维度的数据刻画用户,为了让人充分了解用户,根据不同的数据来源为用户定义语义标签,用多元化的任务标签描述用户的兴趣偏好和具体行为,因此画像的准确性极其重要,电力企业干部资质画像准确性评价系统设计方法,在Labmda架构的基础上实现电力企业干部资质画像准确性的评价,提高了系统的实时性和完整性,得到的评价结果精准度较高,为电力企业干部资质画像的应用提供了保障。