基于熵权法与改进的PCA聚类算法的电力客户价值分类与应用
2017-04-14皇甫汉聪肖招娣余永忠
皇甫汉聪 肖招娣 余永忠
摘 要: 对电力客户进行价值分析,有利于全面了解客户,为电力客户提供差异化服务。同时也可以提高客户满意度,实现供电企业、客户双赢的局面。运用数据挖掘方法对电力客户价值分类,构建电力客户价值评价指标体系,这些指标涵盖客户的用电行为、缴费行为、舆情和行业发展状况等,运用熵权法计算指标的权重,提出一种改进的PCA聚类算法对电力客户价值进行分类,为供电企业制定差异化服务策略提供辅助支撑。
关键词: 电力客户价值; 熵权法; 改进的PCA聚类算法; 数据挖掘
中图分类号: TN911.1?34 文献标识码: A 文章编号: 1004?373X(2017)07?0183?04
Power consumer value classification and application based on entropy weight method
and improved PCA clustering algorithm
HUANGFU Hancong, XIAO Zhaodi, YU Yongzhong
(Foshan Power Supply Bureau, Guangdong Power Grid Co., Ltd., Foshan 528000, China)
Abstract: The analysis of the power consumer value helps the power enterprises to understand their consumers comprehensively, provides the differentiated services for power consumers, and can improve the consumer satisfaction to benefit both of the power supply enterprises and consumers. The data mining method is used to classify the power customer value, and construct the evaluation index system of the power consumer value. The indexes involve the consumer′s power consumption behavior, paying behavior, public feelings and industrial development status. The weights of the indexes are calculated with the entropy weight method. A new improved PCA clustering algorithm is proposed to classify the power consumer value, which provides the ancillary support for the power enterprises to formulate the differentiated services strategy.
Keywords: power consumer value; entropy weight method; improved PCA clustering algorithm; data mining
0 引 言
經济的发展推动着我国电力事业的快速发展,随着电力市场化步伐的加快,供电企业面临着越来越激烈的竞争,电力客户不再完全是被动接受者,客户的作用越来越大,客户价值的影响也越来越大。然而,电力客户群体广泛,不同客户对于服务内容、方式、深度的需求存在巨大的差异。因此,供电企业迫切需要对客户进行科学的分析,根据客户的综合价值对其进行分类,针对不同的客户群体制定不同的营销策略,为客户提供精益化的服务。
迄今为止,客户价值评价分析的主要方法有模糊层次分析法[1]、结合利益细分法和K?均值的混合方法[2]、结合熵权法与区间数概率分布的混合方法[3]、支持向量机法[4]等。在有些情况下这些算法能取得不错的效果,然而依然存在一些不足之处,如模糊层次分析法包含较强的主观因素,支持向量机法不能确定数据中哪些知识是冗余的,K?均值因随机选取初始中心点会导致结果不稳定。
鉴于上述算法的不足,本文构建了电力客户价值评价的指标体系。提出一种对电力客户价值分类的新方法,即基于熵权法和改进的PCA聚类算法的混合方法,熵权法用于计算各个指标的权重,改进的PCA聚类算法用于电力客户价值分类。
1 电力客户价值评价指标体系
在遵循完整性、可比性、易获取性、非重叠性等原则的基础上,结合电力行业的现状和客户价值理论[5?6],从电力客户的收入贡献、风险性、成长性等三个方面选取了11个指标,这11个指标从不同角度反映电力客户的价值,并初步构成了电力客户价值评价指标体系,如表1所示,各指标计算说明见表2。
2 权重和聚类方法
2.1 权重的计算方法
权重的计算方法有专家评分法、层次分析法[7]、主成分分析法、熵权法等。专家评分法主观性强;层次分析法具有多层次、多指标、定量定性相结合的特点,但它要求同层次指标间相互独立以及跨层次指标间不具备支配关系[5]。主成分分析法是一种客观性较强的方法,主要是依据指标数据的方差计算权重,不能真实反应指标对综合评价的贡献。鉴于以上方法的一些不足,本文采用熵权法计算指标权重,熵权法精度较高且客观性较强,适用于任何需要确定权重的地方。
熵权法的计算方法如下:
步骤1:将各个指标的数据进行标准化处理。
假设给定了[k]个指标[X1,X2,…,Xk,]其中[Xi=x1,x2,…,xn]。假设对各指标数据标准化后的值为[Y1,Y2,…,Yk。]
步骤2:求各指标的信息熵。
计算各个指标的信息熵[Ej=-1lnni=1npijlnpij]。其中[pij=Yiji=1nYij,]如果[pij=0,]则定义[limpij→0pijlnpij=0]。
步骤3:确定各指标权重。
根据各指标的信息熵计算各指标的权重[Wi=1-Eik-Ei,i=1,2,…,k]。
2.2 聚类算法
聚类分析指的是根据不同数据对象之间的差异,将数据集合分组成为由类似的对象组成的多个类或簇的分析过程。聚类算法主要有层次聚类算法和划分类的聚类算法等。层次聚类算法是将所有样本点自底向上合并成一棵树或者自顶向下分裂成一棵树的过程,但是层次聚类算法有一个缺点就是一旦一个凝聚或是分割形成,这个操作永远不会被改变了,且层次聚类算法计算复杂。划分的聚类算法中最经典的是K?means聚类算法,计算简单高效,但是,它对初始聚类中心敏感。此外,随机选取初始聚类中心会导致聚类结果不稳定。因此,学者们提出了许多改进的聚类算法。
初始聚类中心算法[8]的实现过程如下:
步骤1:数据集[X]有[n]个数据对象,聚类的类数为[k],计算其中最小的数据对象[min(X)];
步骤2:计算[X]中所有数据对象到[min(X)]的距离[Dis1,Dis2,…,Dis n,]根据此距离升序排列所有数据对象;
步骤3:将第[1+(i-1)(n-2)(k-1),i=1,2,…,k]项数据对象设为对应类的初始成员;
步骤4:对尚未分配的数据对象,计算其与每个类中初始成员的距离,同时将数据对象归入到距离最小的类中;
步骤5:计算每个类中所有数据对象的平均值,即为初始中心点。
上述初始聚类中心算法避免了随机的步骤,使得聚类结果更加可靠,同时计算得出的初始聚类中心点分布均匀,更能代表原始数据的整体分布,可适当的减少迭代次数。结合改进的初始聚类中心算法和K?means的思想,得出了改进的K?means聚类算法,记为算法1,该算法的实现步骤如下:
步骤1:应用初始聚类中心算法选取[K]个初始聚类中心。
步骤2:计算所有数据对象与聚类中心的距离,同时将数据对象分配到最近的类中。
步骤3:重新计算每个聚类中所有数据对象的平均值,作为新的聚类中心。
步骤4:循环步骤2,步骤3,直到前后两次迭代得到的每个聚类中心点相同为止。
虽然改进的K?means聚类算法具有计算简单、高效,聚类结果稳定等优点,但是处理大规模高维度数据时相似度(距离)的计算需要耗费大量的时间,结合主成分分析[9]即PCA的思想与算法1,本文提出了改进的PCA聚类算法,算法步骤如下:
步骤1:设原始数据矩阵为[X∈Rn×d;]
步骤2:令[B∈Rd×d,]且[B=XX;]
步骤3:计算矩阵[B]的特征值和特征向量,并取出最大特征值对应的特征向量[V;]
步骤4:令[C=X?V,]则[C∈Rn×1;]
步骤5:应用算法1对1维列向量[C]进行聚类,然后再对应到原始数据,得出原始数据的聚类结果,即原始数据对象[Xi]被划分到第[j]类中,当且仅当向量[C]的第[i]行被划分到第[j]类。
该算法既具有PCA主成分分析降维的特点, 又避免了K?means算法聚类结果不稳定的缺点, 同时又具有K?means算法的高效性与简洁性等优点, 因此该算法适合处理大规模高维度数据。
3 模型应用
为了说明本文所提出的改进PCA聚类算法的可行性,抽取了一些电力客户的样本数据,应用Matlab R2012b软件对其编程。
为确保样本选取的公平性,首先需保证指标体系中的各个指标都要对应选取一定量的样本,其次,随机抽取样本。根据此样本数据选取方法抽取8个样本客户,分别记为客户1、客户2、…、客户8,客户指标数据如表3所示。
指标数据标准化处理说明:
(1) 指标[X1,X2,X3,X7]属于高优指标,即指标的值越大越好,这两个指标标准化处理的方法为:
[(原值-最小值)(最大值-最小值)×100] (1)
(2) 除去上述4个指标之外,其他指标均属于低优指标,即指标的值越小越好,这些指标标准化处理的方法为:
[(最大值-原值)(最大值-最小值)×100] (2)
根据2.1节中权重的计算方法,得出各指标的权重如表4所示。对客户指标数据标准化处理,结合表4中的各个指标的权重,加权求和得出每个客户的综合得分,应用改进的PCA聚类算法对客户进行分类,如表5所示。根据综合得分和改进的PCA聚类算法的分类结果可知本文所提算法的可行性。
为了说明改进的PCA聚类算法的有效性,在相同数据集的情况下,把它同算法1进行比较。其中改进的PCA聚类算法的运行时间是0.010 158 s,算法1的运行时间是0.022 612 s,改进的PCA聚类算法在运行效率上要优于算法1,运行结果相同。
4 结 论
电力客户综合价值评价体系的建立为供电企业制定营销策略提供依据,是客户关系管理的基础。首先,结合客户价值理论和电力行业的特殊性建立电力客户价值评价指标体系,指标体系涵盖客户用电行为、缴费行为、舆情和行业发展动态;其次,提出了一种行之有效的对电力客户价值评价的混合方法,即结合熵權法和改进的PCA聚类算法,该算法能够根据数据自身的特征计算各指标的权重并科学的确定分类标准。熵权法是一种精度较高,客观性较强的计算权重的方法。改进的PCA聚类算法既具有主成分分析降维的优点,同时避免了因随机选取初始中心点导致的聚类结果不稳定这一缺陷,也具有K?means聚类算法简洁高效等优点,因此该算法适合处理大规模高维度数据;最后,通过实例验证了该方法的有效性,且该技术在某供电企业得到了深入应用,并取得了良好效果。
参考文献
[1] 王松涛.市场条件下的电力客户价值分析体系[J].电网技术,2010,34(2):155?158.
[2] 曾鸣,杨素萍,杨鹏举,等.社会节能环境下电力客户价值评估研究[J].华东电力,2008,36(6):15?19.
[3] 李金超,李金颖,牛东晓,等.考虑区间数概率分布的电力客户价值综合评价[J].华北电力大学学报,2005,32(4):56?58.
[4] 李俊飞.集成粗糙集和支持向量机的电力客户价值评价[D].保定:华北电力大学,2007.
[5] 赵晓波.供电企业大客户管理的研究[D].南京:南京理工大学,2005.
[6] 靳方明.基于客户价值分析的电力客户服务管理研究[D].北京:华北电力大学,2007.
[7] 沈利香,曹国.基于网络层次分析法的商业银行网络安全评估模型[J].计算机应用,2012,32(2):480?484.
[8] 董骐瑞. K?均值聚类算法的改进与实现[D].吉林:吉林大学,2015.
[9] 刘倩.基于主成分聚类分析的中小企业成长性研究[J].企业管理,2011,16(4):186?188.