APP下载

针对电费回收风险防控分析的用户信用评分模型

2021-12-09田珂马文栋王坤林伟李明亮

微型电脑应用 2021年11期
关键词:人工神经网络逻辑权重

田珂, 马文栋, 王坤, 林伟, 李明亮

(1.国网河南省电力公司, 河南 郑州 450000;2.国网河南省电力公司电力科学研究院 客户服务中心, 河南 郑州 450000;3.河南九域腾龙信息工程有限公司, 河南 郑州 450000)

0 引言

收取电费是电力企业最重要的工作。按时计费不仅可以为税收提供资金,以确保国家的财政收入,而且还可以为电力企业的可持续发展提供必要资金。随着经济社会的发展,供需形势发生了很大变化,电费回收风险日益提高,如何评估该风险已经成为电力企业的重要问题。借鉴金融信贷机构的做法,对电力用户进行信用评分,有助于电力企业识别高风险用户群体,为降低电费回收风险提供数据支持。信用评分目标是区分优质用户和不良用户。为了提高电力用户信用评分的效率,就需要电力企业利用大数据技术实施自动信用评分系统。

本研究的目的是描述使用人工神经网络(ANN)模型和逻辑回归(LR)模型作为预测电力用户信用评分模型。已有研究比较了神经网络对多元逻辑回归的用户信用预测能力。一些研究成果指出了监督学习的人工神经网络相对于线性或逻辑回归的优势[1]。但是还没有针对这2种方法的性能进行对比分析的研究。为此本研究介绍了神经网络的概念性信息,并比较了神经网络和逻辑回归的性能,其中包括技术描述、参数变量选择和模型评估。最后通过电力用户信用评分试验对比了2种方法在电力用户信用数据分析方面的性能。

1 逻辑回归模型

回归模型通常用于研究多个自变量和因变量之间的关系,并确定与因变量相关的重要自变量。该模型还能够描述自变量对因变量影响的大小和方向[2]。有两种常见的回归模型类别:线性回归模型和逻辑回归模型。选择线性回归还是逻辑回归取决于因变量的度量范围。如果因变量是二进制或二分类数据,则逻辑回归可以提供更有意义的结果[3]。

与大多数其他预测建模方法一样,逻辑回归使用一组预测器特征来预测特定结果(目标)的可能性。 事件概率的对数变换的等式如式(1)。

Logit(pi)=β0+β1x1+β2x2+…+βkxk

(1)

其中,p为给定输入的“事件”的后验概率;x为输入变量;β0为回归线的截距;βk为系数。Logit变换是概率的对数,用于对后验概率进行线性化并将模型中的估计概率结果限制在0到1之间。

1.1 变量选择

通过变量选择可以减少模型中独立变量的数量,从而实现降低模型过度拟合的风险。通过检查伪R平方和分类结果的准确性[4]来检验模型统计信息的拟合度。因此模型的评估指标需要满足简约的要求。简约意味着如果将一些冗余变量排除在模型之外,现有的独立变量将足以解释结果变量。似然比卡方、Akaike信息准则(AIC)等拟合统计量都可用于变量选择过程中模型拟合的测度[5]。

1.2 模型评估

如前所述,可以基于模型的统计数据和预测分类的准确性来评估顺序逻辑模型的性能[6]。模型拟合统计量基于每次出现的预期和观察频率来测量模型拟合。另外,为了测量独立变量和因变量之间的强度关联,还可以使用取决于似然比的模型统计信息,例如伪R平方。在序数回归模型中解释伪R平方的方式与在线性回归模型中解释R平方的方式相似。伪R平方是模型在解释数据变化或结果变量中自变量所占比例变化方面的性能指标。

2 人工神经网络模型

神经网络是适用于分析复杂的非线性关系的自适应模型。神经网络由一组模拟神经元的处理单元(节点)组成。节点通过一组类似于突触连接的权重互连到其他节点。这些连接允许信号并行和串行地通过网络传输。突触权重被解释为跨节点的连接强度。节点是基于神经元模型的简单计算元素,当达到一定的刺激水平时,神经元模型会产生动作电位。将到达节点的所有传入信号的加权总和值与阈值进行比较。当超过阈值刺激时,节点将触发;否则,节点保持为零。

通常神经网络由三层组成:输入层、输出层和隐藏层,如图1所示。

图1的第一层加载了代表独立(解释性)变量的一个或多个神经元(节点)。而输出层由一个或多个依存(结果)变量的神经元(节点)组成。输出层表示模型的分类决策,其中每个决策类有一个节点。模型中的隐藏节点间接连接输入层和输出层。通常,一个或多个隐藏层位于输入层和输出层之间。

图1 神经网络结构

2.1 参数

人工神经网络模型的核心元素是位于隐藏层中的神经元,在图1中显示为H1、H2、…、Hn。每个神经元通过网络中设置的学习算法确定每个单独输入的最佳连接权重w=(w1、…、wn)。然后,神经元使用求和计算将来自每个输入的加权值聚合为单个值。下一步是通过对总加权值应用激活函数来计算输出[7]。在人工神经网络模型中,特定的激活函数用于连接模型中的两层。模型中使用的激活函数的类型取决于输出层中的结果范围。人工神经网络模型中最常用的激活函数是S形激活函数,类似于Logistic回归模型中使用的logit函数。S形激活函数如式(2)。

(2)

其中,η为阈值,x为加权值的总和。

分析神经网络时要考虑的一个关键问题是过度训练的可能性。过度训练意味着网络具有太多的迭代过程,可能会导致模型过度拟合。该模型产生的结果由于特定数据集中的数据存储而无法推广到整个用户群体。本研究中防止模型过度拟合的一个方法是采用应用交叉验证程序[8]。此过程将数据拆分为一定数量的子样本。一些子样本用作构建神经网络模型的训练数据集,而其他子样本则用于验证模型的性能。防止过度训练中发挥重要作用的另一个因素是设置终止网络训练的条件。终止条件取决于为网络选择的体系结构和训练算法。对于监督神经网络模型,最广泛的学习算法是反向传播算法[9]。反向传播算法中使用的参数包括动量、学习率和权重衰减系数[10]。

权重衰减系数用作权重降低因子以形成平滑的决策边界,权重衰减通常在交叉验证阶段完成[11]。学习率决定了基于当前迭代的误差在网络中所占的百分比,而动量则决定了基于先前迭代的网络中的误差所占的百分比。动量、学习率和权重衰减系数较大幅度下降能够加快网络快速收敛,但是较大的下降幅度也会导致网络无法收敛至全局最优[12]。

2.2 变量选择

与其他统计模型构建过程一样,人工神经网络模型的性能可能会受到输入层中使用的变量数量的影响。另外,可以将人工神经网络模型与其他统计模型(例如回归模型)结合使用,以减少输入变量的数量。 减少输入变量数量的另一种可能性是通过检查由人工神经网络模型得出的连接权重[13]。具有低连接权重的变量应该被去除。然后,人工神经网络模型需要在迭代过程中逐步完成去除低权重变量和评估模型性能的计算操作。

2.3 模型评估

评估人工神经网络模型质量的潜在标准之一是识别性能,这是衡量数据集中两个类别的分离程度的一种度量。评估人工神经网络模型中的识别性能的方法是敏感性、特异性、准确性和ROC曲线。模型的灵敏度指出预测模型的真实阳性,而1-特异性表示假阳性率。通过针对各种阈值概率绘制针对1-特异性的灵敏度,可以得出ROC来评估人工神经网络模型的性能。

3 模型对比

尽管人工神经网络模型和逻辑回归模型的结构和表达方式迥异,但是这两个模型背后的思想基本相同。例如人工神经网络模型的“连接权重”和逻辑回归模型“系数”的作用类似。此外,人工神经网络模型根据嵌入到网络中的激活函数来调整连接权重,而逻辑回归模型则使用其链接函数来估计其系数。人工神经网络模型中应用的学习和训练过程类似于逻辑回归模型中的参数估计过程。另一个相似之处与模型中使用的变量数量有关。逻辑回归和人工神经网络模型构造遵从简约原则,即只要模型能够充分说明自变量对结果变量的影响,则在模型中使用较少的自变量并排除不必要的变量[14]。

相对于逻辑回归模型,人工神经网络模型的不同之处在于可以在输入变量之间存在复杂非线性关系的前提下表现出强大的学习能力。虽然逻辑回归模型在函数中包含了指数项的前提下也具有类似的处理自变量和因变量之间的非线性关系的能力,但是该模型需要先验已知的非线性关系形式。人工神经网络模型不需要先验模型规范,因为网络具有基于数据模式学习层之间关系的能力。因此,人工神经网络模型能够提供更多的灵活性和更高的鲁棒性。

相对于人工神经网络模型,逻辑回归模型具有更好地解释输出变量和输入变量之间关系的性能。而人工神经网络模型无法揭示输出变量与输入变量之间的变化关系。因此,逻辑回归模型能够更好支持对输入变量的敏感性分析,能够更直观地确定模型中每个输入变量对输出变量的影响程度。

人工神经网络模型是基于迭代过程构建的,因此该模型能够学习输入变量和输出变量之间复杂的非线性关系。人工神经网络模型中的连接权重比逻辑回归模型中的系数更加抽象、更难解释。人工神经网络模型中隐藏层的数量越多,则神经节点之间连接权重和相互依赖性的关系越复杂。由此可见,人工神经网络模型更适合作为预测分类的统计性模型,而不是解释性的模型。而逻辑回归模型中的模型参数可以较容易地对应某个预测变量的权重,从而可以对该参数进行统计测试以检查每个参数对模型的重要性。因此逻辑回归模型的优点在于模型参数的可解释性和易用性,而人工神经网络的优点在于强大的变量之间非线性关系的处理能力。

人工神经网络还存在一个问题是设计和优化网络拓扑需要一个非常复杂的实验过程。这是因为隐藏层中层数和神经元数量、不同的激活函数和初始权重值可能会影响最终分类结果。此外,人工神经网络还需要大量的训练样本和较长的学习时间。

4 实验验证

本研究使用了2017年1月至2018年12月来自郑州电力公司的697个低压电力用户群体的真实数据。实验数据集包含客户信息,例如个人特征、可支配收入、职业、就业时间、房屋所有权、与宏观经济背景有关的变量以及是否存在以往延迟缴纳电费行为。实验的目的是预测3个月内迟交电费的可能性。

逻辑回归模型和人工神经网络模型用于分析数据。两种模型都使用SAS Enterprise Miner 6.2进行了分析。实验将数据分为训练数据集(60%)和验证数据集(40%)。本实验使用错误分类率来衡量所构建的两个模型的性能。错误分类率是所有类别的总错误分类与特定分类问题中样本总数的比率。较低的误分类率表示较好的分类性能。SAS Enterprise Miner 6.2中构建的模型流程如图2所示。

图2 模型流程

使用logit函数构建逻辑回归模型,并使用逐步聚合方法构建2个逻辑回归模型。一个模型前面有变量选择以减少模型中输入变量的数量,而另一个模型则没有。本实验应用了基于R平方准则的变量选择。将要包含在模型中的输入变量的最小R平方设置为0.15。根据变量选择结果,14个项目中只有9个被用作模型中的输入变量。

本实验建立的人工神经网络模型将多层感知器体系结构与一个隐藏层和反向传播学习算法结合使用。权重衰减系数设定为0.01,学习速度和动量设定为0.1和0.01。建立了两个神经网络模型。一种是变量选择,另一种则不是。变量选择也基于R平方准则。每种模型的误分类率如表1所示。

表1 每个模型的分类错误率

表1中显示的结果表明,有和没有变量选择的2种人工神经网络模型都比验证数据集中的逻辑回归模型具有更低的误分类率。另一方面,在训练数据集中,这2种逻辑回归模型的误分类率均低于人工神经网络模型。此外,表1还显示了人工神经网络模型的ROC指数较高。一个好的模型是具有相对稳定的错误分类率(较高的错误分类率会导致更多训练和验证的迭代次数)以及较高的ROC指数的模型。因此,在评价指标下,人工神经网络模型是一个更好的模型。结果还表明变量选择降低了错误分类率,逻辑模型的降低率比人工神经网络模型中的降低率更高。具有变量选择的逻辑回归模型的输出和具有变量选择的人工神经网络模型所产生的前4个输入变量的权重,如表2、表3所示。

表2 逻辑回归模型的权重估计

表3 人工神经网络模型的权重估计

表2和表3指出逻辑回归和人工神经网络模型之间没有主要差异。根据这2种模型,年龄是预测违约概率最重要的变量。逻辑回归模型的下一个重要变量是学历,而人工神经网络模型的第二重要的变量是待缴电费金额。

人工神经网络、具有变量选择的人工神经网络和逻辑回归的ROC曲线的比较如图3所示。

图3 ROC曲线

通过查看ROC曲线,无法准确预测哪个模型是好的,因为三条ROC曲线下的面积都只有微小的变化。由表1可知,具有变量选择的人工神经网络具有较高的ROC指数。因此,通过使用误分类率和ROC评价指标,可以确定具有变量选择的人工神经网络模型是更好的选择。

5 总结

在本研究所述的研究工作中对逻辑回归和人工神经网络(ANN)在电力用户信用评分预测中的应用进行了阐述,概述了这2种模型的共同原理及其区别,展示了逻辑回归和ANN模型的构建方法以及构建过程中应考虑的细节以及如何对其进行评估。

本研究表明,神经网络模型或逻辑回归模型的构建,没有特定的参数和规则可以遵循,并且每个模型都有其优点和缺点,因此在使用这2种模型对电力用户信用进行评估时需要反复实验以确定模型的变量和参数,以取得灵活性和过度拟合之间的平衡。

猜你喜欢

人工神经网络逻辑权重
刑事印证证明准确达成的逻辑反思
逻辑
创新的逻辑
权重常思“浮名轻”
利用人工神经网络快速计算木星系磁坐标
人工神经网络实现简单字母的识别
为党督政勤履职 代民行权重担当
女人买买买的神逻辑
基于改进人工神经网络的航天器电信号分类方法
模糊人工神经网络在工程建设项目后评价中的运用