基于梯度提升树的ALE图特征解释效果分析
2024-03-02闵素芹
闵素芹
(中国传媒大学数据科学与智能媒体学院,北京 100024)
0 引言
集成学习与深度神经网络等非线性算法通常可获得较高的预测精度,但由于其在可解释性或透明性方面普遍存在欠缺,使得医学、金融、法律等领域的决策者持谨慎态度[1—3],黑盒模型的复杂结构难以理解,预测模型的性能随着时间的推移而变差的例子越来越多。IBM 沃森系统被用于辅助医生进行癌症治疗方案的选择,然而在现实应用中被专家批评做出了不安全或不正确的治疗推荐。将重要的决策交给一个欠缺解释性的模型存在明显的危险性,这是机器学习模型尚未在医疗等领域广泛应用的主要原因[4]。Caruana等(2015)[5]提到训练数据得出哮喘可以降低肺炎患者死亡风险的错误结论,事实上死亡风险低的真正原因不是患哮喘,而是该类病人被直接送至重症监护病房采取更为有效积极的治疗,如果采用统计模型依据特征解释就很容易发现该违反常识的现象,但会牺牲预测精度。当将黑盒模型用于招聘、保费定价、犯罪预测等领域的自动化决策时,可能涉及公平性相关的伦理或法律问题,例如简历筛选系统中的性别歧视倾向、再次犯罪概率预测算法对非裔美国人的偏见等。此时,需要保证模型的透明性,即解释各变量对预测结果起怎样的作用。虽然不是所有机器学习算法都必须可解释,在有些情境下只要在实际应用中得到充分验证,即使存在误差或误分类也不会导致严重的后果,但是,对特征效应的科学解释有助于从训练模型中提取可解释的模式、寻找预测效果差的原因、提高对模型预测的信任度等[6]。
机器学习模型的使用日益普遍,理解和解释黑盒模型如何工作的需求也越来越大。学者们提出了多种技术尝试解决黑盒模型特征可解释性问题,其中一类为应用于监督学习算法的与模型无关的特征效应可视化技术,该类方法不局限于特定模型,将预测方法与解释分开,关注输入特征对最终预测结果产生的影响,可应用于任意的通过拟合训练数据用输入特征预测输出值的模型或算法。与模型无关的特征解释方法便于对多种结构不同模型的解释进行比较,可以直接为全新的模型提供模型解释或诊断工具,不需要重新寻找新的模型探索方法。目前黑盒模型中分析各输入特征对预测结果影响应用最广泛的方法是Friedman 提出的偏相关(Partial Dependence,PD)图,它可视化了输入特征对预测值的平均边际效应,前提假设是各输入特征之间不相关,在其他特征固定的情况下评估某特定输入特征所引起的输出特征预测值的变化。在此基础上,个体条件期望(Individual Conditional Expectation,ICE)图扩展了PD 图,针对每条观测绘制不同曲线来显示变量对其预测值的影响,并将其应用于抑郁症临床试验等数据集[7]。ICE的条件是指对个体观测而不是对输入特征的条件,绘制每个估计的条件期望曲线,PD图曲线可视为各条ICE 曲线的平均。Zhao 与Hastie(2021)[8]给出几个说明性的例子,使用PD 图与ICE 图等可视化工具找到了一些潜在的因果关系,研究指出,当出现异常图像时,深入数据寻找虚假关联的根源是重要的。Apley 与Zhu(2020)[9]提出利用累积局部效应(Accumulated Local Effects,ALE)图作为PD 图的补充方法,能够避免当输入特征存在共线性时PD图不太可靠的问题,且可节省时间,并将其应用于共享自行车数据集,分析天气状况、体感温度、风速、时间等特征如何影响自行车租赁数量预测值。Xu与Reich(2021)[10]利用ALE图处理了贝叶斯非参数分位数回归中I-样条基扩展引入黑盒模型前馈神经网络替代张量积后所面临的特征解释性问题。可视化工具在解释在线购物[11]、肺癌和支气管癌死亡率[12]、社交媒体即时通信中的语言特征[13]等问题的机器学习预测模型中发挥了重要作用。
ALE 图克服了输入特征间相关时采用边缘概率密度导致的解释偏差,作为一种与模型无关的事后解释方法,可以与提升树、随机森林、深度神经网络、非参数回归等各种预测模型结合运用,其应用性能有待于进一步研究。在实际应用中,集成学习算法在拟合非线性关系建模中预测性能优良,常用集成方法中的梯度提升树(Gradient Boosted Trees)模型的表现通常优于随机森林[14,15],本文基于梯度提升树分析ALE函数特征解释的稳定性及其与实际情况的一致性。通过理论推导和数据模拟研究输入特征相关性对特征解释科学性的影响;通过多次重复随机划分训练数据和测试数据绘制ALE 图研究其稳定性;通过构造输出特征生成模型研究特征解释的效果,提出将各特征的ALE函数图统一坐标设置作为特征选择的参考依据;并基于实际数据集说明ALE图在预测模型中的特征解释中的具体应用。
1 累积局部效应(ALE)图简介
在机器学习实际应用中不断提高精度、召回率等评价指标的背景下,特征效应的解释对于这些算法的可信度与模型优化起到辅助作用。与特定模型的特征解释方法(如线性模型回归参数的解释)不同,累积局部效应(Accumulated Local Effects,ALE)图是一种与模型无关的事后全局解释方法,不必访问模型内部结构,不局限于特定模型,可方便地在不同模型间灵活切换与比较。
1.1 累积局部效应函数定义与估计方法
目前,机器学习中流行使用的偏相关(PD)函数fj,PD(xj)≡E[f(xj,Xj)]采用边缘概率密度来刻画,而累积局部效应(ALE)函数采用条件概率密度来刻画。将输入特征Xj的ALE函数gj,ALE(·)定义为[9]:
其中,fj(zj,xj)≡∂f(xj,xj)/∂xj表示xj的局部效应,gj,ALE(xj)为xj的累积局部效应。当输入特征之间相关时,选取条件期望更为合理。对gj,ALE(·)进行中心化处理,即fj,ALE(xj)≡gj,ALE(xj)-E[gj,ALE(xj)],使得fj,ALE(·)关于Xj的均值为0。
估计ALE 时,函数值差异计算的是落入局部区间内的观测,把Xj的取值范围划分成K个区间,对每一个x∈(z0j,zKj],nj(k) 为落入第k个区间(zk-1,j,zk,j]的观测数量,式(1)中gj,ALE(xj)的估计为[9]:
减去E[gj,ALE(Xj)]可得到中心化ALE。
从定义可以看出,ALE函数先计算落入邻域内的所有数据右端与左端函数值差异的平均,然后对各邻域从左至右进行累加,将其值绘制成ALE 图进行可视化以呈现当某个输入变量发生变化时引起的输出变量预测值的变化。在实际应用中,基于边缘分布计算输入特征对预测结果的影响,当特征间相关时会造成曲解,比如房价预测中卧室个数与房屋面积存在正相关性,由于PD 图采用边缘分布,因此会出现房屋面积50 平米而卧室数为10 个的违反常识的现象;采用条件概率密度的ALE 图可以避免这种情况发生。
1.2 ALE图与PD图及ICE图的对比
偏相关(PD)图是目前机器学习中常用的特征解释工具,它假设输入特征间不相关,基于边缘分布评估各自变量所引起预测值的变化。个体条件期望(ICE)图则针对每条观测绘制曲线。ALE 图、PD 图和ICE 图都属于与模型无关的事后全局解释方法,本文通过模拟数据直观说明他们的区别。
生成样本量n=5000,(X1,X2)~N(1,2,0.52,1,0.7)的随机数,生成输出特征y=f(x1,x2)=x1x2+ε,ε~N(0,0.12)。由于ICE 图针对每条观测绘制曲线,因此数据过多,会出现堆积现象从而无法辨认各条曲线的走势,为保证呈现效果,取5%的数据进行预测及展示,其余95%的数据用于模型训练,运用梯度提升树进行预测,绘制ALE图、PD图和ICE 图。图1中,PD 图是对每条观测绘制曲线的ICE 图(点线)的平均;ALE图是基于条件概率密度对各邻域特征效应的累加。与平缓的PD 图相比,ALE 图所呈现的特征效应更强,较为符合当相关系数为0.7、y=x1x2时x1对y的影响。
图1 输入特征间相关系数为0.7时的ALE图、PD图及ICE图
2 输入特征相关时ALE图及其特征解释能力
理论上,当输入特征间相关程度较高时,基于条件概率密度的ALE函数与估计结果更能够反映输入特征变化对输出特征的影响,本文以联合高斯分布为例分析输入特征间相关系数引起的ALE函数与PD函数的差异。
2.1 联合高斯分布下特征相关时ALE函数的表现
PD图是黑盒预测模型中分析各特征对预测结果影响非常流行的方法,设预测函数为f(x1,x2)=x1x2,则x1的PD 函数为,中心化后的PD函数为:
可以看到,PD函数与ρ无关。
x1中心化的ALE函数为:
其中,μ1、μ2、、ρ为事先给定的常数(分别为X1与X2的期望、方差及两者间的相关系数)。
可以看到,当X1与X2不相关(ρ=0)时,;但当X1与X2相关(ρ≠0)时,表现为线性关系,无法体现出两者强相关时所引起的二次函数关系,此时运用ALE 图呈现特征X1对预测值的影响更合理。
特别地,如果(X1,X2)~N(0,0,1,1,ρ),那么对预测函数f(x1,x2)=x1x2而言,0。当X1与X2两个特征相关时,呈现的输入特征对输出特征的影响始终为0,此时运用PD 函数估计X1的效应将出现较大的偏差。
设(X1,X2)~N(1,2,0.52,1,ρ),则:
关于输入特征相关程度不同时其对输出特征的影响,PD 函数始终呈现为线性效应。当输入特征的期望不为0时,ρ对ALE 函数的二次项、一次项及常数项皆产生影响;当输入特征的期望为0时,ρ对ALE函数的二次项、常数项产生影响。总之,ρ决定了ALE 的二次函数开口方向与形状,当输入特征间正相关时,对预测值的影响先增后减;当输入特征间负相关时,其影响先减后增,ALE函数包含了相关系数的作用。
2.2 不同相关程度输入特征ALE图的模拟研究
ALE 图采用的条件概率密度理论上能够适用于特征间相关的情况,为便于说明其估计值图像效果,将其与基于边缘概率密度的PD图进行对比。生成(X1,X2)~N(1,2,0.52,1,ρ) 的随机数,y=f(x1,x2)=x1x2+ε,ε~N(0,0.12) ,X1与X2的相关系数ρ分别取0、0.3、0.6 和0.9,生成样本量n=10000 的数据集,随机抽取50%作为训练数据,其余50%作为测试数据。
当ρ取0、0.3、0.6 和0.9 时,ALE 理论函数分别为而PD函数始终为。
运用梯度提升树模型进行预测,训练过程中迭代次数设定为5000,压缩参数取0.01,预测时基于十折交叉验证确定最优迭代次数。当相关系数ρ取0、0.3、0.6和0.9时,测试数据的MSE 分别为0.148、0.015、0.014、0.017,分别对ALE与PD估计值绘制曲线。
下页图2显示,随着相关系数增加,ALE 理论函数曲线逐渐呈现二次函数形式,ALE估计曲线与理论曲线较为一致;PD 理论函数曲线始终为y=2x-2 的直线,PD 估计曲线在双尾处偏离理论值的程度较大。总体来看,在输入特征之间相关或不相关的情境下,ALE估计均能较好地反映输入特征对输出特征预测值的影响。
图2 不同相关系数下ALE理论图与模拟数据估计图
当输入特征之间相互独立时,PD 图与ALE 图都能体现输入特征变化对预测值的影响;但在大多数机器学习算法中不过多强调前提假定,并不针对多重共线性进行处理,若输入特征之间相关程度较高,则ALE理论函数与估计值更符合实际。
3 ALE函数估计稳定性与特征解释效果模拟
3.1 ALE函数估计的稳定性模拟研究
为进一步了解ALE 估计曲线的稳定性,对模拟数据进行训练数据集与测试数据集的50 次随机划分,绘制50 条ALE 折线图(见图3(a))及ALE 理论函数曲线(虚线),绘制50 条PD 折线图(见图3(c))及PD 理论函数曲线(虚线)。另外,基于样本量为200的数据集模拟20次。图3显示,n=200 时的曲线较n=10000 时更加分散,表明数据集样本量对函数曲线的稳定性存在影响。相比于PD 图,ALE 图的估计值与理论值更加一致,且对于不同的测试数据集保持较好的稳定性。另外,相关系数取其他值、重复模拟100 次时的测试数据也得出相同的结论。
图3 样本量不同时x1 的ALE、PD稳定性及其理论函数曲线
综上,从函数的理论表达式与模拟数据结果两个视角对ALE 图与PD 图进行比较,结果表明:当特征间不相关时,ALE图与PD图的结果一致;当输入特征存在较强相关关系时,ALE图由于采用了条件概率所呈现的特征效应曲线,因此更符合实际。理解模型最终预测结果产生的原因有助于对信任度和模型修正提供辅助分析。输入特征间常常存在相关性,此时ALE图表现较好。
3.2 基于模拟数据的ALE图特征解释效果分析
ALE图将所关注的输入特征取值范围划分为K个区间,计算每个区间内的局部效应之后进行累加,函数估计值图像体现出该输入特征变化对输出特征预测值的影响。批量生成J个特征,但仅利用其中p(p<J)个特征通过设定函数生成输出特征,然后利用全部J个特征运用机器学习模型进行预测,分析特征解释技术能否识别出无关特征。
仅使用一部分输入特征生成输出特征,模拟生成数据集,运用梯度提升树进行预测,分析ALE图呈现的特征效应是否与真实函数关系一致。
第1 步:设特征间相关系数为ρ,按如下方法生成10个服从均匀分布的输入特征Xj:
(1)生成独立同分布的随机变量dj~U(-1,1),j=1,2,…,10 ;(2)生成随机变量s~U(-1,1) ;(3)生成变量,t为常数。输入特征Xj(j=1,2,…,10)两两变量间的相关系数:
当t取1时,ρ=0.5;当t取2时,ρ=0.8。
第2 步:10 个输入特征中仅取部分(4 个输入特征)参与生成输出特征Y:
特征间相关系数设置为ρ=0.8,基于X1至X10共10个输入特征运用梯度提升树预测Y,基于十折交叉验证确定最优迭代次数为3450,测试集的MSE 为1.049。绘制各输入特征的累积局部效应图(见下页图4),X5至X10这6个输入特征的ALE效应接近于0,实际上式(8)中这6个特征未参与生成输出特征Y,ALE图能够合理地体现对预测值无作用的特征。随着输入特征取值由负到正逐渐增大,X1至X4的ALE效应分别为:非线性先减后增、非线性先减后增、非线性增加、线性下降,与式(8)所呈现的数据生成过程基本一致。
图4 基于ALE图的特征解释与选择
在特征解释过程中,为便于效应的比较与特征选择,本文将纵轴取值范围统一设置,否则各特征根据自己的取值情况自动选取坐标值取值范围绘制图像仅能呈现该输入特征变化对输出特征预测值的影响。结果表明,ALE图可正确识别出与输出特征无关的输入特征,各输入特征变化所引起的预测值变化趋势符合预先设定的模型,ALE图的特征解释与特征选择效果较好。
3.3 基于实际数据集的ALE图特征解释效果分析
弱解释性的集成算法通常比可解释的线性模型预测能力更强大,若结合事后解释技术,则能够兼顾预测力和可解释性。本文基于一个简单、常用的数据集说明ALE图在特征效应解释中的应用与效果。
在广告预算的销量预测研究中,Advertising(广告)数据集记录了某产品在200 个不同市场的广告费用与销售情况[16],输入特征分别为TV(电视)、radio(广播)和newspaper(报纸)三类媒体的广告投放费用,输出特征为sales(销量)。运用梯度提升树进行预测,通过ALE 图揭示各输入特征对销量预测效应的清晰解释(见图5实线),从而指导客户如何调整广告预算以增加销量。在训练过程中,迭代次数设定为5000,压缩参数取0.01,预测时基于十折交叉验证确定最优迭代次数为2413,MSE 为0.349。可以看出,TV(电视)广告费与radio(广播)广告费分别对sales(销量)存在单调的正向影响,newspaper(报纸)对sales(销量)预测的效应接近于0,这与采用最小二乘线性回归时(MSE 为2.298)的特征效应(见图5 虚线)基本一致,说明各输入特征在梯度提升树算法和线性回归模型中对预测值的影响差不多。
图5 基于ALE图的特征解释与选择(广告预算)
从统计学角度,线性回归模型的拟合优度为0.9012,三个输入特征的回归系数分别为TV(0.047,P 值<0.001)、radio(0.186,P 值<0.001)和newspaper(0.00028,P 值≈0.969),即TV 与radio 对sales 存在显著的正向影响,newspaper不存在显著影响。当线性回归模型的特征效应通过ALE解释(见图5虚线)时,输入特征对预测值的累积局部效应是线性的,趋势与自变量的显著性分析一致。
ALE 图反映采用某算法时输入特征的变化对预测值的影响,走势与形状取决于预测精度及模型的特点。线性回归模型的ALE 图为直线,而梯度提升树的ALE 图则呈现不规则非线性趋势,因为线性回归模型中运用各输入特征的线性组合加常数项预测输出值,输入特征对预测值的影响均为线性,斜率取决于对应的回归系数;而梯度提升树模型的基分类器为回归树,预测原理是将特征空间划分成高维矩形,以落在同一矩形的训练数据输出特征的均值作为预测值,对测试数据中落入该矩形的每条观测取同样的预测值,预测值是非线性的、离散化的,累积局部效应呈现为不规则曲线。
作为一种与模型无关的事后特征解释工具,ALE图适用于各种不同预测算法。对于同一数据集采用不同算法进行预测后,可通过图像比较其输入特征在各算法中所起的作用。ALE 图仅反映输入特征变化在某算法中对预测结果的影响,表现为线性或非线性、规则或不规则的曲线,曲线形状与算法本身有关。ALE 图默认对各特征按函数值自动生成不同的坐标轴刻度与取值范围的图像,将纵轴修改为采用相同的坐标值取值范围后,那些没有预测能力的输入特征的ALE 图像接近一条零值水平线,表明该特征对预测值影响不大,可以考虑从模型中剔除并重新建模,ALE图对特征选择具有参考意义。
4 结束语
在实际应用中,人们通常愿意为提高精度而牺牲可解释性,选择深度神经网络与集成学习等黑盒模型。然而也存在一些案例使得高预测精度学习模型因为不可解释而饱受质疑,从而限制了其在一些场景中的应用。特征解释有助于开发人员理解、调试和优化模型,并对预测结果进行解释,增加模型的信任度。ALE图为有监督学习黑盒模型的特征解释提供了较为科学、有效的可视化方式,它是一种与模型无关的特征解释技术,可直接为全新的模型提供诊断,也可对同一数据集用多种结构不同的模型或算法预测的特征解释进行比较。将ALE图可视化特征解释与机器学习算法相结合,可为通常采用传统统计模型的社会学、经济学、传播学等注重模型解释的领域的研究提供一种新的选择。另外,该方法可在机器学习超参数自动优化问题中发挥作用,以了解哪些超参数影响模型性能,从而为优化策略提供有价值的参考。