融合SBM 的偏最小二乘辅助分析
2014-12-23郝竹林杜建强王国龙余日跃熊旺平
郝竹林,杜建强+,王国龙,余日跃,聂 斌,熊旺平
(1.江西中医药大学 计算机学院,江西 南昌330004;2.江西中医药大学 药学院,江西 南昌330004)
0 引 言
多元回归内部采用最小二乘原理且数据样本须满足高斯-马尔科夫假设条件。然而当回归数据的样本点个数少于变量个数 (即维数)或自变量存在严重多重共线性时,则不满足高斯-马尔科夫假设条件[1],此时多元回归分析失效。为此,Krishnan[2]将主成分分析和典型相关分析与多元回归分析进行结合的偏最小二乘回归 (partial least square,PLS)方法进行了推广和拓展;郭建校[3]对偏最小二乘在消除多重共线性中的作用进行了具体分析,验证PLS可更好地消除数据样本中多重共线性对回归建模可靠性造成的影响,且详细阐述了偏最小二乘中的辅助分析方法,并指出其中的T2椭圆图辅助分析方法可用来判断数据样本点的重要性以及识别特异点。但当主成分维数增加到三维以上空间时,T2椭圆图就无法识别出哪些样本点是重要的,此时仅仅依靠偏最小二乘方法本身拥有的辅助分析技术和特性,无法完全识别到 “错误的数据”。据此,基于对多维空间分析中存在的局限性和 “错误数据得到错误模型”的问题,Du Juan[4]对SBM 模型进行了整体剖析和拓展,验证了将样本作为决策单元来计算其效率值以找出特异样本的可行性;马生昀等[5]将多元回归应用到经济学理论数据包络分析 (DEA)的BCC 模型多指标降维中,取得了较好成效,然而传统DEA 模型 (CCR 模型和BCC 模型等)没有考虑到数据样本中投入产出的松弛性,因而不能完全反映出数据特性。鉴于此,提出将SBM 算法引入到偏最小二乘辅助分析中,进一步优化偏最小二乘回归建模方法。
1 SBM 模型
由CharnesA,CooperWW 和RhodesE[6]提出的数据包络分析 (data envelopment analysis,DEA)可用来评价具有多个输入和多个输出的决策单元 (decision making unit,DMU)之间的相对有效性。传统的DEA 模型 (如CCR 模型和BCC模型等)确保了相对有效性边界或无差异曲线的凸性,但是有可能导致投入要素的 “饱和” (congestion)或 “松弛”(slacks)[7]。当投入产出要素增加并且考虑相应松弛情况时,对整体数据样本的各个决策单元进行相对有效性评价就变得更加困难。Kaoru Tone提出基于松弛变量的效率测度的非径向DEA 模型即 (slacks based measure)SBM模型[8],有效解决了BCC模型和CCR模型中存在的缺陷,是一种解决松弛问题的有效方法。
假设n 个决策单元DMU,每个DMU 有s1种期望输出、s2种非期望输出和m 种投入,则SBM 模型表示如下
式中:ρ——效率评价的有效值,s-、sg和sb——投入、期望产出和非期望产出的松弛变量,x0、yg0和yb0——被评价决策单元DMU0的投入、期望产出和非期望产出。对于特定的被评价决策单元,有如下定义1。
定义1 ①当且仅当ρ=1即sg=0、sb=0和s-=0时是有效的;②当ρ<1时,则被评价决策单元是弱有效的但接近有效的,存在投入产出改进的必要性。
为方便使用Matlab 进行编程计算,采用Charnes,Cooper变换[9],将式 (1)转换为一个等价的线性规划
2 SBM 优化偏最小二乘回归
SBM 方法不需要对样本数据进行任何预处理[10],故可直接用其对原始样本数据集进行相对有效性评价。根据评价效率值筛选出有效样本,然后进行偏最小二乘回归建模,具体分析步骤如下:
(1)设样本数据集S =(s1,s2,…,sm),m 为样本点个数,S 为样本向量构成的数据矩阵,样本数据集的自变量、因变量分别为(x1,x2,…,xp)和(y1,y2,…yr,…,yq)。根据SBM 模型,将样本数据集的m 个样本观测点(s1,s2,…,sm)作为决策单元DMU,不期望增加的因变量(y1,y2,…,yr)作为非期望产出指标,期望增加的因变量(yr+1,yr+2,…,yq)作为期望产出指标,所有自变量(x1,x2,…,xp)作为投入指标,采用线性规划式 (2)进行模型求解,计算该决策单元DMU 的效率值ρ。对于单个样本点,当其效率值为1时称为有效样本点即SBM 效率值的阈值=1作为标准,据此,将最终选取的样本数据集进行偏最小二乘回归分析,其具体SBM 算法框架如下:
(2)根据步骤 (1)筛选得到有效样本数据集后,将其进行标准化预处理,得到处理后的数据矩阵:自变量X 为n×p 矩阵,X =(x1,…,xi,…,xp),因变量Y 为n×q矩阵,Y =(y1,…,yj,…,yq),其中n为样本点个数,p 为自变量个数,q为因变量个数。
(3)记t1为X 的第1个成分,u1为Y 的第1个成分,有t1=Xw1,u1=Yv1,其中w1为X 的第1个轴,v1为Y的第1个轴,轴均为单位列向量即 v1=1, w1=1。t1和u1须满足以下2个条件[11]:
变异信息最大:Var(t1)→max,Var(u1)→max
相关程度最大:r(t1,u1)→max
综合可得协方差最大
再根据拉格朗日算法推导,可得到
其中,X1、Y1为X、Y 的残差信息矩阵,回归系数向量p1和r1分别为
(5)如此循环利用剩余残差信息矩阵不断迭代计算,假设X 的秩为m(即若有A 个主成分,A≤r(X)=m),迭代后有
式中:t1,t2,…,tm为自变量{x1,x2,…,xp}的线性组合,其中Xm、Ym分别为X 、Y 的第m 个残差信息矩阵。
(7)在PLS过程中,由于后续主成分已经不可以为解释Y 而提供更有意义的信息,因此,采取更多后续主成分只会破坏回归模型的统计趋势,从而引导错误结论。针对PLS并不需要构造出全部主成分进行回归建模,并且根据样本数据集规模,对小样本数据集采用舍一交叉有效性检验[12]进行有效主成分个数的判定,主成分tm的交叉有效性计算公式如下
3 实验分析
为对比采用SBM 算法优化偏最小二乘回归前后的模型效果,对中药实验数据和刀具磨损实验数据分别进行实验分析。
参见江西中医药大学现代中药制剂教育部重点实验室所做的大承气汤及其成分对梗阻大鼠肠血流量和周长的影响的实验数据见表1,表中最左栏是实验方种类,除原方外,各实验方混料均采用均匀设计配方,各方用量参考原方临床用量进行折算。x1~x9为大黄的成分含量,x10~x12为厚朴的成分含量。y1为梗阻大鼠距结扎1cm 处小肠的周长 (cm),y2为大鼠回肠末段血管的血流量,据此,共有12个化学成分的自变量和2个因变量。根据所设计的中医药实验数据方案可知,y 与x 呈线性关系且2个因变量被划入期望产出,再通过Matlab编程计算各组样本观测的效率值(见表1)。由此,方3 和方7 的对应样本观测效率值低于1,将其剔除。然后将剩余8个样本采用偏最小二乘线性回归建模,由于该样本数据为小样本量,故采用舍一交叉检验,确定主成分应提取2个,得到SBM 算法优化后的偏最小二乘回归方程 (见式 (9))。这里由于方3和方7是通过SBM 算法判定其为 “噪音”,但实验均是在同条件下进行的,故在判断SBM 算法优化后的PLS模型的可靠性以及计算预测值时,应将方3和方7包含在内
再将未进行SBM 算法优化的表1所有10个样本点直接进行偏最小二乘回归建模。同上,根据舍一交叉检验,确定主成分应提取2个。为与上述实验比较,分别求出相应2个因变量的预测值、预测值的相对误差、所有样本预测值的平均相对误差,结果见表2。
再以刀具磨损实验[13]数据 (见表3)进行实验分析,采用相同实验方案,将效率值低于1的样本4、样本6和样本7剔除,根据刀具磨损实验研究可知,y与x1、x2、x3、x4、x5之间是一种非线性指数关系,将剔除后的样本数据进行对数变换,再偏最小二乘回归建模,根据舍一交叉检验可知,确定主成分应提取5 个,得到方程后再反对数变换,得到y 与x 的关系方程 (见式 (10))。再将表3的所有10个样本点直接进行偏最小二乘回归建模,同上,确定主成分应提取3个,最后计算因变量的预测值、预测值的相对误差和平均相对误差,二者进行对比,结果见表4
表1 大承气汤及其成分对梗阻大鼠肠血流量和周长的影响
表2 中药实验数据的SBM 优化PLS和直接PLS回归结果对比
由表2和表4可知,以平均相对误差作为模型可靠性标准,针对中药实验数据的2个因变量,计算出SBM 优化的偏最小二乘回归平均相对误差为5.0844%和8.7485%,低于样本数据直接进行偏最小二乘回归建模的5.5825%和9.2810%;针对刀具磨损实验数据的1个因变量,SBM 优化后的平均相对误差为2.6984%,低于直接偏最小二乘回归建模的3.3526%。
4 结束语
通过上述分析,可得到以下结论:①提出使用SBM 优化偏最小二乘回归建模,提高了建模精度。根据SBM 计算样本点效率值和分析其特点,可以更好地剔除 “错误的数据”,得到更可靠的模型。②通过对比分析可得到,SBM优化的PLS回归与直接PLS相比,其平均相对误差得到降低。③不同的DEA 经济数学模型对样本数据的评价有不同的特性和影响,可采用不同的DEA 模型,从而减少无效数据对回归建模的影响。④可以将不同的DEA 经济数学模型引入到中医药实验数据的回归建模上,为中医药事业提供更好的技术支撑。
表3 刀具磨损实验样本数据
表4 刀具磨损实验数据SBM 优化PLS和直接PLS回归结果对比
[1]XU Qun.The research on non-linear regression analysis methods[D].Hefei:Hefei University of Technology,2009 (in Chinese). [徐群.非线性回归分析的方法研究 [D].合肥:合肥工业大学,2009.]
[2]Krishnan A,Williams L J,Mcintosh A R,et al.Partial least squares(PLS)methods for neuroimaging:A tutorial and review [J].NeuroImage,2011,56 (2):455-475.
[3]GUO Jianxiao.Study on improved high-dimension and nonlinear partial least-squares regression method and applications[D].Tianjin:Tianjin University,2010 (in Chinese).[郭建校.改进的高维非线性PLS回归方法及应用研究 [D].天津:天津大学,2010.]
[4]Du J,Liang L,Zhu J.A slacks-based measure of super-efficiency in data envelopment analysis:a comment[J].European Journal of Operational Research,2010,204 (3):694-697.
[5]MA Shengjun,WANG Dongmei,MA Zhanxin,et al.Application of multivariate regression to reduce the dimension of the index in DEA method [J].Journal of Inner Mongolia Agricultural University (Natural Science Edition),2012,33 (1):231-235 (in Chinese).[马生昀,王冬梅,马占新,等.多元回归在DEA 方法指标降维中的应用 [J].内蒙古农业大学学报 (自然科学版),2012,33 (1):231-235.]
[6]Cooper W W.Handbook on data envelopment analysis [M].Springer US,2011.
[7]WEI Quanling.Data envelopment analysis model to evaluate the relative effectiveness——DEA and network DEA [M].Beijing:China Renmin University Press,2012 (in Chinese).[魏权龄.评价相对有效性的数据包络分析模型——DEA 和网络DEA [M].北京:中国人民大学出版社,2012.]
[8]Zhou Y,Xing X,Fang K,et al.Environmental efficiency analysis of power industry in China based on an entropy SBM model[J].Energy Policy,2012,57:68-75.
[9]Li H,Fang K,Yang W,et al.Regional environmental efficiency evaluation in China:Analysis based on the super-SBM model with undesirable outputs [J].Mathematical and Computer Modelling,2013,58 (5-6):1018-1031.
[10]Tone K.Variations on the theme of slacks-based measure of efficiency in DEA [J].European Journal of Operational Research,2010,200 (3):901-907.
[11]SUN Fenglin,HAO Zhifeng.Application of OPLS in non-linear partial least squares regression model[J].Computer Engineering and Design,2010,31 (12):2826-2829 (in Chinese).[孙凤林,郝志峰.OPLS在非线性偏最小二乘回归模型的应用[J].计算机工程与设计,2010,31 (12):2826-2829.]
[12]Rodriguez J D,Perez A,Lozano J A.Sensitivity analysis of k-fold cross validation in prediction error estimation [J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2010,32 (3):569-575.
[13]ZHANG Xiaohai,JIN Jiashan,GENG Junbao.Optimized partial least squares regression with data envelopment analysis and its application [J].Journal of Zhejiang University (Engineering Science),2011,45 (9):1688-1692(in Chinese).[张小海,金家善,耿俊豹.用DEA优化偏最小二乘回归建模及应用 [J].浙江大学学报(工学版),2011,45 (9):1688-1692.]