基于R软件应用的天津市电梯安全状况抽样分析
2018-11-01赵翠林刘宏臣
赵翠林 刘宏臣
(天津市特种设备监督检验技术研究院 天津 300192)
随着社会的进步,电梯越来越多地走进了大家的生活,截至2017年底,全国电梯保有量达到了562.7万台,作为重要的垂直交通工作,电梯的安全状况越来越多地受到全社会的关注。
统计结果表明,截至2016年底天津市的电梯保有量达到7.1万台,曳引式电梯6.6万台,随着设备问题和设备服役时间的增加,设备的故障概率也在增加,因此,科学分析天津市电梯的安全状况,对保障电梯的安全运行,维护人民生命和财产安全具有重要意义。在实际工作中,电梯定期检验报告是反映电梯的安全状况的最直接资料,因此,分析电梯定期检验中的问题检出情况是确定电梯安全状况的最有效的方法。
电梯安全状况受电梯维护保养(以下简称“维保”)质量、电梯服役时间、使用单位管理水平、电梯使用环境等多种因素影响,其中电梯维保质量和服役时间是影响电梯安全的两个最主要的因素,而电梯维保质量又受维保单位技术实力、业务量等多种因素影响。为了简化分析,并避免小基数数据可能影响的统计误差,本文利用R软件的统计和分析功能,以天津市特种设备监督检验技术研究院2015年度出具的39218份曳引和强制驱动电梯定期检验报告为基础,从2015年在天津市从事电梯维保工作的235家维保单位随机抽取51家维保单位为样本,对维保设备数量、缺陷率、不同设备服役时间的缺陷率进行统计,以其发现影响本市曳引和强制驱动电梯安全的主要因素。本文从样品数量看,这51家维保单位所维保的曳引和强制驱动电梯总量共有28856台,占天津特检院所检设备数的73.58%,占全市曳引和强制驱动电梯的49.08%,具有较好的代表性。
R语言是统计领域广泛使用的S语言的一个分支。R语言是S语言的一种实现。最初S语言的实现版本主要是S-PLUS软件。S-PLUS是一个商业软件,需付费使用。
R软件系统是由奥兰克大学志愿人员开发的一套完整的数据处理、计算和制图软件系统,其下载、安装和使用均完全免费。其功能包括:数据存储和处理系统,数组运算工具,完成连贯的统计分析工具,优秀的统计制图功能,简便而强大的编程语言,可操纵数据的输入和输出,可实现分支、循环,用户可自定义功能。R软件的使用与S-PLUS有很多类似之处,两个软件有一定的兼容性。
与其说R软件系统是一种统计软件,还不如说R软件是一种数学计算环境,它提供了有弹性的、互动的环境来分析、可视及展示数据;它提供了若干统计程序包,以及一些集成的统计工具和各种数学计算、统计计算的函数、用户根据统计模型,指定相应的数据及相关的参数,便可灵活机动的进行数据分析等工作,甚至创造出符合需要的新的统计计算方法。使用R软件系统可以简化数据分析过程,从数据的存取,到计算结果的分享,R软件提供了更加方便的计算工具,帮助更好的分析和解决问题。通过R软件的许多内嵌统计函数,用户可以很容易学习和掌握R软件的语法,也可编制自己的函数来扩展现有的R语言,完成科研工作。
1 基础数据准备
以维保单位的统计基础,分别统计如下数据:
1)各维保单位的维保设备数量X1、检出缺陷的设备数量,计算出缺陷率(Y=检出缺陷的数量/X1);
2)各维保单位维保的设备中,服役时间小于等于5年的设备数量X2;
3)各维保单位维保的设备中,服役时间大于5年,小于等于10年的设备数量X3;
4)各维保单位维保的设备中,服役时间大于10年,小于等于15年的设备数量X4;
5)各维保单位维保的设备中,服役时间大于15年,小于等于20年的设备数量X5;
6)各维保单位维保的设备中,服役时间大于20年的设备数量X6;
7)统计B~F对应的检出缺陷的设备数量,并计算出相应的缺陷率 X7、X8、X9、X10、X11。
将数据形成单独的数据文件备用。
1.1 线性拟合的可能性分析
首先尝试用R软件做出维保设备数量-缺陷率图,读取数据,并画出维保设备数量-缺陷率散点图,如图1所示。由图1可看出,缺陷率高于0.1%的维保单位,全部集中在维保设备数量较少的单位。这是因为,维保单位作为企业,业务成本会随着业务量的增加而下降,一旦企业的业务量无法使其利润达到收支平衡,企业要生存,就必须采取措施降低成本。在这种条件下,对于个别维保企业来说,降低维保频率、使用低成本零件、减少维保项目等导致维保质量下降的方法就成了首选。从这一意义上可简单的看出,对维保单位来说,在同一地区的维保设备数量不足可能导致设备的不合格率升高。但从由图1可看出,设备缺陷率与维保数量有着复杂的对应关系,无法用线性拟合来进行分析。
图1 设备缺陷率随维保数量的变化曲线
1.2 分析影响设备缺陷率的主要因素
运行R程序做主成分分析,产绘制碎石图,如图2所示,从计算结果和图3可知,前5个主成分的累积贡献率已达到88.15%,另外7个主成分可以舍去,达到降维的目的。
图2 主成分分析碎石图
对51家维保单位分别按五个主成分进行排序,得表1:
表1 51家维保单位按主要成分排序结果
求得载荷矩阵见表2
由表2载荷矩阵知:
1)主因素1主要与X1~X6、X8相关,即与维保单位的维保设备数量、各个设备服役年限的设备数量、设备服役时间大于5年,小于等于10年的设备缺陷率相关,其中与维保数量相关最密切,可以定义为维保设备数量规模。
2)主因素2 与Y、X7~X11相关,即与总体缺陷率及各服役年限设备缺陷率相关,可以定义为设备缺陷检出率指标。
3)主因素3与总体缺陷率(Y)正相关,与各服役年限设备不合格率相关,且服务时间越长,影响越小,可以定义为设备制造、安装因素造成的影响。
表2 载荷矩阵
4)主因素4与X9~X11正相关,可以定义为长服役期设备缺陷率的影响。
5)主因素5与X8~X9相关度最大,可以定义为中等服役年限的影响。
结合按主因素的排位结果可知:
1)从维保设备的数量规模看,第1、2、31、46、48家维保单位的规模最大,在全市电梯维保中占有重要地位,第26、35、29、12、23家维保单位的规模最小,这一结果与输入数据相符。
2)从设备缺陷检出率看,第25、46、51、21、19家维保单位的缺陷检出率最高,而第13、34、35、41、38家的缺陷检出率最低。
3)从设备制造、安装因素造成的影响看,第46、19、14、47、50家维保单位维保的设备中,出现制造、安装因素造成的缺陷的相对较多,而8、10、21、25、51家的则较少。
4)从长期服役设备缺陷率来看,第47、21、49、44、45家维保单位所维保的长服役期电梯出现缺陷较多,而第24、19、22、8、12家的则较少。
5)从中等服役期设备缺陷情况来看,第50、21、51、46、10家维保单位所维保的中等服役期电梯出现缺陷较多,而第45、49、44、12、47家的则较少。
从第一,第二主成分之下的图3所示的散点图看第1家维保单位的维保数量更多,缺陷率更低,而第46、25家则维保数量较少,缺陷率较高。其余单位均呈现维保数量不多,但缺陷率也较低的状态。
图3 第一、二主成分散点图
按纵使能力对各维保单位进行分类得各类维保单位的代号为:
第一类:WB5、WB8、WB11、WB17、WB21、WB25、WB33、WB44、WB45、WB48、WB49、WB51
第二类:WB1、WB2、WB46
第 三 类:WB3、WB4、WB6、WB7、WB9、WB13、WB15、WB16、WB18、WB20、WB22、WB23、WB26、WB27、WB28、WB29、WB30、WB32、WB34、WB35、WB36、WB37、WB38、WB39、WB40、WB41、WB42、WB43
第 四 类:WB10、WB12、WB14、WB19、WB24、WB31、WB47、WB50
1.3 维保单位聚类分析
聚类分析是一类将数据所研究样本进行分类的统计方法,可理解为将具有相似性质的对样本聚为一类,具有不同性质的个体聚为不同的类。在进行聚类时,可采用的方法有很多,系统聚类方法是用得最多的一种,其基本思路是:先将每个样本各自看成一类,然后根据样本之间的相似度量,将n类中最相似的两类合并,组成一个新类,这样得到n-1类,再在这n-1类中找出最相似的两类合并,得到n-2类,如此下去在某个类的水平数(即未合并的类数)停下来,最终的类就取决于这些未合并的类。类与类之间用不同的方法定义,就产生了不同的系统聚类方法。
最长距离法即把一个类的所有样本与另一个类的所有样本的两两样本之间的最长距离找出来,并将其定义为两个类之间的距离。
笔者将数据标准化,用最长距离法做聚类分析,分成四类的谱系图如图4所示:
图4 最长距离法聚类谱系图
类平均法有两种定义,一种定义方法是把类与类之间的距离定义为所有样本对之间的平均距离。另一种定义方法是定义类与类之间的平方距离为样本对之间平方距离的平均值。类平均法较好的利用了所有样本之间的信息,在很多情况下,它被认为是一种较好的系统聚类法。用类平均法做聚类分析,分成四类的谱系图如图5所示:
图5 类平均法聚类谱系图
重心聚类法即类与类之间的距离定义为他们的重心(均值)之间的距离。重心聚类法在处理异常值方面比其他系统聚类法更稳健,但在别的方面一般不如类平均法或离差平方和法的效果好。用重心法做聚类分析,并分成四类的谱系图如图6所示:
图6 重心法聚类谱系图
离差平方和法(Ward法),它基于方差分析思想,如果类分得正确,则同类样本之间的离差平方和应当较小,不同类样本之间的距离平方和应该较大。离差平方和法的类间距与两类的样本数有较大的关系,对异常值很敏感。两个大类倾向于有较大的距离,因而不易合并,是比较好的一种系统聚类法。它的具体方法是将n个样本各自成一类,每次缩小一类,每缩小一类离差平方和就要增大,选择使离差平方和增加最小的两类合并,直到所有样品归为一类为止。用Ward法做聚类分析,并分为四类的谱系图如图7所示:
图7 离差平方和法聚类谱系图
对数据做动态聚类分析,迭代次数为20次,并对分析所得数据按从小到大的顺序进行排序,得:
第 一 类:WB3、WB4、WB5、WB6、WB7、WB9、WB13、WB14、WB15、WB16、WB17、WB18、WB19、WB20、WB22、WB24、WB26、WB27、WB28、WB29、WB30、WB31、WB32、WB33、WB34、WB35、WB36、WB37、WB38、WB39、WB40、WB41、WB42、WB43、WB44、WB45、WB47、WB48、WB49、WB50
第 二 类:WB8、WB10、WB11、WB12、WB21、WB23、WB25、WB51
第三类:WB1、WB2
第四类:WB46
在各类聚类结果中,第46、第1、第2家维保单位都处于比较显眼的位置,而其他各家则随聚类标准的不同,会划归不同的类别中。进一步分析可知,第46家维保单位属于维保设备数量较多,但缺陷率较高的单位,应作为日常监管的重点,而第1、第2家则属于维保数量很大,且缺陷率较低的单位,属于对保证本市电梯总体安全做出重要贡献的单位,在日常监管中可以适当减少监管的力度。
2 结论
本文采用R软件对天津市电梯安全状况进行了分析,从结果可得出以下结论:
1)维保单位的维保数量与电梯缺陷率无明确的线性关系。
2)维保单位维保设备的数量和各服役年限电梯的缺陷率对电梯的总体安全状况影响巨大,而电梯制造、安装过程遗留的问题、达到中长期服役期限(大于等于10年)的设备的缺陷率,也是影响天津市电梯总体安全状况重要因素。
3)在具体的维保单位中,第46家维保单位属于维保设备数量较多,但缺陷率较高的单位,应作为日常监管的重点,而第1、第2家则属于维保数量很大,且缺陷率较低的单位,属于对保证本市电梯总体安全做出重要贡献的单位,在日常监管中可以适当减少监管的力度。