基于特征的全船焊接工时聚类分析
2015-03-14张平豪殷小林李垠广
张平豪,殷小林,李垠广
(海军装备研究院,北京 100161)
基于特征的全船焊接工时聚类分析
张平豪,殷小林,李垠广
(海军装备研究院,北京 100161)
摘要:以某型船全船焊接信息为样本,首先验证了数据样本服从对数正态分布;再以距离作为度量标准,对焊接信息进行基于不同距离测量方法的聚类分析,并重点对比平方欧氏距离和夹角余弦距离的聚类树形图,得出全船焊接信息合理的聚类数目;最后对每个类进行物理信息的解释,得到完整实用的基于特征的全船焊接工时估算标准,为新型船经济性论证及方案选型提供快捷、可靠的依据。
关键词:焊接;工时;距离;聚类
0引言
钢质船焊接工时的精确测算对于船舶建造工程成本的精确评估具有重要意义。我国骨干船厂常用的方法主要有2种:一是根据全船钢材总吨数乘上某一系数,得到全船焊材的用量,再推导出全船焊接工时,过程粗糙、结论误差大;二是根据诸如《钢质船舶建造工时概预算定额编制与造价管理及工程经济分析评价实用手册》之类的行业标准的规定,结合本厂的现代化程度进行焊接工时定额的调整,制定焊接计划,人为因素严重影响工时估算的准确性。本文根据以往某型船全船焊接工时统计结果,采用聚类分析方法,得出完整实用的基于特征的全船焊接工时估算标准,能够为新型船经济性论证及方案选型提供快捷、可靠的依据。
具体思路是,首先采用数据挖掘技术对焊接信息进行描述性统计分析,包括探索分析、Q-Q图分布检验等,得出样本数据的分布情况;然后以焊接工时定额标准为依据,根据焊缝所在作业区及其派工单描述的工时信息,进行不同距离测量方法的聚类分析;再对比不同聚类树形图,得出能够真实反映全船焊接特征物理信息的聚类方案;最后对每类特征进行数据处理,得到该类的工时权值,形成完整实用的基于特征的全船焊接工时估算标准。
1全船焊接数据分布检验
根据我国某骨干船厂某型船派工单描述,全船焊接工时按作业区分为小组、平面、曲面、搭载4部分,每部分又根据内壳、外底、甲板、纵壁等分为组间焊接、拼板焊接、结构焊接等,其中又涉及到翻身等工艺,如表1所示给出部分数据。
表1 全船焊缝类型、长度及工时
焊接数据分布检验采用SPSS软件进行。SPSS(Statistical Package for the Social Sciences)是一个统计功能极强、内容及其庞大的统计软件。检验包括正态、半正态、Beta、卡方、指数、对数等Q-Q图标度和形状,判断全船焊缝长度和焊接工时数据的分布情况。经计算,其分布参数如表2所示。
表2 估计的分布参数
图1 焊缝长度的对数正态Q-Q图和趋降对数正态Q-Q图Fig.1 Q-Q logarithmic diagram of welding length
观察图1和图2可知,Q-Q图中的44个观察点除了极个别点外都分布在直线及横线附近,显示样本数据服从对数正态分布。
图2 焊接工时的对数正态Q-Q图和趋降对数正态Q-Q图Fig.2 Q-Q logarithmic diagram of welding man-hour
其中,将不同作业区中单位焊缝长度所需的焊接时间(h/m)按大小顺序排列如下:总组立搭载焊接(5.9-25.8)>曲面总组立焊接(3.1-4.7)>分段搭载、预搭载(1.9-2.9)>曲面分段大组立结构焊接(1.39-1.85)>平面分段大组立翻身焊接(0.85-1.65)>曲面、平面分段组件装焊(0.72-1.15)>曲面分段大组立拼板焊接(0.59-0.79)>曲面、平面分段部件结构焊接(0.42-0.68)>分段中组立拼板焊接(0.33)>分段中组立、部件结构焊接(0.32)> 分段大组立结构焊接(0.23)>分段T排组装(0.23)>分段部件结构焊接(0.21)>分段部件拼板焊接(0.16)。按照工时的长短,将全船焊缝大致归为14类。其中有许多重叠区域,需要进一步分析,得到数目较少、相对独立的类。
另外,大组立以及搭载由于施工场地和工序的限制,焊接操作空间小,很难将仰焊转为俯焊或者高空焊转化为平地焊,给施工带来很大的不便,需要耗费的工时长;曲面焊接普遍比平面焊接耗费的工时长,主要是自动化焊在曲面上不宜操作,手工焊带来的是焊接质量和效率的不足;需要翻身焊接的工序也表现出较长的工时,如大组立翻身焊接的时长是大组立结构焊接的一倍以上,说明翻身造成较长的辅助工时;而涉及到结构焊的工时又比相应工位的其他焊接(如拼板焊、纵骨焊等)耗时长,应该是结构焊的施工空间小,船体结构使得施工不连贯等因素造成。
综上所述,对某型船全船焊接工时整体分析,发现不同焊接特征耗费的工时暂分为6类,且具有如表3所示的比例关系。
表3 焊接特征对应的工时比例
3聚类分析
系统聚类的基本原理:首先将一定数量的样本或指标各自看成一类,然后根据样本(或指标)的亲疏程度,将亲疏程度最高的2类进行合并,然后考虑合并后的类与其他类之间的亲疏程度,再进行合并。重复这一过程,直到将所有的样本(或指标)合并为一类。
聚类分析要求不同组间具有较大的差异,个体差异程度的表现形式主要有距离、密度、概率和链接。其中距离是最为直观的聚类标准,常见的度量指标包括欧式距离、夹角余弦距离等;密度标准通过判断样本是否属于同一个连续的密集区域;以概率为聚类标准的方法认为数据是根据潜在的概率分布生成的;以链接为标准的聚类方法的目标是把具有更多链接的数据点聚为一类,即其相似性度量采用的是链接的数目。以距离为标准和以密度为标准的聚类方法都只能建立在欧式空间上,而以链接为标准的聚类方法可以建立在任意空间之上。下面通过SPSS软件根据不同距离的定义,对全船焊接信息进行聚类对比分析,得出最能反映真实信息的聚类划分。
3.1 定义距离进行聚类试验
根据距离定义方式的不同,聚类算法有欧式距离、切贝谢夫距离、布洛克距离、明考斯基距离、夹角余弦距离(Sosine相似度)、卡方距离以及二值变量的常用距离等。这些算法的适用范围各不相同,不同的数据对象和数据结构使得聚类效果出现很大的差异。
由上述距离定义可知,欧氏距离、切比雪夫距离和布洛克距离分别是明考斯基距离当k=2,k→∞和k=1时候的特例,反映样本之间的绝对差异;夹角余弦距离表达式是一种比例关系,侧重于度量样品在结构上的相对差异。因此,本题聚类分析采用组间联接这一相同聚类方法下,采用欧氏距离、平方欧氏距离、布洛克距离、夹角余弦距离和卡方距离作为度量标准。由于聚类结果的近似性,这里只给出平方欧氏距离(见图3)和夹角余弦距离(见图4)的结果,并进行对比分析。
3.2 聚类结果对比
聚类的最终目的是从原始数据中提供给使用者有意义的启示,由此来有效地解决问题,结果的解释分析尤为重要。SPSS聚类结果通过聚类表、冰柱图和聚类树形图3种形式展示,均能反映聚类全过程和在不同距离标尺下聚类的个数,但聚类树形图能够更为直观的反映聚类全过程,这里只给出2种距离标准下的聚类树形图。
图3和图4清晰地表示了聚类的全过程。它将实际距离按比例调整到0~25的范围内,用逐级连线的方式连结性质相近的个案或新类,直至并为一类。在两图上部的距离标尺上根据需要(粗分或细分)选定一个划分类的距离值,然后垂直标尺划线,该垂线将与水平连线相交,则相交的交点数即为分类的类别数,相交水平连线所对应的个案,即每根横线左端与之联系的各观测量聚成一类。聚类数目太多,失去了划分的意义,数目太少,则划分指导很难做到有的放矢。
图3 平方欧氏距离Fig.3 Squared euclidean distance
图4 夹角余弦距离Fig.4 Cosine distance
图3平方欧氏距离作为划分标准下,距离标尺值为20,聚为两类,小组-平面分段组件焊、小组-曲面分段组件焊、小组-T排组装和曲面-大组立结构焊接四项划为一类,其余40项划为一类。回到表1,按作业区上述4项分别归为小组和曲面,其中小组中3项和曲面的1项单位焊接工时分别为0.16,0.23,0.23和0.69,从焊接工时方面无法解释该4项划为一类的原因。降低距离标尺值到2,原始数据划分为6类,单位焊接工时均为0.23的小组-曲面分段组件焊、小组-T排组装划为一类,具有较好的物理属性;但搭载-船、搭载-总组立、平面-内壳、曲面-壁板等的单位焊接工时分别为7.87,1.00,0.19,0.47,它们与其他32项被划分成一类,并且这32项的单位焊接工时的差别也很大;另外,与其他单位焊接工时均为0.16的小组-平面分段组件焊,反而被单独划为一类。这些类的划分在物理属性上难以解释,因此采用平方欧氏距离作为划分标准不合理。同理,欧氏距离、布洛克距离和卡方距离均不能反映样本间的内在关系。
图4为夹角余弦距离作为划分标准得到的聚类树。夹角余弦距离表达式是一种比例关系,相似系数的计算过程包含对数据的标准化过程,侧重于度量2个样品在结构或形态上的相对差异而非规模上的绝对差异。而考察表1中各项聚类情况,主要为了挖掘焊接特征间的内部关系,探索焊接特征和焊接工时的关系,考察哪些焊接特征具有相同或相近的耗时效果,将相似的特征归为一类,降低影响焊接工时的特征数目,进而在数据分析中减少焊接工时分析的变量个数,使船舶建造各个阶段的焊接工时能够被快速估算和精确测算。图4能够很好解释焊接特征与焊接工时的关系,下面将距离标尺值定在20,10和2分别进行讨论。
首先将距离标尺值定在20,整艘船的焊接数据被聚为2类,一类单位焊接工时小于1.00,主要特征有平面拼板、平面结构、曲面拼板、平面大组立翻身等;另一类单位焊接工时大于1.00,主要特征有曲面大组立翻身、总组立搭载、预搭载等。从工时长短趋势上来看,该划分粗略的反映了各种特征的关系,但类别简单,不能明确各类中大组立、翻身、结构等特征的影响程度,两类间的界限模糊,各类样本数据间的亲疏程度不明显。将距离标尺值定在10,聚类数目则增为3类,标尺值越小聚类数目越多。
进一步将标尺定在2,则样本数据聚为6类,第1类反映作业区为平面下的拼板、纵骨、结构和曲面作业区下的纵骨焊接等,工时数占总工时的31%;第2类反映曲面作业区下的拼板等,比重为7.74%;第3类反映曲面结构和平面翻身,40.28%;第4类反映总组立焊接和曲面翻身,1.64%;第5类搭载和预搭载,18.80%;第6类船名标志水尺等附件,0.55%。符合4.1节总结的各种特征耗费工时规律,即按照平面下纵骨、平面下拼板、平面下结构、曲面下纵骨、曲面下拼板、曲面下结构、平面下翻身、曲面下翻身、总组立、预搭载、搭载顺序单位焊缝长度耗费工时递增。则有纵骨、拼板、结构3种特征耗费工时递增,平面、曲面、大组立翻身、搭载递增的特点。在表3的基础上,根据上述分析结果形成如表4所示聚类结果。
表4 焊接特征聚类划分
4结语
根据表4可得该型船各类特征在全船焊缝中占的比例,按照此类方法,对诸如大型货船、沿海货船、客货船、大型油船、沿海拖船、内河客货船等其他船型进行全船焊接信息聚类分析,修正表4各类的权值或者给每种权值设置相应的适用范围,即可形成完整实用的基于特征的全船焊接工时及建造成本估算标准,为新型船经济性论证及方案选型提供快捷、可靠的依据。另外,在聚类分析中还应注意4个方面的问题:
1)聚类度量标准中,欧氏距离作为划分标准用在绝对空间中的绝对距离差,没有相关性距离表达式适用性好,因为2个变量之间的比例关系是本例中聚类合理性的验证基础。
2)试错试验必不可少,不同的算法、不同的度量标准,在物理意义不明的前提下,很难一次到位,需要在不断试错试验过程中,逐渐发现数据的内在规律,找出与规律相关的度量标准。
3)划分出的类要有合理的物理意义,针对各项的属性要能解释的通,每类要有明确的、不同于其他类的特征。
4)根据该类所有数据的平均值,定义该特征的权值,初步形成此类特征焊接的标准工时,再通过其它船型的夹角余弦距离标准聚类,得出一系列不同特征的各种标准工时,能够较为准确的估算出新型船设计建造前的焊接总工时,为新型船的经济性论证和不同方案的选型提供重要依据。
参考文献:
[1]姜园,张朝阳,仇佩亮,等.用于数据挖掘的聚类算法[J].电子与信息学报,2005(4):1-3.
JIANG Yuan,ZHANG Zhao-yang,QIU Pei-liang,et al.Clustering algorithm for data mining[J].Journal of Electronics and Information,2005 (4):1-3.
[2]曲福恒.一类模糊聚类算法研究及其应用[D].吉林:吉林大学,2009.
QU Fu-heng.Research on fuzzy clustering algorithm and its application[D].Jilin:Jilin University,2009.
[3]殷瑞飞.数据挖掘中的聚类方法及其应用[D].厦门:厦门大学,2008.
YIN Rui-fei.Clustering method in data mining with its application[D].Xiamen:Xiamen University,2008.
[4]宗培,曹雷,邵国良,等.焊接结构质量的聚类分析[J].现代制造工程,2008(2):105-107.
ZONG Pei,CAO Lei,SHAO Guo-liang,et al.The clustering analysis of welding structure quality[J].Modern Manufacturing Engineering,2008(2):105-107.
[5]苏金明,傅荣华,周建斌,等.统计软件SPSS for windows实用指南[M].武汉:电子工业出版社,2000.
SU Jin-ming,FU Rong-hua,ZHOU Jian-bin,et al.Statistical software SPSS for windows practical guide[M].Wuhan:Publishing House of Electronics Industry,2000.
[6]陈胜可.SPSS统计分析从入门到精通[M].北京:清华大学出版社,2010.
CHEN Sheng-ke.SPSS statistical analysis from entry to the master[M].Beijing:Tinghua University Press,2010.
Clustering analysis of welding man-hours based on characteristics of shipbuilding
ZHANG Ping-hao,YIN Xiao-lin,LI Yin-guang
(Naval Academy of Armament,Beijing 100161,China)
Abstract:Taken a certain type of ship welding information as the sample. Firstly, to verify the sample data obeys the lognormal distribution; secondly, with distance as a metric, to cluster the welding information as different distance measurement method, and compare the results of clustering tree between the squared euclidean distance and the cosine distance, then to get the reasonable number of welding clustering; finally, to explain the physical information of each cluster results, the whole ship welding man-hour estimate standard based on the characteristics had been measured, and they would provide fast, reliable basis for the selection of new ship economic demonstration and scheme. Specific ideas are that, firstly descriptive statistical analysis of welding information by the data mining technology, including exploring analysis, Q-Q distribution test, to get the distribution of the sample data; secondly based on the welding man-hours quota standard, according to the weld work information of operation area and dispatch list description, to do cluster analysis by different distance measurement method; thirdly to compare the different clustering tree, get the very clustering scheme that really reflect the physical information of ship welding characteristics; finally, date process each characteristics clusters, obtain the man-hour weight of this cluster, and form a complete and practical ship welding man-hour estimate standard based on manufacture characteristics.
Key words:welding;man-hour;distance;clustering
作者简介:张平豪( 1981 - ) ,男,工程师,研究方向为军事装备学。
收稿日期:2013-11-18; 修回日期: 2014-04-10
文章编号:1672-7649(2015)02-0111-05
doi:10.3404/j.issn.1672-7649.2015.02.023
中图分类号:TP311
文献标识码:A