基于主成分聚类分析评价棉花品质的研究
2016-08-12李国锋肖远淑
李国锋,王 莉,肖远淑
(1.阿克苏职业技术学院机电工程系,新疆阿克苏 843000;2.阿克苏地区高级技工学校纺织系,新疆阿克苏 843000;3.新疆大学纺织与服装学院,乌鲁木齐 830046)
基于主成分聚类分析评价棉花品质的研究
李国锋1,王莉2,肖远淑3
(1.阿克苏职业技术学院机电工程系,新疆阿克苏843000;2.阿克苏地区高级技工学校纺织系,新疆阿克苏843000;3.新疆大学纺织与服装学院,乌鲁木齐830046)
摘要:采用中国纤维检验局公布的“中国棉花质量分析报告”的8项指标作为原始指标,利用SPSS主成分分析法和聚类分析法对不同地区的细绒棉品质进行分析,筛选出特征根累计贡献率86.931%的3个主成分,对选出的主成分进行系统聚类分析,将棉花品质按相似性分为三类地区。结果表明:各类地区间棉花品质差距较大,第二类地区具有在颜色级、马克隆值指标的优势,第三类地区棉花品质整体较差。研究结果对棉花采购和纺织企业生产具有重要的参考作用。
关键词:棉花品质;主成分分析;聚类分析
纺织企业在配棉时习惯上将品级指标作为主要指标,原料购买时也通常以品级的高低作为主要选择指标。随着国家棉花质量检验体制改革的深入,HVI仪器化检验方式进一步得到大面积的普及[1],已成为棉花品级检验领域的发展趋势。长期以来,一些加工企业按照棉花产区进行加工,片面理解棉花品级指标,将不同地区的棉花混用,以得到期望的质量,客观地对产品质量产生了不利的影响。全面、准确地掌握我国棉花品质,有利于加强宏观调控,引导纺织产业健康有序发展[2]。
本文拟对我国15个不同地区及新疆兵团的棉花品质进行主成分分析和系统聚类分析,找出棉花品质中颜色级、轧工质量、长度、长度28mm以上占比、马克隆值、断裂比强度、断裂比强度中等档以上占比、长度整齐度指数等指标之间的关系;在揭示这些指标成分分布特征的基础上,对不同产地棉花质量做了综合评价;在此基础上,进行系统聚类分析,将棉花性能相似的细绒棉聚集为一类,为原棉接批、计算机配棉提供科学理论指导[3]。
1 评价方法
1.1方法的选取
为科学、综合地评价棉花质量,GB 1103.1—2012《棉花 第1部分:锯齿加工 细绒棉》规定了棉花纤维品质评价方法。方法给出了反映棉纤维品质的核心指标,但由于各地区的差异性,检测的各项指标也有较大差异,尤其棉纤维指标过多,评价异常困难,这给棉花交易和企业配棉带来了较大的困难。主成分分析是把多个指标化为少数几个不相关的综合指标,并能最大限度反映原来指标信息[4]。聚类分析方法是按描述事物性质的变量之间的相似程度进行分类的一种方法,这类方法可以将多指标的数据进行分类[5]。本文采用主成分分析和聚类分析相结合的方法,先对我国各地区棉花品质进行主成分分析,再进行聚类分析,以此进行棉花品质定量化的综合评价。
1.2指标的选取
选用中国纤维检验局公布的“2013/2014年度中国棉花质量分析报告”的8个指标进行评价,包括颜色级X1、轧工质量X2、长度X3、长度28mm以上占比X4、马克隆值X5、断裂比强度X6、断裂比强度中等档以上占比X7、长度整齐度指数X8。其中颜色级为标准级白棉3级以上占比,轧工质量为P2及以上占比,长度为逐包检验平均长度,马克隆值为B级以上占比,断裂比强度为各产棉省份棉花平均断裂比强度,长度整齐度指数为各产棉省份棉花平均长度整齐度。
2 棉花品质分析
2.1主成分分析
本文选取2013/2014年度中国棉花质量分析报告的8项指标相关数据作为分析样本[6],使用SPSS 19.0软件作为统计分析工具,对表1中的原始数据进行降维处理,经KMO检验,取样足够度的Kaiser-Meyer-Olkin度量值为0.555,大于0.5;Bartlett的Sig为0,小于0.05。因此,满足正态分布且具有显著性,得到相关系数的特征值、贡献率、累积贡献率以及成分矩阵,分别如表2和表3所示。
表1中国棉花质量8项主要品质指标
序号地区颜色级/%轧工质量/%长度/mm长度28mm以上占比/%马克隆值/%断裂比强度/(cN/tex)断裂比强度中等档以上占比/%长度整齐度指数/%1江苏46.1999.7429.0086.3852.3529.8999.0783.012浙江24.1699.9927.8843.8540.0528.8499.8982.923安徽11.9399.4227.7331.6041.1329.4199.1782.254江西10.1299.8027.6030.5319.6229.8999.7682.845湖北3.2099.9027.7838.6263.3228.8398.0382.206湖南2.5599.7527.8443.4059.7829.2598.5382.277天津28.1299.1628.1361.7045.8529.1199.4282.258河北52.0699.1728.7687.8763.3229.7498.8182.669山西32.4098.7628.3471.9632.7829.4696.7283.0210山东74.5099.6028.6583.6087.2129.6598.8282.3311河南39.4899.1328.3669.3079.8829.2598.3181.8112陕西95.4299.4628.7785.0791.0127.2673.9482.7413甘肃98.9999.8528.3273.5596.6428.2293.8783.0414新疆地方97.5899.4328.5381.5580.4427.4084.5782.5915新疆兵团95.2397.3728.1963.2886.5126.9073.2782.08
表2KMO和Bartlett的检验
Kaiser-Meyer-Olkin度量0.555Bartlett的球形度检验近似卡方107.763df28Sig.0
表3相关系数的特征值、贡献率、累积贡献率
成分初始特征值合计方差/%累积/%提取平方和载入合计方差/%累积/%14.12951.60751.6074.12951.60751.60721.86723.33674.9431.86723.33674.94330.95911.98886.9310.95911.98886.93140.7529.39596.32650.1732.16198.48760.0580.72199.20770.0510.63899.84680.0120.154100.00
由表3可知,相关系数的前3个特征根分别为4.129、1.867、0.959,前3个公共因子的累积贡献率为86.931%。根据累积贡献率大于85%的原则,故前3个主成分它能代表棉花品质的86.931%的信息,可以认为原来的8个指标能够综合成3个主因子,作为评价我国各地区棉花品质的主成分。
由表4可知,成分1(设为y1)主要由原始变量X1、X3、X4、X5、X6、X7表征,它反映了最多的原始变量的信息,可解释为棉花的基本特性指标;成分2(设为y2)主要由原始变量X2、X3、X4、X8表征,可解释为棉花的长度指标;成分3(设为y3)主要由原始变量X8表征,为棉花长度整齐度指标。
表4因子载荷矩阵
指标成分123Zscore(颜色级)0.9450.125-0.132Zscore(轧工质量)-0.4920.512-0.240Zscore(长度)0.6910.6350.266Zscore(长度28mm以上占比)0.7590.5760.254Zscore(马克隆值)0.828-0.0580.197Zscore(断裂比强度)-0.7550.4790.386Zscore(断裂比强度中等档以上占比)-0.8270.3920.303Zscore(长度整齐度指数)-0.0110.683-0.685
2.2基于主成分得分建立棉花品质评价模型
由于主成分的因子负荷存在正负,各综合指标难以准确地把握。获取特征向量,建立y1、y2、y3这3个成分的回归方程,主成分表达式为:
y1=0.465x1-0.242x2+0.34x3+0.374x4+0.407x5-0.372x6-0.407x7-0.005x8,
y2=0.091x1+0.375x2+0.465x3+0.422x4-0.042x5+0.351x6+0.287x7+0.5x8,
y3=0.128x1+0.523x2+0.648x3+0.588x4-0.059x5+0.489x6+0.4x7+0.697x8.
2.3计算主成分得分及综合得分
分别计算3个成分分值;根据特征值的贡献率大小为分配系数,计算综合得分,并排序,结果见表5。
表5中国棉花品质成分分值、综合得分
序号地区y1分值排序y2分值y3分值综合得分总排序聚类1江苏0.05682.6203.6541.078412浙江-1.819130.1930.269-0.8611133安徽-2.25914-1.255-1.750-1.6681434江西-3.13215-0.220-0.307-1.7041535湖北-1.73211-1.151-1.605-1.3541336湖南-1.79412-0.815-1.137-1.2521237天津-0.91310-0.428-0.597-0.6431038河北0.44361.5492.1600.849619山西-0.60790.8371.1660.0228110山东0.86551.1511.6060.9085111河南0.1507-0.622-0.868-0.1729312陕西3.36620.1690.2371.8051113甘肃1.5541.0221.4271.2093114新疆地方2.44830.0360.0511.2782115新疆兵团3.3881-3.088-4.3070.51272
从以上的主成分分析结果中的综合得分可以看出,陕西的棉花品质综合评价最高,其次是新疆地方,江西的最差。
3 棉花品质的系统聚类分析
聚类分析是一种探索性的分类方法,它将一组数据按照本身的内在规律较合理的分为几类,它避免了凭主观判断造成的误差,使数据分析结果更具客观性。
3.1聚类分析
利用SPSS软件对已选定的前三个主成分得分对棉花品质进行聚类分析,聚类采用分层聚类过程,聚类方法采用类间“ward法”,距离测度采用欧氏距离法,得到系统聚类分析的谱系图,见图1。
图1 中国棉花品质聚类分析谱系
由图1可见,当阈值介于15~25之间时,可以将其分为两大类,样本1、8、9、10、12、13、14是一类,样本2、3、4、5、6、7、11、15为一类,说明棉花品质在地区上存在一定程度相似性;当阈值介于10~15之间时,样本层次聚类分析聚成三类,样本1、8、9、10、12、13、14是一类,样本15为一类,样本2、3、4、5、6、7、11为一类,由于机采棉加工方式的特性,新疆兵团棉花中轧工质量为差的比例明显高于其他省份和全国平均水平。因此,将样本分为三类更为合适,这为进一步开展棉花品质研究提供了依据。
3.2聚类结果
根据主成分聚类结果,不同类别的细绒棉指标范围如表6。
表6不同类别的细绒棉指标范围
指标第一类(1,8,9,10,12,13,14)第二类(15)第三类(2,3,4,5,6,7,11)颜色级/%32.40~98.9995.232.55~39.48轧工质量/%98.76~99.8597.3799.13~99.99长度/mm28.00~29.0028.1927.60~28.36长度28mm以上占比/%71.96~87.8763.2830.53~69.30马克隆值/%32.78~96.6486.5119.62~79.88断裂比强度/(cN/tex)27.26~29.8926.9028.83~29.89断裂比强度中等档以上占比/%73.94~99.0773.2798.03~99.89长度整齐度指数/%82.33~83.0482.0881.81~82.92
注:颜色级为标准级白棉3级以上占比;轧工质量为P2及以上占比;马克隆值为B级以上占比。
为了更好地比较各类地区及兵团的棉花质量,使结论更加直观、清晰,本文分别求出3类地区的主成分聚类平均得分。设第一类地区的主成分聚类平均得分为Z1,第二类地区的主成分聚类平均得分为Z2,第三类地区的主成分聚类平均得分为Z3,结果如下:
Z1=(1.078+0.849+0.022+0.908+1.805+1.209+1.278)/7=1.021,
Z2=0.512,
Z3=(-0.861-1.668-1.704-1.354-1.252-0.643-0.172)/7=-1.093.
4 结果分析
从主成分聚类分析结果和综合得分可以看出,陕西、新疆地方、甘肃、江苏、山东、河北和山西排在第一类位,这些地区的主成分聚类得分皆大于0;新疆兵团排在第二类位;而河南、天津、浙江、湖南、湖北、安徽和江西排在第三类位,这些地区主成分聚类得分都小于0,分别排在9~15位。从第一主成分排名和综合排名可以看出,在排序上产生了差别,这是因为在第一主成分没有超过85%时,其排名可能不够准确。
从聚类分析谱系图看,全国细绒棉品质大致可分为三类:第一类地区棉花品质最好,第二类地区棉花品质一般,第三类地区棉花品质偏差。将主成分聚类分析的综合得分和聚类分析分类结果相结合,可得出如下结论:
a) 各类地区间棉花品质差距较大。第一类地区主成分聚类平均得分为1.021,远远高于第三类地区的得分,在构成要素的8个指标中,这些地区平均指标中6项超过全国水平,可见整体品质较好,故该地区应继续发挥优势,推动纺织产业高速发展。
b) 第二类地区的棉花品质接近第三类地区,但是新疆兵团棉花品质具备在颜色级、马克隆值指标的优势,其他指标低于全国水平,这与新疆兵团棉花大部分采用机采棉加工有直接的关系,而且,机采棉在减少“三丝”问题上有独特的优势,因此,棉花生产加工时需单独考虑。这也说明单一主成分综合得分排名并不能完全反映棉花品质。
c) 与第一类地区相比较,第三类地区的主成分聚类平均得分仅为-1.093,在构成要素的8个指标中,这些地区平均指标中仅4项超过全国水平,这说明这类地区棉花品质整体偏差。因此,需要通过政策扶持,调整种植结构,加大对育种、采摘技术、加工工艺等方面的专项研究力度,以提高其棉花品质。
5 结 语
主成分聚类分析法是对主成分分析与聚类分析方法的综合利用,利用该方法对全国各地区棉花品质进行综合评价,其分析结果客观。本文通过主成分分析将棉花品质的8个评价指标归结为三个主成分,代表了棉花品质信息的86.931%,这样,众多评价指标之间的比较归结成了三个主成分的比较。研究结果认为,不同地区的棉花品质通过主成分聚类分析,可将不同地区的棉花聚类。因此,研究结果可为棉花加工企业收购加工棉花、纺织企业提供有价值的信息,为涉棉的政府职能部门、行业组织和相关企业研究棉花政策、扶持棉花产业及指导纺织企业合理配棉提供合理、科学的依据。
参考文献:
[1] 李国锋,王莉,阿达来提·阿布力克木.现代棉纺企业配棉技术的探讨[J].国际纺织导报,2014,42(4):10-12.
[2] 周延.昌吉地区2011年度棉花质量状况的分析及改进建议[J].农产品加工:创新版,2012(5):70-73.
[3] 张莉,李惠军,李国锋.基于SPSS的长绒棉聚类分析[J].轻纺工业与技术,2012,41(5):36-37.
[4] 陈基纯,陈忠暖.我国大中城市房地产投资环境评估与分类研究[J].科技管理研究,2012,32(3):210-214.
[5] 吕岩威,孙慧,周好杰.基于主成分聚类分析的西部地区经济实力评价[J].科技管理研究,2009,29(12):157-160.[6] 中国纤维检验局.中国棉花质量分析报告:2013/2014年度[EB/OL].[2015-03-23].http://www.cncotton.com/gnmh/scdt/xh/rd/201409/t20140928_264645.html.
(责任编辑:康锋)
收稿日期:2015-03-23
基金项目:阿克苏地区科技兴阿项目(阿地财教[2014]71号);阿克苏地区人才项目(阿地党组传(2015)106号)
作者简介:李国锋(1983-),男,河南偃师人,讲师,主要从事纺织设备、工艺及计算机应用方面的研究。
中图分类号:TS102.2
文献标志码:A
文章编号:1009-265X(2016)01-0005-04
Study on Evaluation of Cotton Quality Based on Principal Component Analysis and Cluster Analysis
LIGuofeng1,WANGLi2,XIAOYuanshu3
(1.Department of Mechanical and Electronic Engineering, Aksu Vocational And Technical College, Aksu,843000, China; 2. Department of Textile,, Aksu Senior Vocational School, Aksu, 843000, China;3.College of Textiles and Clothing, Xinjiang University, Urumqi 830046, China.)
Abstract:The paper uses eight indexes of quality analysis report of Chinese cotton released by China Fiber Inspection Bureau as original indexes. SPSS principal component analysis and cluster analysis are applied to analyze the quality of fine staple cotton in different areas and screen 3 principal components whose accumulative contribution rate of characteristic root is 86.931%. Hierarchical cluster analysis is conducted for selected principal components. Three types of areas are classified according to the similarity of cotton quality. The results show cotton quality in each area has a large gap. The second type of area has such advantages as color level and micronaire value index. Cotton quality in the third type of area is poor. The results has the importamt reference for cotton purchase and production of textile enterprises.
Key words:cotton quality; principal component analysis; cluster analysis