APP下载

基于置信学习机与近红外光谱的煤种快速分类方法

2016-07-12王雅圣骆志远胡瑞芬

光谱学与光谱分析 2016年6期
关键词:置信学习机煤种

王雅圣,杨 梦,骆志远,王 酉,李 光, 胡瑞芬*

1. 浙江大学智能系统与控制研究所, 工业控制技术国家重点实验室,浙江 杭州 310027 2. Computer Learning Research Centre, Royal Holloway, University of London,Egham Hill, Egham, Surrey TW20 0EX, UK

基于置信学习机与近红外光谱的煤种快速分类方法

王雅圣1,杨 梦2,骆志远2,王 酉1,李 光1, 胡瑞芬1*

1. 浙江大学智能系统与控制研究所, 工业控制技术国家重点实验室,浙江 杭州 310027 2. Computer Learning Research Centre, Royal Holloway, University of London,Egham Hill, Egham, Surrey TW20 0EX, UK

基于近红外光漫反射谱技术的检测分析具有简单,快捷,安全等优势而被广泛应用于各行各业。应用近红外光谱分析技术实现不同煤种的快速分类,该方法可以替代费时费力费财的传统化学分析方法。同时首次将置信学习机(confidence machine)引入近红外分析中,实现了对分析结果的风险评估。采集了来自不同矿区共四种不同煤种(肥煤,焦煤,瘦煤和贫瘦煤)的199个煤样本的近红外光谱,通过机器学习的方法针对煤的近红外光谱构建了煤种分类器来实现煤种的快速分类。在近红外分析中引入了置信学习机的分析方式,结合支持向量机(SVM),构建了离线和在线的CM-SVM分类器。置信学习机是一种概率方法,使用概率(CM-SVM)来取代分类超平面(SVM)进行分类,不仅分类效果好于传统的SVM,达到了95.48%的分类率,还能同时给出每个样本分类结果的置信度,可靠度等风险信息。另外,CM-SVM通过对置信水平的设定,得到不同置信度下预测区间,该区间的预测正确率是与置信水平严格对应的,对于产品质量控制有非常重要的意义。置信学习机同时是一种在线的学习模型,新样本的不断加入会提高模型的性能,非常适合于工业现场的在线分析。在线的CM-SVM模型随着样本数的增加,预测结果的置信度有所提高,对工业现场近红外分析有重要意义。

近红外光谱; 煤种分类; 置信学习机; 支持向量机

引 言

煤是我国最主要的能量来源,根据煤的煤化程度以及不同工业和商业用途,需要按照其理化性质针对不同的应用来进行分类。不同的煤种应用不同,品质和价格也不同。目前对煤种的分类主要依据煤的化学工业分析方法对相关的理化性质进行测定和评价分类,如挥发分,灰分,热值,粘结指数等,其结果虽然比较可靠,但是费时费力。

近红外光谱分析是近年来发展迅速的化学分析方式,具有简单快捷,无须对样本进行预处理,成本低廉安全方便等优势[1-2]。利用化学计量学方法对近红外光谱进行挖掘建模,能够有效地对复杂混合物中的理化性质进行定量以及定性分析[3]。近年来已有国内外学者利用近红外对煤质参数(如水分,灰分等)进行分析[4-8],取得良好的效果。本研究利用近红外光谱对煤种探索快速分类的办法。

针对利用近红外光谱进行检测信息挖掘的特点,本文中将首次在近红外分析中引入由Vladimir Vovk和Alexander Gammerman 提出的置信学习机(Confidence Machine, CM)[9-11]。置信学习是一种概率计算框架,能在各种基础算法上改进以进行预测输出,有如下特点: (1)既可以进行“点”预测,也可以进行“域 ”预测,点预测的同时,给出该预测点的可靠信息,域预测则将所有满足置信度要求的预测值进行输出,在该置信度的规约下,得到的预测结果其风险是确定的。(2)适合于在线工作方式,在对样本进行预测后将该样本的类标加入到已知的样本序列中,在预测的同时不断地进行学习。本文将构建基于支持向量机的置信学习机CM-SVM,应用于煤的近红外光谱进行煤种分类,得到分类结果的同时给出分类结果的可靠程度的信息,并且可以根据置信度的设置使错误率得到严格控制的预测区间输出,是一种全新的近红外定性分析方式。同时,构建在线的CM-SVM学习算法,考查样本数增加对分类效果的影响。

1 实验部分

1.1 样本与光谱采集

实验研究了来自山西14个矿区的199个煤样本,其中有肥煤样本50个,焦煤样本50个,贫瘦煤样本49个,瘦煤样本50个,所有样本均粉碎到颗粒度3 mm以下。采用德国Bruker公司的Matrix-Ⅰ型工业近红外光谱仪,实验中,所有的光谱采集都在室内完成,温度控制20~22 ℃,湿度控制50%~60%。采集的光谱波长范围为1 000~2 500 nm,测得的每条谱线有1 555个数据点。图1为所有199个样本的近红外光谱。

由图1可以看出,煤样光谱吸光度较高,谱峰不明显,这是由于煤本身为黑色的,大部分近红外能量都被吸收,反射出来的少,所以吸光度高,有效信息少,谱峰不明显。并且,四种煤样从光谱上来看并没有很明显的区别,混杂在一起,因此须借助机器学习,数据压缩和分类的方法来提取有效信息进行分类。

图1 199个煤样本的近红外光谱

1.2 基于SVM的置信学习机

1.2.1 置信学习机

置信学习机的基本原理是对某个预测样本,首先使其与老样本有一样的类标,然后将其与所有已有样本进行对比,对所有可能的预测值可能性进行量化评估,通过对在某一类别里与老样本的相似程度来估计对新样本预测的置信程度。置信学习机的唯一一个前提假设为所有样本都要独立分布,其中至关重要的一个参数就是相似程度的量化表示,称之为奇异值度量(nonconformity measure),用α来表征新样本与老样本的差异化程度。表示这种差异化程度,也就是奇异值(nonconformity score)α越高,表示新样本与老样本差异度越高,新样本为该类标的情况不可信,反之α越小表示新样本与老样本差异度越低,可信度较高。

假设xn为待预测的样本的自变量,为把每个可能的类标y都赋给第样本xn,成为新样本点(xn,yn),计算该新样本点的奇异值度量αn,然后比较这个新样本的奇异值度量与老样本之间的差异,一个简单的方法是算出如下的比例,如式(1)所示

(1)

式(1)即为奇异值度量值比新样本大的老样本所占的比例,把它定义为检验值p。由该定义可知,0ε的假设作为置信学习机的预测结果输出如式(2),其有效性证明参见文献[9]

(2)

因此,置信学习机的一般算法流程可以总结如下:

输入:

训练样本序列:Z*=(z1,…,zn-1), 其中zi=(xi,yi),i=1,2,…,n,xi为样本,yi为样本对应的类别标签;

待测样本xn;

奇异值度量函数:αi=An{(z1,…,zi-1,zi+1,…,zn),zi},i=1,2,…,n;

显著水平:ε(0<ε<1)

输出:

新样本xn的域预测结果。

流程:

(1) 将第一个可能的y值赋给xn,形成新样本点(xn,yn);

(2) 计算该新样本点的奇异值度量αn;

(3) 计算该可能y值对应的p值,如果p<ε, 则该y值作为预测输出;

(4) 重复(1)—(3),直到所有可能的y值计算完毕;

(5) 对于在线模型,将xn与其真实值y组成新的样本,添入训练样本序列,开始对下一个待测样本进行预测。

1.2.2 置信支持向量机算法

支持向量机的优化问题为如下二次问题的最大化优化,对于样本空间(x,y),假设样本点线性可分,对于不可分点,利用映射函数,将其映射到高维空间并假设在高维空间线性可分。具体可参考文献[12]。

(3)

定义K(xi,xj)=φ(xi)′φ(xj)为内核函数,αi为第i个样本点在超平面中的权重系数。解该二次优化问题可得到SVM的最佳分类平面以及每个样本对应的αi的值,对于大部分的样本,αi=0,表明这些样本是正常的样本,远离分类平面的样本; 而对于αi>0的样本,离分类平面较近,属于与同类样本差异较大的样本,由它们决定了分类超平面的构成。因此,可以直接用该αi的值来做为样本的奇异值度量,并以此计算相应的p检验值,对于二分类情况,总结CM-SVM的计算方法如下:

(1) 假设待测样本属于类别1,构成样本点zn=(xn,1);

(2) 样本点zn与之前的老样本构成新的训练序列(z1,…,zn-1,zn),求SVM中的二次优化问题求解,计算每个样本的α值;

(4) 重复(1)—(3),计算pn(0)的值;

(5) 根据显著性水平ε,选择p值大于ε的类标作为输出。

以上流程适用于二分类,而对于多分类的SVM,以一对一的形式由二分类的SVM组成多分类,即两两分类,如本例中有四个煤种,以A,B,C,D计,则需要SVM(AB),SVM(AC),SVM(AD),SVM(BC),SVM(BD),SVM(CD), 六个分类器,那么奇异值度量以如下方法计算:

(1) 假设zn=(xn,A)与所有其他类标为A和B的样本构成训练样本;

(2) 搭建分类器SVM(AB), 计算αn(A)SVM(AB);

(3) 与其他A,C样本构成训练集,搭建分类器SVM(AC), 计算αn(A)SVM(AC);

(4) 与其他A,D样本构成训练集,搭建分类器SVM(AD), 计算αn(A)SVM(AD)

(5) 则αn(A)=max[αn(A)SVM(AB),αn(A)SVM(AC),αn(A)SVM(AD)]。

得到该样本点的各类别奇异值后,即可计算各类别的p检验值,p值大的类别为强制输出(forcedprediction),其对应的p值定义为可靠性(credibility), 1与除了最大类别以外的最大p值的差值定义为置信度(confidence)。

1.3 基于CM-SVM的近红外煤种分类模型建立

SVM对于解决小样本数在高维空间里的非线性问题效果显著,并且相对于传统的人工神经网络等有其独特的特点,不易陷入局部最优解,因为这些特点,SVM也成为近年来近红外光谱信息挖掘中经常使用的工具[13-15]。将基于1.2节讨论的置信学习机方法,针对煤的近红外光谱建立四种煤种的CM-SVM预测器,包括在线和离线方法。在进行CM-SVM分类前,首先利用主成分分析(PCA)对光谱进行降维压缩,提高模型计算速度。另外,由于每个类别的样本数较少,实验采用留一法进行交互验证,以留一法交互验证的分类正确率来考察模型的分类性能。

2 结果与讨论

2.1 离线CM-SVM煤种分类结果

经过实验优化证明,选取7个PCA成分得到的分类率为最优, 并且通过比较,选择了线性内核做为SVM的核函数。利用多分类SVM置信学习机(CM-SVM)对199个煤样的近红外光谱分别进行分类与其p值计算,选取了几个典型的结果,如表1所示。当置信学习机以“点”预测的形式工作时,选取其p值最大的类别为输出,表示为强制分类。表1列出了每个样本属于四种煤类的p检验值,CM-SVM强制分类结果,实际分类,可靠度和置信度。

表1 CM-SVM对单个样本预测结果示例

置信度表示的是在该分类情况下,即四种煤的类别当中,属于某类别的可能程度,而可信度表示的是这种分类方法的可靠程度。以3号样本为例,其置信度很高,说明在这四种分类情况中,属于贫瘦煤的可能性很高而属于其他三种类别的可能性很低,但是可靠度非常低,说明很有可能该样本完全不属于这四个类别,与四个类别所有样本的差异都很大。对于可靠度低的样本,其分类错误的可能性要高一些。

表2 SVM与CM-SVM分类结果比较

对于多分类的CM-SVM,如以“点”输出的方式工作,以p检验值最大的类别为输出,与传统的SVM算法有所不同。表2的为SVM与CM-SVM预测结果的比较。可以看出,CM-SVM要优于SVM的结果。

对于多分类的CM-SVM,如以“域”输出的方式工作,根据p检验值是否超过显著性水平来确定输出,错误率控制在低水平时,有可能出现输出空集的情况,相反,也有可能出现输出多个类标(多预测)的情况。如果输出的类标里包含有样本的真实类标,则预测准确,否则为预测错误。表3给出了80%,90%以及95%置信度下的的预测结果。

表3 不同置信水平下CM-SVM预测结果

置信水平低时,要求的p值高,因此会出现很多的空预测,而置信水平高时,要求的p值低,如95%时,只要p值大于0.05的类别就会成为预测输出,因此多预测率会高,由表3中的错误率可以看出,经过置信度的设置,其预测结果的错误率是可以得到控制的。

2.2 在线CM-SVM近红外煤种分类

置信学习机可以转为在线学习模型,对样本进行预测后将该样本的真实分类类标加入到已知的样本序列中,特别适用于近红外定性分析。模拟在线学习过程,以同样的方法建立基于CM-SVM的近红外煤种分类置信学习机在线模型。首先,将199个样本的顺序随机打乱,从中抽取前20个样本做为算法的启动样本进行训练,然后对第21个样本进行预测,计算其在“点”输出方式、置信度以及可靠度,计算完成后,将第21个样本的光谱数值与其真实类标组成新的样本点加入到训练集中,以同样的方式对第22个样本进行预测,再把第22个样本加入训练集,以此类推,直到199个样本全部被预测完毕。

图2 在线CM-SVM强制预测结果的置信度变化

图2和图3分别记录了置信度和可靠度随着样本数逐渐增加的变化情况。由图2可以看出,随着分类样本数量的增加,置信程度越来越高,最后趋于稳定,即在当前分类情况下,类与类之间的差异化信息在SVM分类后越来越明显,在这四类中属于某一类和属于另外三类之间的差别越来越高。而可靠程度则相反(见图3),说明随着样本的增加,全部样本的差异信息越来越多,使得新样本与所有老样本整体的类似程度越来越低。

图3 在线CM-SVM强制预测结果的可靠度变化

3 结 论

应用近红外光谱对煤的不同种类可以实现快速准确的判别,其准确率高达95.48%。引入了置信学习机并基于SVM方法构建的CM-SVM方法,相比传统的SVM,不仅其分类正确率提高了,而且可以提供每个样本分类结果的置信度,可靠度等风险信息。同时,CM-SVM通过对置信水平的设定,可以得到错误率不同的输出结果,对于产品质量控制有非常重要的意义。在线的CM-SVM模型非常适用于工业现场的近红外煤种分类,通过样本数的增加,其预测的置信度会随之提高。

[1] Cozzolino D. Planta Medica, 2009, 75(7): 746.

[2] Jamrógiewicz M. Journal of Pharmaceutical and Biomedical Analysis, 2012, 66: 1.

[3] Agelet L E, Hurburgh Jr C R. Critical Reviews in Analytical Chemistry, 2010, 40(4): 246.

[4] Kim D W, Lee J M, Kim J S. Korean Journal of Chemical Engineering, 2009, 26(2): 489.

[5] Andres J, Bona M. Talanta, 2006, 70(4): 711.

[6] Bona M, Andres J. Talanta, 2007, 72(4): 1423.

[7] Andres J, Bona M. Analytica Chimica Acta, 2005, 535(1): 123.

[8] Wang Y, Yang M, Wei G, et al. Sensors and Actuators B: Chemical, 2014, 193: 723.

[9] Vovk V, Gammerman A, Shafer G. Algorithmic Learning in a Random World: Springer Science & Business Media, 2005.

[10] Wang H, Lin C, Yang F, et al. Journal of Information and Computational Science, 2009, 6(1): 305.

[11] Shafer G, Vovk V. The Journal of Machine Learning Research, 2008, 9: 371.

[12] Burges C J. Data Mining and Knowledge Discovery, 1998, 2(2): 121.

[13] Chen Q, Zhao J, Fang C, et al. Spectrochimica Acta Part A: Molecular and Biomolecular Spectroscopy, 2007, 66(3): 568.

[14] Zhao J, Chen Q, Huang X, et al. Journal of Pharmaceutical and Biomedical Analysis, 2006, 41(4): 1198.

[15] Widjaja E, Zheng W, Huang Z. International Journal of Oncology, 2008, 32(3): 653.

(Received Apr. 20, 2015; accepted Aug. 16, 2015)

*Corresponding author

Rapid Coal Classification Based on Confidence Machine and Near Infrared Spectroscopy

WANG Ya-sheng1, YANG Meng2, LUO Zhi-yuan2, WANG You1, LI Guang1, HU Rui-fen1*

1. State Key Laboratory of Industrial Control Technology, Institute of Cyber-Systems and Control, Zhejiang University, Hangzhou 310027, China 2. Computer Learning Research Centre, Royal Holloway, University of London, Egham Hill, Egham, Surrey TW20 0EX, UK

Near-infrared reflectance spectroscopy (NIRS) is a simple, convenient and safe technology which is widely used in many industries. NIRS was employed to the rapid classification of coal in this study. The new method can be a replacement of the chemical analysis which is laborious and time consuming. Confidence machine was firstly applied to NIRS in this study which was used to evaluate the risk of the analysis. The near infrared reflectance spectrum of 199 coal samples including four types of coal (50 fat coal samples, 50 coking coal samples, 49 lean coal samples and 50 meager lean coal samples) from different mines in China were collected and classifiers based on the near infrared spectra of coal samples which were established by using machine learning methods to realize the rapid classification of coal samples. Confidence machine was introduced into the analysis technology based on NIRS in this paper. Confidence machine based on support vector machine (CM-SVM) was built and applied to the classification of coal samples via NIRS. Confidence machine is a probabilistic algorithm and instead of using hyper plane (SVM) to carry out the classification, using probability (CM-SVM) turned to be more effective which had 95.45% of the samples correctly grouped. Besides that, CM-SVM also estimated the confidence and credibility for each predicted sample. By setting different confidence levels, CM-SVM can perform region prediction whose error rate was predefined by the different confidence levels, which was very important for the control of product quality when NIRS was applied to the analysis of productions. Confidence machine is designed as an on-line learning method; new samples can be added to the training set one by one to improve the efficiency of the model and is very appropriate for industry on-line analysis. On-line CM-SVM models showed that the confidence of prediction would be raised as the samples increased, which was valuable for industry on-line analysis.

Near-infrared spectroscopy; Coal classification; Confidence Machine; Support vector machine

2015-04-20,

2015-08-16

国家高技术研究发展技划项目(2013AA041201)和浙江省科技计划项目(2015C37062)资助

王雅圣,1988年生,浙江大学控制科学与工程学系博士研究生 e-mail: xuanyu306@163.com *通讯联系人 e-mail: 0011377@zju.edu.cn

O657.3

A

10.3964/j.issn.1000-0593(2016)06-1685-05

猜你喜欢

置信学习机煤种
多原料煤种复配成浆性研究及其技术经济分析
融合有效方差置信上界的Q学习智能干扰决策算法
基于模糊深度置信网络的陶瓷梭式窑PID优化控制
大型煤炭堆场洒水控制技术
论煤种变化对五环炉煤气化的影响
基于极限学习机参数迁移的域适应算法
基于深度置信网络的近距空战态势评估
基于改进极限学习机的光谱定量建模方法
分层极限学习机在滚动轴承故障诊断中的应用
同一矿区煤质资料拟定方法探讨