APP下载

Bayes逐步判别分析模型在物质浓度辨识中的应用

2018-01-18刘建清

数字技术与应用 2018年9期
关键词:模式识别概率

刘建清

摘要:物质浓度与其不同颜色读数间存着非线性关系,用物质颜色读数辨识物质浓度是一个多维非线性数据处理问题。传统比色法是一种人工检测物质浓度的方法,但该方法常因人对颜色的敏感差异和观测误差导致对物质浓度出现不准确的判断。为克服这传统人工检测物质浓度的不足,建立了基于 Bayes逐步判别分析模型的物质浓度辨识方法,实例分析表明该方法具有很高的精确度,用该方法进行物质浓度辨识完全可行。

关键词:物质浓度;模式识别;Bayes逐步判别分析;概率

中图分类号:TP7 文献标识码:A 文章编号:1007-9416(2018)09-0062-03

比色法是目前常用的一种检测物质浓度的方法,即把待测物质制备成溶液后滴在特定的白色试纸表面,等其充分反应以后获得一张有颜色的试纸,再把该颜色试纸与一个标准比色卡进行对比,就可以确定待测物质的浓度档位了。由于每个人对颜色的敏感差异和观测误差,使得这一方法在精度上受到很大影响。随着照相技术和颜色分辨率的提高,希望建立颜色读数和物质浓度的数学模型,即只要给模型输入照片中的颜色读数就能够通过计算获得待测物质的浓度,而模型的精度直接关系着待测物质浓度的准确性,见于监测数据呈现明显的类状或族状,可以将物质浓度判断问题归结为类别辨误问题或模式识别问题。为此,本文在已知颜色读数和相应物质浓度实验数据的基础上建立了基于Bayes逐步判别分析的物质浓度识别模型,该模型是实质上是一种多元非线性概率回归分析模型,实例分析表明用该模型预测物质浓度具有很高的精确度,好于支持向量机[1-2]、神经网络[3-4]等辨识模型,值得工程技术人员借鉴。

1 Bayes逐步判别分析简介

判别分析的是在已知分类数目的情况下,利用统计方法和某个准则对任意给定的一个样品判断其所属的类别。

Bayers准则适合于多个类别(3个或3个以上)判别,它把M(M≥3)组(类)样品看成M个总体U1,U2,…,UM(这些总体服从正态分布),对于待判样品(为变量数),在 Bayers准则下计算属于各总体的后验概率,,…,(利用多元正态分布概率密度计算),最后将归属于后验概率最大的那一组(类)[5-6]。

2 数据来源及模型建立

2017年全国大学生数学建模C题给出一组二氧化硫的浓度与其颜色的读数,如表1所示。

首先按浓度大小分类,将浓度为0,20,30,50,80,100,150对应的样本分别看成一类,共7类,类别值分别为1,2,3,4,5,6,7。当类别值为1时,则对应的浓度为0;当类别值为2时,则对应的浓度为20;当类别值3时,则对应的浓度为30;当类别值4时,则对应的浓度为50;依次类推。

将表1中二氧化硫指标数据及相应类别值列导入SPSS19中,选择“分析”|“分类”|“判别”命令,按提示对话框完成所有操作,得到的Bayes準则[7-8]下逐步线性判别函数为:

模型信息:如表2所示。

第一特征根2895.620,能够解释所有变异的99.1%。

表3中的Sig均为0,说明7个典型判别方程的判别能力都是显著的,并且剔除掉了指标(色调H)。下面给出模型的反向检验结果。

将表1中样本的4个指标值代入上述式(1)~(7)求每个样本的类别值(Y1,Y2,Y3,Y4,Y5,Y6,Y7,无需转化成后验概率),以最大值原则归类,计算结果见表4。

下面给同3个测试样本(2017年全国大学生数学建模C题),见表5。

将表6中3个样本的特征指标值代入式(1)至式(7),求得样本属于各类的类别值,并按最大类别值归类,如表6所示。

可见预测精度为100%,说明多项Bayes逐步判别概率回归模型具有非常高的拟合预测能力,用物质浓度预测、以及其他模式识别或类别辨识完全可行。

3 结语

Bayes逐步判别回归模型是一种基于概率的多元非线性问题的处理方法。实例分析表明该方法用于类别辨识或模式识别具有很高的精确度。对样本物质浓度进行适当类别划分,用表征浓度的特征数值创建多项logistic回归模型,并用统计软件SPSS估算模型系数,通过对建模样本和测试样本的拟合预测精度的分析,准确度均达到100%,表明该模型预测效果很好,值得工程技术人员借鉴。

参考文献

[1]平源.基于支持向量机的聚类及文本分类研究[D].北京:北京邮电大学,2012.

[2]谷文成,柴宝仁,滕艳平.基于粒子群优化算法的支持向量机研究[J].北京理工大学学报,2014,(7):705-709.

[3]张建强,高世家,赵霁红.舰船RCS特征提取与GA-BP神经网络分类研究[J].舰船科学技术,2016,(3):125-130.

[4]张绍兵.基于神经网络的规则提取与分类算法的研究[D].哈尔滨:哈尔滨工程大学,2006.

[5]王江荣,文晖,张克功,等.基于极大似然估计的logistic回归模型在煤与瓦斯突出危险等级评价中的应用[J].煤,2015,(2):22-24,39.

[6]谢中华.MATLAB统计分析与应用40个案例分析[M].北京:北京航空航天大学出版,2010.

[7]杨维忠,张甜.SPSS统计分析与行业应用案例详解[M].北京:清华大学出版社,2011.

[8]王江荣.基于SPSS的贝叶斯逐步线性判别法在煤炭种类识别中的应用[J].选煤技术,2014,(5):64-67.

猜你喜欢

模式识别概率
概率与统计(一)
概率与统计(二)
紫地榆HPLC指纹图谱建立及模式识别
浅谈模式识别在图像识别中的应用
第四届亚洲模式识别会议
可拓模式识别算法中经典域的确定方法
第3届亚洲模式识别会议
电气设备的故障诊断与模式识别