基于Fisher判别分析的中药材分类识别
2021-12-17丁学利戚昌盛房丽
丁学利 戚昌盛 房丽
摘 要:基于某种中药材的中红外和近红外两种光谱数据,首先运用标准差法分别提取特征波段,将两种红外光谱的特征波段数据合并后,采用Fisher判别分析法对245个已知产地的药材样本进行训练,预测了10个未知产地的药材样本,判别正确率达到了98.4%,对待判组进行了合理的分类。该研究对具有不同红外光谱特征、不同产地的中药材提供了一个快速有效的识别方法。
关键词:Fisher判别分析;红外光谱;中药材鉴别;SPSS
中图分类号:Q949;O212 文献标识码:A 文章编号:1673-260X(2021)11-0019-04
中药材的准确鉴别是质量管控的前提,也是安全用药的保证。近红外和中红外光谱分析是一种操作简单、无损且成本低的分析技术,一直得到中药材鉴别工作者或研究者的广泛关注[1-6]。如利用近红外光谱与模式识别技术可鉴别多种根茎类中药材[3];采用近红外光谱一致性检验法,可准确鉴别出不同厂家的药品真伪[4];运用化学计量学结合中红外光谱可实现对不同产地的中药材的鉴定与分析[5];采用中红外光谱数据可对不同产地的金银花进行快速、准确分类[6]。上述研究大多是对某一种红外光谱数据的分析(近红外或中红外光谱),很少有对两种红外光谱数据的综合分析。本研究将综合考虑近红外和中红外光谱数据的特征,采用Fisher判别分析实现对中药材的样本的分类识别,以期为不同产地且具有多种光谱特征的中药材的鉴别提供一种快速、准确的鉴别参考。
1 数据来源与分析
1.1 数据来源
本研究的数据来自2021年高教社杯全国大学生数学建模竞赛[7]E题附件3。附件3中有近红外和中红外两种光谱数据,如表1和表2所示。在表1和表2中No列为药材的编号,OP列表示该种药材的产地,其余各列第一行的数据为光谱的波数(单位cm)、第二行以后的数据表示该行编号的药材在对应波段光谱照射下的吸光度(单位AU)。245个中药材样本的产地(产地编号1~17)是已知的,还有10个中药材样本的产地是未知的。近红外的波数范围4004~10000,其中波段7002缺失,共有5996个波段。中红外的波数范围552~3999,共有3448个波段。
1.2 特征波段提取
近红外的光谱图,如图1所示。在4004~7200的波段范围,主要出现强谱峰,峰的变化剧烈,此光谱区域含有较多的化学信息。在7200~10000的波段范围内没有强峰出现,但光谱受噪声干扰较大。为了更好地区别样本,采用标准差法[8]选取特征波段。通过计算每列波段下吸光度的标准差,反映样本的离散程度,如图2所示。在图2近红外吸光度的标准差曲线的极值点附近选取特征波段,如可选取[4004,4008]、[4290,4294]、[4391,4395]、[4673, 4677]、[4798,4802]、[5180,5184]、[5637,5641]、[5794, 5798]、[6032,6036]、[6487,6491]、[6847,6851]、[9996, 1000],共12组,60个波数。
中红外的光谱图,如图3所示。在552~1825的波段范围,出现多个强谱峰,而在2660~3600的波段范围,主要有两个强谱峰。与近红外特征波段选法类似,计算中红外吸光度的标准差,如图4所示。选取7组特征波段:[1059,1063]、[1111,1115]、[1138,1142]、[1300,1304]、[1720,1724]、[2921,2925]、 [3288,3292]。
2 Fisher判别分析模型
判别分析是通过训练已给类别的样本,对需要判别的样本进行分类的一种统计方法,是一种有监督的分类。Fisher判别法[9-11]是判别分析中经常使用的一种分类方法,其基本思想是投影。设在n维空间中某个样本点X=(x,x,…,x),寻求一个线性函数p(x)=∑ax,能够将其降为一维数值的,然后应用函数p(x)把n维空间中的所有样本(包括待判样本)都变换为一维数据,再根据样本之间的距离远近把待判样本点分到不同的类别。这里使用了一元方差分析的思想,即采用组间均方差与组内均方差之比最大的原则来进行判别。Fisher判别法可以使同类中各个样本点之间的差异尽可能地缩小,又能让不同类别中各个样本点之间的差异尽量地扩大,从而有效地提高判别效率。
3 Fisher判别分析结果
将近红外提取的特征波段数据与中红外提取的特征波段数据一块导入到SPSS软件中,以特征波数作为判别分析变量,以OP号作为分组变量。用前245个中药材样本作为训练样本,后10个样本作为待测樣本(待测样本编号:4、15、22、30、34、45、74、114、170、209)进行判别分析。表3和表4是对Fisher判别分析的检验结果。由表3知,分组需要16个典则判别函数,其中判别函数1~13在显著性水平0.05上是显著的(表4),且前13个判别函数就能解释整体方差的100%,即前13个判别函数就可很好地对样本集进行分组,因此可以使用Fisher判别法对此数据集进行分类。
图5是典则判别函数的散点图。从图5可看出,类别5、11、12、13、15、16之间的距离较远,较容易分类;而有些别类别之间的距离较近(如类别1与14;6与7、10;3与8;4与17等)不易分类,易出现判别错误,影响判别的正确率。表5是Fisher判别分析结果,一共判错4个样本,综合正确率达到98.4%。表6是对待测样本的判别结果,结合图5知判别结果较理想。
4 结语
针对17种产地的中药材近红外和中红外光谱数据,运用标准差法分别提取12组和7组特征波段,并采用所选波段数据建立了Fisher判别分析模型。若单独使用近红外(中红外)数据进行判别分析,不易得到合理的分类。因此,综合考虑两种光谱特征,将两种光谱数据合并后,判别正确率达到了98.4%,且对待判组进行了合理的分类。该研究对不同产地和不同光谱特征的中药材鉴别提供了一个快速有效的方法,为其它中药材的识别提供了一种借鉴。
参考文献:
〔1〕陈士林,郭宝林,张贵君,等.中药鉴定学新技术新方法研究进展[J].中国中药杂志,2012,37(08):1043-1055.
〔2〕李玲,丁野,孙辉,等.三组易混淆中药材鉴别技术研究进展[J].中国药师,2015,18(01):1959-1962.
〔3〕岑忠用,雷顺新,雷蕾,等.近红外光谱法鉴别6种根茎类中药材[J].华中农业大学学报,2021,40(03):271-277.
〔4〕梁华伦,谭昌成,江秀娟,等.近红外光谱快速鉴别不同厂家小柴胡颗粒研究[J].中医药导报,2021,27(01):62-64.
〔5〕安淑静,王婷,牛豆,等.基于中红外光谱结合化学计量学对不同产地山茱萸鉴定与分析[J].中医药学报,2021,49(08):49-54.
〔6〕龚海燕,罗晓,雷敬卫,等.不同产地金银花中红外光谱分析[J].中医学报,2016,31(01):96-98.
〔7〕2021高教社杯全国大学生数学建模竞赛赛题[EB/OL].http://www.mcm.edu.cn/html_cn/nod e/4d73a36cc88b35bd4883c276afe39d89.html,2021 -10-07.
〔8〕褚小立,袁洪福,陆婉珍.近红外分析中光谱预处理及波长选择方法进展与应用[J].化学进展,2004,14(04):528-542.
〔9〕褚璇,王伟,张录达,等.高光谱最优波长选择及Fisher判别分析法判别玉米颗粒表面黄曲霉毒素[J].光谱学与光谱分析,2014,34(07):1811-1815.
〔10〕钱宇,胡雪,孙跃,等.基于指纹图谱和化学计量学的浓香型白酒分类研究[J].指挥控制与仿真,2021,40(06):152-156.
〔11〕陈敏琼.利用SPSS进行判别分析的几个问题的说明[J].现代计算机(专业版),2015,29(05):34-39.