APP下载

基于THz-TDS技术与改进IPSO-SVM模型的小米品质识别

2018-12-05李明利徐雷钧

江苏农业科学 2018年21期
关键词:适应度小米预处理

白 雪, 李明利, 徐雷钧,2

(1.江苏大学电气信息工程学院,江苏镇江 212013; 2.东南大学毫米波国家重点实验室,江苏南京 210096)

随着生活水平的不断提高,人们更加注重杂粮所独有的食疗保健等功能,如具有很高的食疗价值的小米(SetariaitalicalL.)、荞麦等[1]。小米作为我国主要的粮食之一,含有丰富的营养成分,具有清热解渴、健脾胃等功效,受温湿度、水分等影响,储藏不当将导致虫蛀和霉变等,严重危及消费者的身心健康。因此,实现小米品质便捷、高效的检测至关重要[2]。

目前,近红外光谱、电子鼻、核磁共振和机器视觉等技术常被用来实现小米的检测[3],而其中有的方法采用间接分析技术,抗干扰性差,有的方法则是成本高、精度低,检测范围有限,这便要求设计和开发一种新型、快速和无损的小米品质检测技术及测试仪器。太赫兹(THz)是位于微波和红外波段之间、频率范围为0.1~10 THz、辐射波长为0.03~3 mm 的电磁波。近年来,超快激光和半导体技术的迅速发展,极大地促进了THz技术进步,并被应用于通信、生物等领域[4-5]。由于THz波的高透射、低能量和指纹谱等独特优势,成为了农产品检测领域的新兴技术,Kim等提出采用THz技术对食品农残早期检测,并对几种常用农药测试分析[6]。Akagi等利用THz设备对低聚麦芽糖、乳糖等压片样品成像探测[7]。付秀华等利用THz技术分别对添加滑石粉、不同年份、不同发芽阶段的小麦样品检测分析[8-10]。梁川等以玉米为对象,针对高油玉米不同部位、玉米胚乳和胚、储粮害虫判定等进行了THz光谱检测与分析[11-13]。通过已有研究发现,对杂粮谷物质变检测的研究相对较少,如虫蛀、霉变和正常小米的早期识别等。

本试验采用THz-TDS技术在室温下以霉变、虫蛀和正常小米为研究对象,利用0~1.6 THz频段的吸收谱信息研究多种预处理和特征波长提取对PLS-DA预测性能的影响。利用所选特征波长构建PSO-SVM、IPSO-SVM识别模型,对提出的改进IPSO优化SVM算法验证分析,探索快速、高效和无损的小米品质识别方法。

1 材料与方法

1.1 试验装置及样品制备

试验于2017年在江苏大学国家重点学科基地进行,采用日本Advantest公司生产的TAS7x00TS太赫兹时域光谱探测仪,装置如图1所示。试验设置0~3 THz,精度0.1 mm,系统信噪比5 000,频谱分辨率3.8 GHz。为避免空气中水蒸气的影响,探测装置处于湿度小于3%、温度为21 ℃的氮气环境的隔离箱内。

霉变、虫蛀和正常小米样品均由江苏大学食品与生物工程学院提供,经粉碎、研磨、干燥和过滤获得各样品粉末。经300目筛过滤后用5 MPa的压力压制成直径6 mm、厚度 1.2 mm、质地均匀的平面薄片(质量0.1 g),表面平滑无痕。同一样品多点扫描,取相邻3点均值,利用模糊C均值聚类法进行聚类剔除异常样品,然后采用KS(Kennard-Stone)法划分训练集和测试集,最终训练集、测试集分别为90、45组。

1.2 粒子群(PSO)优化算法

PSO是继遗传、蚁群等算法后的又一种新的群体智能算法,数学描述如下[14]:

(1)

1.3 改进IPSO算法

为摆脱局部最优解和提高粒子有效性,对基于RBF核函数的SVM的PSO寻优过程改进[15-17],方案如下:

(1)增加微调因子ε、引导因子α、位置因子p和速度因子v,粒子飞行速度和位置如下:

(2)

式中:c1、c2满足c=cS+i(cT-cS)/it,cS、cT为c1和c2的初始值和终止值,i和it为当前和总迭代次数;收敛因子ξ∈[0.70,1.25],作用于收敛后期,用于提高优化效率;微调因子ε,加强微调幅度以避免局部极值;引导因子α=k+rand(),调节系数k∈[0.1,1];计算粒子当前位置与全局最优粒子的距离d及速度V,一旦粒子非常接近Gid(d

(2)添加随迭代次数而自适应改变的惯性权重W。

(3)

W随迭代次数线性增加,作用于收敛后期增强其全局搜索能力,较大W可以增强全局搜索能力,较小W强化局部搜索能力,Wmax、Wmin为惯性权重的最大值和最小值,取值[0.7,1.5]。达到迭代阈值iT时则重置w,非全局最优粒子重新初始化,增加搜索范围。

(3)引入自优化调节机制,增加动态感知机制F,预设响应阈值FT,计算适应度fi、Δfi。

(4)

(5)

式中:Δfi=fi+1-fi,Fi为Δfi绝对值之和,表征外部环境改变量。Fi≠0,说明外部环境已改变,使粒子具有感知外部环境变化的能力,当Fi大于响应阈值FT时,保持之前全局和局部最优解,按式(4)重新初始化当前粒子速度和位置。

将改进PSO算法应用于训练SVM,改进IPSO-SVM建模流程如下:(1)初始化粒子群,在参数允许范围内,确定种群数目,初步设定学习因子c1、c2的起始值和终止值cS、cT;总迭代次数it和迭代阈值iT;惯性权重的Wmax、Wmin;微调参数和动态响应阈值FT等参数;(2)将每个粒子的个体极值Pid设置为当前位置,计算每个粒子的适应度,将适应度最好的粒子所对应的个体极值作为最初的全局极值Gid;(3)依据式(2)、式(3)进行迭代计算更新粒子的速度和位置,产生新种群,计算和更新适应度,比较并更新局部、全局极值;(4)计算并判定d和V,若dFT则按照式(5)更新粒子速度和位置,返回到步骤(3);(6)判断是否满足终止条件,若达到最大迭代次数或所得解不再变化就终止迭代,输出最优解,否则返回到步骤(3)。

2 结果与分析

2.1 不同品质小米THz光谱分析

通过扫描样品和空样品分别得到样品和参考信号的THz光谱信息,为消除随机噪声,减小测量误差,多点扫描取均值作为样品的有效光谱。不同品质小米和参考信号的THz时频域谱如图2所示,样品对THz波的吸收和色散造成的相位和幅值相对参考信号均存在不同程度的延迟和衰减。频谱图显示参考频率范围是0~2.7 THz,样品对高频段部分的吸收较多导致有效频带变窄。

由图3可知,不同品质小米的吸收系数随频率的增加而增加,折射率谱相反,霉变、虫蛀小米的吸收系数和折射率均低于正常小米。有效频段内虽存在各自特征吸收峰,但吸收峰的位置相似,并没有显著区别,为此,不能完全依靠特征吸收峰鉴别其品质,要用模式识别方法进一步建模分析。因此,制作150个样品选取0~1.6 THz的吸收谱进行小米品质识别的研究,并提出了一种新型的IPSO优化SVM的方法。

2.2 THz光谱处理及分类模型

2.2.1 光谱预处理及特征信息提取 由于仪器和测量环境等因素的影响,所测数据中不可避免地包含部分噪声[18]。为了减弱和消除各种非目标因素对光谱的影响,净化谱图信息,得到精确的预测结果,采用标准正态交换(SNV)、多元散射校正(MSC)、直接正交信号校正(DSOC)、S-G(SavitZky-Golay)等对原始THz光谱数据预处理是十分必要的。

不同方式预处理后再经主成分(PCA)提取累计贡献率达到95%的主成分,建立基于PLS算法的小米品质与THz吸收谱之间的PLS-DA预测模型,引用确定系数R2,均方根误差RMSE和准确率评定模型,优选最佳预处理方式。采用 leave-one-out交叉验证法对模型验证,交互验证均方根RMSECV越小,交互决定系数Rcv2越接近1,模型预测性能越好,不同方式预处理后所建模型的结果详见表1,DSOC+SNV+S-G预处理后经PCA后的模型优于其他模型。

DSOC+SNV+S-G预处理后经PCA的累计贡献率达到95%的前13个主成分柱状图和前3主成分得分示意如图4所示,表明具有聚类趋势,但存在一定交互现象。建模交叉验证结果表明RMSECV为0.180 2,Rcv2为0.992 7时模型性能最佳,回代训练集和测试集准确率分别为100.00%、91.11%。其中测试集的预测结果如图5所示,预测偏差集中分布在0.25附近,仍有4组大于0.5。为提高模型准确率,采用特征波长提取方法优选特征,如连续投影法(SPA)、竞争性自适应重加权法(CARS)和遗传偏最小二乘(GAPLS)等,利用所选特征波长构建PLS-DA模型。

表1 不同方式预处理的PLS-DA模型的识别效果

由表2可知,CARS处理得37个候选波长,再经SPA二次优选16个特征波长所对应的吸收系数构建PLS-DA模型性能最佳,即CARS+SPA方式最佳,所选特征结果如图6所示,发现大多分布在峰值谷值点处,其测试集准确率达到93.33%,霉变组误判数最多。结果表明,DSOC+SNV+S-G和CARS+SPA是最佳预处理和特征提取方式,后续工作均在此基础上进行。

表2 特征压缩和特征波长提取建模结果

注:误判数依次表示正常、虫蛀和霉变误判个数。

2.2.2 PSO-SVM和IPSO-SVM识别模型 利用基于径向基内核(RBF)的支持向量机(SVM)和10折交叉验证的方法建立样品THz吸收系数谱与其品质之间的PSO-SVM、IPSO-SVM 分类模型。利用粒子群算法(PSO)快速寻找SVM最优惩罚参数c,RBF核函数参数g,采用最优参数构建SVM模型。经多次优化,最终设定种群规模粒子数为20,一般粒子数过大将降低迭代速度,过小将导致各粒子学习的对象较少,导致陷入局部最优解而停滞不前[19],学习因子c1=1.5、c2=1.7,迭代次数100,交互验证10次。PSO优化适应度与迭代次数曲线如图7所示,适应度逐步增大,在迭代次数为87时逐步趋于稳定,最大适应度94.44,优化所得RBF核函数参数g=17.430 9、惩罚参数c=0.305 1所建PSO-SVM模型测试集的预测准确率为95.55%,分类结果如图8所示。

IPSO-SVM模型在迭代次数、种群规模等参数与PSO-SVM相同情况下,经多次优化确定学习因子c1的起始值cs和终止值cT分别为1.0、2.45,c2取值[1.35,2.25];收敛因子ξ=0.785;微调因子ε=0.85;k=0.05,即引导因子α=0.05+ramd();惯性权重Wmax、Wmin和迭代次数阈值iT分别为1.5、0.7和60;位置因子p=0.1,速度因子v=0.05;响应阈值FT=75,优化适应度见图7,在迭代次数为70时逐步趋于稳定,最大适应度97.54,综合最优迭代次数和运行时间这2点考虑,改进IPSO优化参数优于PSO算法,IPSO优化所得最佳参数g、c分别为15.459 3、0.813 7时,IPSO-SVM模型的性能最佳,训练集和测试集识别准确率分别达到100.00%、97.78%,优于PSO-SVM模型,结果可见表3。图9分析了收敛因子ξ和响应阈值FT参数对IPSO-SVM模型性能的影响,在其他参数为最优时分别改变收敛因子ξ和响应阈值FT,主要分析参数变化对模型优化时间和测试集识别准确率的影响,以此为指标选出最优调制参数。

由表3可知,与PLS-DA模型相比,PSO-SVM和IPSO-SVM的性能均有所提高,其中IPSO-SVM预测性能优于其他分类模型,建模和预测运算时间均少于其他模型,预测准确率有所提高,其测试集准确率达到了97.78%。改进IPSO通过引入微调参数和更新机制等有效地解决了传统PSO寻优过程易陷入局部最优解的问题,提高了粒子的有效性和多样性,改善了SVM的收敛速度和分类精度,继而提高了小米品质识别精度和识别速度。

3 讨论

目前,THz技术不像其他光谱技术那么成熟,将它与化学计量学方法结合实现谷物品质快捷、高效识别的广泛应用仍是一个重要挑战。主要是因为THz探测系统具有体积庞大、集成化程度低、成本高等限制因素;此外,温度、水分等测试条件[20]对探测结果的准确性、可靠性也有较大影响,样品本身特征如厚度、密度等对探测结果也具有一定影响。若要THz技术摆脱试验条件实现广泛的应用,须要进一步完善THz探测装置和探测手段。

表3 不同模型预测结果

利用THz-TDS技术实现霉变、虫蛀和正常小米THz光谱特性分析,发现不同品质的小米在有效频段的吸收系数和折射率谱具有一定差异,虫蛀、霉变吸收系数和折射率均低于正常小米。但在整个研究过程中,也存在部分问题,主要是样品的种类不足,只用了1个品种小米的3种品质,没有考虑更多品种小米的品质等问题,将来须要对多种类小米品质进行研究,同时如何避免温度、水分、样品厚度、表面形态等对探测结果的影响也是一重要研究课题。

选取有效波段的吸收系数用于小米品质鉴别研究,比较不同预处理和特征波长提取方式对PLS-DA模型的影响,获得了最佳预处理和特征提取方式DSOC+SNV+S-G和CARS+SPA。在此基础上利用所选的特征波长构建PSO-SVM和IPSO-SVM分类模型,探索新型、高效的小米品质鉴别方法,实现定性识别算法的研究,除了采用更加充足的样品,还要对样品制备方式、探测方式和化学计量学方法进一步研究。

4 结论

本试验以小米样品为研究对象,结合THz技术提出了一种新改进粒子群(IPSO)优化支持向量机(SVM)的分类方法,构建IPSO-SVM模型,解决了传统粒子群寻优过程易陷入局部最优点的问题,提高了粒子的有效性,模型训练速度和稳健性也得到改善,其测试集准确率达到97.78%。此外,还使用了其他分类方法(PLS-DA、PSO-SVM)实现小米品质鉴别,从分类准确率和运算时间的角度考虑,IPSO-SVM模型均优于其他分类方法。因此,利用THz技术结合IPSO-SVM算法可以作为一种有效的小米品质鉴别方法,为THz-TDS技术在谷物的种类、年份和成分等检测方面的应用提供了快捷、高效和无损的试验方法。

猜你喜欢

适应度小米预处理
改进的自适应复制、交叉和突变遗传算法
杜小米的夏天
基于预处理MUSIC算法的分布式阵列DOA估计
读《幸福的小米啦:小米啦发脾气》有感
可爱的小米
基于空调导风板成型工艺的Kriging模型适应度研究
络合萃取法预处理H酸废水
基于自适应预处理的改进CPF-GMRES算法
少数民族大学生文化适应度调查
自适应遗传算法的改进与应用*