基于近红外光谱分析技术的转Bt基因水稻种子及其亲本快速鉴别方法
2019-10-25林萍高明清陈永明
林萍 高明清 陈永明
摘要:提出一种利用近红外光谱技术快速鉴别转Bt基因水稻种子及其亲本的新方法,采用近红外光谱仪获取转Bt基因的水稻种子克螟稻1号、克螟稻2号及其亲本秀水11的反射光谱特征曲线,采用ISOMAP流形降维法对采集到的光谱数据进行非线性降维,提取45个特征波长,用于建模输入,利用最小二乘支持向量机方法建立光谱反射率值与类别值之间的预测模型。3种水稻种子样本数均为350个,共计1 050个样本,将其分成900个训练集样本和150个预测集样本,预测准确率达94.67%。说明本研究提出的方法对于转Bt基因水稻种子及其亲本具有很好的分類和鉴别能力,且检测过程比传统理化检测手段简单,操作性强。该研究为今后转基因水稻种子及其亲本的快速无损检测提供了新的方法。
关键词:转基因水稻;ISOMAP流形降维;最小二乘支持向量机;近红外光谱技术
中图分类号: O657.33;S127 文献标志码: A 文章编号:1002-1302(2019)13-0072-03
随着转基因技术在农业生产中的广泛应用,它在提高农产品品质、增强农作物的抗逆性和抗虫等方面成绩显著,越来越多的转基因农产品开始出现在人们的餐桌上。中国是产粮大国,水稻产量居全球首位,但有75%的水稻受水稻螟虫虫害,随着转基因技术的迅猛发展,研究人员发现,种植Bt水稻可以减少80%的杀虫剂用量,并且给农户带来40亿美元/年的收益[1-2]。目前,转基因农产品检测技术也逐渐受到研究人员关注,综合各国现有的转基因产品检测方法,主要有DNA检测法和蛋白质检测法两大类[3],常用的包括核气相质谱法[4]、酸印记法(southern blot)[5]、酶联免疫吸附法、聚合酶链式反应、蛋白质印记法[6]等,各检测方法的特点如表1所示。这些化学分析法由于耗时长、操作复杂、易造成环境污染,难以满足实际应用中在线快速准确鉴别的需要。因此,寻求一种高效、快速、准确的检测方法对转基因产品的鉴定识别显得尤为重要。
目前,近红外光谱分析技术已经开始应用于转基因农产品的检测应用研究中。芮玉奎等利用近红外光谱分析技术分析了3 500~12 000 cm-1区间的波谱信息,对转基因玉米及其亲本进行了识别分析,得到了很高的识别精度[7]。Hu等利用近红外透射光谱数据建立了转基因白杨树的识别模型,结果证明该方法可以有效地识别转基因树木[8]。爱荷华州立大学谷物品质研究室利用传统种植大豆和Roundup Ready大豆的近红外光谱在910~1 000 nm波长附近的1个偏移,成功地将传统种植大豆和抗草甘膦大豆有效地区分开来[9]。翟亚锋等利用近红外光谱分析技术对转基因小麦种子进行判别分析,得到了满意的效果[10]。朱文超等利用近红外光谱实现了对转基因水稻及其亲本叶片的判别[11],但针对转基因水稻种子方面的报道较少,且在国内外文献中鲜有对转Bt基因水稻种子及其亲本光的近红外光谱特性进行研究的报道。
本研究的目的是通过近红外光谱分析技术结合现代化学计量学方法实现对转Bt基因水稻种子克螟稻1号和克螟稻2号及其亲本秀水11的快速无损检测。
1 试验与方法
1.1 仪器设备
试验数据的获取采用美国ASD(Analytical Spectral Device,Boulder,USA)公司的Handheld Field Spec光谱仪,光谱分辨率为0.002 μm,光源采用14.5 V卤素灯,采集系统原理如图1所示。因为转Bt基因的水稻是利用转基因技术将苏云金芽胞杆菌杀虫蛋白基因作为外源基因导入水稻获得的,因此试验采集1.000~2.650 μm中红外波段的漫反射光谱总计共1 050个样本,每个样本光谱扫描次数设定为30次并取平均值。选取900个样本作为建模集样本进行训练,剩余150个作为预测集样本,分析软件采用Matlab R2016a(The Math Works,USA)。
1.2 样品与数据采集
样本均来自浙江大学水稻生物学国家重点实验室,依次做好标记并放入保鲜袋中,置于0 ℃气候箱中保存。共计 1 050 个样本,其中转Bt基因水稻克螟稻1号和克螟稻2号以及亲本秀水11样本分别为350个。光谱数据采集和分析试验于2016年8月在原农业部光谱检测重点实验室进行,不同品种样本的光谱采集采用交替进行的方式,每个样本采集数据30次作平均处理并保存,所有测量都在相同的条件下进行,温度28 ℃,相对湿度65%。
1.3 流形降维法
由于近红外光谱主要是倍频和合频的吸收,光谱信息重叠严重,用光谱技术精确定量样本的特征属性首先须要从复杂的光谱信息中提取出有用信息。本研究利用降维技术将高光谱数据投影到低维空间中,从而更有利于发现数据集的聚类性质[12]。目前常用的降维技术有主成分分析、多维尺度变换[13]等。这些方法多是基于线性降维技术,难以有效表达非线性高维数据结构特征,它们构造的欧式距离矩阵不能有效地将流形样本点间的非线性关系反映出来,无法求解高维非线性数据集的本质维数。等距映射(ISOMAP)[14]是一种新的非线性降维技术,该方法采用标准多维尺度变换算法获得样本间测地距离不变的低维流型,它从样本局部空间出发,在保持数据点的内在几何性质(两点间的测地距离)不变的基础上,使用最近邻图中的最短路径作为测地线距离,并作为多维尺度变换地输入,进而发现嵌入在高维空间的低维坐标。
1.4 最小二乘支持向量机
最小二乘支持向量机算法是在经典支持向量机算法的基础上改进得到的,与传统支持向量机不同的是最小二乘支持向量机算法只要求解一个线性方程组,相比于传统支持向量机(SVM)算法须要求解非线性方程组而言要简单得多[15]。本研究采用径向基(RBF)核函数作为非线性函数,其参数的选择采用格点搜索法和留一交叉验证法对校正集样本进行训练,得到最佳参数γ和δ2值。γ值对改进最小二乘支持向量机模型起至关重要的作用,决定结构风险最小化(SRM)和经验风险最小化(ERM)之间的平衡。δ2直接影响初始的特征值和特征向量,用于控制函数回归误差,δ2值过小,易出现对样本数据的过学习现象,反之则只出现欠学习现象。
2 试验结果与分析
2.1 转基因水稻种子及其亲本的近红外光谱图
由于测量到的光谱在1 000~1 100 nm范围内存在较大的噪声,因此选用1 100~2 500 nm波长范围内共计1 400个变量进行分析。转Bt基因的水稻种子及其亲本的近红外吸收光谱如图2所示,图中横坐标为波长,纵坐标为反射率。从图2可以看出,3种水稻种子的光谱曲线趋势非常相似,只从光谱特征上难以区分不同种类的转基因水稻种子。因此,须要运用相应的化学计量学建模方法对光谱数据进行处理。
2.2 非线性特性检测
本研究采用2种定量的数值统计方法(Durbin-Watson测试法[16-17]、Run测试法[18])来检查光谱数据的非线性程度。经计算,Durbin-Watson测试值d为1.548,大于临界值 dH=1.40,表明模型残差不相关存在非线性结构,Run测试法的检验值Z为2.316,大于临界值1.96。试验结果表明,采集到的光谱数据存在显著的非线性结构。此外,增强偏残差图分析法[19]也用来确定采集到的光谱数据中是否存在非线性结构。图3为第1主成分(PC1)与前6个主成分残差多项式拟合的结果,由此可以看出数据集存在显著的非线性结构。
2.3 线性与非线性降维方法比较
图4是分别采用线性降维方法PCA、多维尺度变换以及非线性降维方法ISOMAP提取的特征波长,结合最小二乘支持向量机回归分析方法得到的建模集样本的预测精度与本真维数之间的关系曲线。使用ISOMAP算法进行降維时有2个参数须要调整,分别是邻域参数k和样本本真维数d。在不同参数组合下,基于ISOMAP的最小二乘支持向量机模型得到不同的预测效果。本研究参数优化采用网格搜索法和留一法验证法,对光谱数据建模集分别选取k∈[5,20]、d∈[5,100]作ISOMAP降维,再用最小二乘支持向量机进行回归建立转基因水稻种子及其亲本的校正模型。从图4可以看出,利用非线性流形降维方法ISOMAP提取的特征波长进行回归预测得到的精度比线性降维方法PCA和多维尺度变换高。采用ISOMAP非线性流形降维方法预测精度随着维数的增加逐渐提高,当邻域参数k=5、本真维数d=45时,预测精度达到最高,为94.67%。2种线性降维方法PCA和多维尺度变换提取的特征波长进行回归预测的效果相差不大,最高预测精度分别为75.31%和78.62%,对应的特征波长维数分别为40和60。通过比较分析可得,非线性降维方法能够更好地发现数据集的聚类性质,揭示实际数据的非线性结构。
2.4 最小二乘支持向量机建模及预测
本研究采用了二步格点搜索法对参数γ和δ2进行优化,参数γ的选择范围设定为2-1~210,δ设定为2~215。寻优过程由粗选和精选2个步骤组成:粗选搜索步长较大,最优参数范围由误差等高线确立;精选在粗选基础上,采用较小步长进行搜索,最终确定最优模型参数,寻优结果得到最优的γ和δ2分别为43.598和11.368。为了评估最小二乘支持向量机模型鉴别转基因水稻种子及其亲本的鲁棒性,计算了预测结果的混淆矩阵和精度-召回曲线。从图5-a可以看出,最小
二乘支持向量机回归模型对克螟稻2号和秀水11的分类精度达到了100%,所有的样本都被正确判别出。克螟稻1号有16%被误判为秀水11。图5-b是精度-召回曲线,平均准确率是计算所有精度-召回曲线上的单点局部值的平均准确度,考虑了样本总体分类效果,计算得到MAP指数为 0.97。分类结果说明近红外光谱技术能够实现转基因水稻种子及其亲本的无损、快速检测。
3 结论
利用近红外光谱技术对转基因水稻种子及其亲本进行了判别研究。根据Durbin-Watson测试法和Run测试法检查光谱数据的非线性程度,检测结果表明,光谱数据中存在非线性结构, 因此须要进一步采用非线性流形降维ISOMAP法对近红外光谱数据进行降维,来获取有效光谱信息,将ISOMAP提取的本真光谱结构作为最小二乘支持向量机的输入实现近红外光谱的非线性建模,达到总体识别精度为 94.67%,平均准确率指数为0.97,提出的检测方法比常规的化学方法简单、操作性强。本研究为流形学习算法引入近红外光谱建模提供了一种有益尝试,为今后转基因水稻种子的快速无损检测提供了新的方法。
参考文献:
[1]俞 超,张 吉,叶生晅,等. Bt转基因水稻生理生化特性研究初报[J]. 江苏农业科学,2008(4):31-33.
[2]刘 凯,杨亚军,田俊策,等. 不同氮肥水平下转Bt基因水稻对褐飞虱和白背飞虱生态适应性的继代影响[J]. 中国水稻科学,2016,30(2):200-209.
[3]谢小波,舒庆尧. 用Envirologix Cry1Ab/Cry1Ac试剂盒快速测定转基因水稻Bt杀虫蛋白含量的研究[J]. 中国农业科学,2001,34(5):465-468.
[4]Fiehn O,Kopka J,Trethewey R N,et al. Identification of uncommon plant metabolites based on calculation of elemental compositions using gas chromatography and quadrupole mass spectrometry[J]. Analytical Chemistry,2000,72(15):3573-3580.
[5]Milcamps A,Rabe S,Cade R,et al. Validity assessment of the detection method of maize event Bt10 through investigation of its molecular structure[J]. Journal of Agricultural&Food Chemistry,2009,57(8):3156-3163.
[6]Margarit E,Reggiardo M I,Vallejos R H,et al. Detection of Bt transgenic maize in foodstuffs[J]. Food Research International,2006,39(2):250-255.
[7]芮玉奎,羅云波,黄昆仑,等. 近红外光谱在转基因玉米检测识别中的应用[J]. 光谱学与光谱分析,2005,25(10):1581-1583.
[8]Hu Z,Yeh T F,Chang H,et al. Elucidation of the structure of cellulolytic enzyme lignin[J]. Holzforschung,2006,50(4):1040-1397.
[9]Zhou P P,Zhou R,Zhao Y F,et al. Contamination assessment of dietary ethyl carbamate in wine[J]. Chinese Journal of Food Hygiene,2008,20(3):208-209.
[10]翟亚锋,苏 谦,邬文锦,等. 基于仿生模式识别和近红外光谱的转基因小麦快速鉴别方法[J]. 光谱学与光谱分析,2010,30(4):924-928.
[11]朱文超,成 芳. 转基因水稻及其亲本叶片的可见/近红外光谱分析[J]. 光谱学与光谱分析,2012,32(2):370-373.
[12]翁时锋,张长水,张学工. 非线性降维在高维医学数据处理中的应用[J]. 清华大学学报(自然科学版),2004,44(4):485-488.
[13]吴晓婷,闫德勤. 数据降维方法分析与研究[J]. 计算机应用研究,2009,26(8):2832-2835.
[14]汪洪桥,蔡艳宁,孙富春,等. 多尺度核方法的自适应序列学习及应用[J]. 模式识别与人工智能,2011,24(1):72-81.
[15]杨国强,张淑娟,赵艳茹. 基于近红外透射光谱的汾阳王酒快速鉴别[J]. 农业机械学报,2013,44(增刊1):189-193.
[16]Capron X,Walczak B,Noord O D,et al. Selection and weighting of samples in multivariate regression model updating[J]. Chemometrics&Intelligent Laboratory Systems,2005,76(2):205-214.
[17]Kleinbaum D G,Kupper L L,Muller K E. Applied regression analysis and other multivariate models[J]. Technometrics,1978,31(1):117-118.
[18]Walczak B,Jouanrimbaud D,Massart D L,et al. Comparison of multivariate calibration techniques applied to experimental NIR data sets[J]. Applied Spectroscopy,2000,54(4):608.
[19]Kompany-Zareh M,Mirzaei S. Spectrophotometric resolution of ternary mixtures of pseudoephedrine hydrochloride,dextromethorphan hydrobromide,and sodium benzoate in syrups using wavelength selection by net analyte signals calculated with hybrid linear analysis[J]. Analytica Chimica Acta,2004,526(1):83-94.