APP下载

基于近红外光谱和LSSVM方法的转基因大米鉴别研究

2017-12-06,,,,

食品工业科技 2017年22期
关键词:识别率转基因预处理

,,, ,

(1.华东交通大学机电与车辆工程学院,江西南昌 330013;2.江苏大学食品与生物工程学院,江苏镇江 212013;3.赣州出入境检验检疫局,江西赣州 341000)

基于近红外光谱和LSSVM方法的转基因大米鉴别研究

郝勇1,2,温钦华1,罗秋红3,饶敏3,陈斌2

(1.华东交通大学机电与车辆工程学院,江西南昌 330013;2.江苏大学食品与生物工程学院,江苏镇江 212013;3.赣州出入境检验检疫局,江西赣州 341000)

采用近红外漫反射光谱结合主成分分析(principal component analysis,PCA)和最小二乘支持向量机(least squares support vector machine,LSSVM)研究转基因大米的鉴别方法。采用PCA方法分析大米样品光谱空间分布;不同的光谱预处理方法:5点平滑、多元散射校正(multiplicative scatter correction,MSC)和标准正态变量变换(standard normal variate transformation,SNV)结合LSSVM用于定性判别模型的建立和优化;采用格点搜索方法对LSSVM模型的惩罚因子(c)和径向基核函数宽度(g)进行优化;正确识别率(correct recognition rate,CRR)用于判别模型的评价。结果表明:MSC结合LSSVM可用于转基因大米定性判别模型的建立,最优模型的CRR为97.50%。该方法有望成为转基因食品快速鉴别的一种辅助方法。

近红外光谱,转基因大米,主成分分析,最小二乘支持向量机

近些年,转基因技术得到迅猛发展,大量抗虫、抗旱及品质改良的转基因农作物品种问世。中国已成为世界上种植转基因作物面积最大的国家之一[1-3],转基因食品对人类健康及生态环境的潜在影响也日益受到人们的普遍关注。世界各国都在加强对转基因食品的管理,我国政府相关监管部门也在积极努力地修订和完善转基因食品安全政策,以加强对转基因食品安全的管理,因此转基因食品的快速检测是十分重要的[4-6]。水稻是我国重要的粮食作物,为全国约2/3的人口提供食物,因此转基因大米快速检测方法的研究迫在眉睫。

目前转基因食品检测方法主要包括转基因核酸检验法-定性聚合酶链反应(polymerase chain reaction,PCR)、适时PCR、荧光定量PCR、多重PCR、基因芯片、等温核酸扩增及蛋白检验法等方法(含印迹法、酶联免疫吸附、免疫试纸条法)[7-11]。在利用PCR进行检测时,首先需提取所测目标的高质量DNA基因组并准备合适的引物,再在适宜的反应体系中培养,最后进行凝胶电泳,整个转基因检测过程繁琐、费时、检测成本高且极易造成交叉污染[12]。上述这些传统检测方法均存在类似耗时、高成本等不足,因此,急需探索一种准确、快速、简便且成本低廉的检测方法用于转基因食品的现场快速检测。

近红外光谱的波长范围为780~2500 nm,主要记录的是有机物分子中一些含氢基团(C-H、O-H、N-H、S-H等)的倍频和合频吸收,容易获得稳定的特征谱图[13-14]。不同的物质在近红外区域有特定的、丰富的吸收光谱[15],可以实现复杂物质的定性鉴别和定量分析,具有测试方便、速度快、成本低和无损等优点。近红外光谱技术已在转基因作物及转基因食品的检测中得到了应用。Aderval[16]等将近红外光谱技术与SVM-DA(支持向量机-判别分析)和PLS-DA(偏最小二乘-判别分析)方法相结合用于转基因和非转基因大豆油的快速鉴别,其中SVM方法的转基因样本识别率为90%,PLS-DA方法的识别率为80%;谢丽娟[17]采用近红外光谱技术结合多种模式识别方法对转基因番茄进行检测,转基因样本的总体识别率为95.81%;翟亚锋等[18]应用近红外光谱技术结合仿生模式识别方法识别转基因小麦,识别率达到了95.6%;张龙[19]使用近红外光谱技术结合偏最小二乘法识别转基因大米(外来基因为OsTCTP和Osmi166),识别率达到了100%;于燕波[20]利用近红外光谱结合DPLS方法进行转基因水稻的识别,其中对稻种中含中作321和日本晴转基因的样本的识别率为100%,对稻种中含TP309基因样本的识别率为93.4%。由以上研究可知,基于近红外的转基因作物的识别效果与选用的化学计量学算法及转基因作物所植入的外来基因的类型有关。

本文采用近红外漫反射光谱技术结合主成分分析法(principal component analysis,PCA)和最小二乘支持向量机(least squares support vector machine,LSSVM)进行抗虫转基因大米(含BT基因)判别模型的建立和优化,期望为转基因大米的快速鉴别提供一种快速准确的参考方法。

1 材料与方法

1.1材料及仪器

转基因大米样本:“Bt汕优63”品系大米 该品系是在原有水稻中导入苏云金芽胞杆菌(BT)基因使其具有抗虫特性,由中国检验检疫科学研究院提供;转基因大米的对照样本 未导入抗虫基因的原始品系“汕优63”由市场收集所得;总共收集大米样本120份,转基因和非转基因大米各60份。

MicroNIR 1700型便携式微型近红外光谱仪 美国JDSU公司生产,用于大米漫反射光谱的采集。

1.2实验方法

1.2.1 光谱采集 采用石英玻璃管盛放样品,装样高度约为2 cm,玻璃管直径与光谱仪圆形检测窗口相同,检测时直接将样品放置于采集窗口进行光谱采集,波长范围为900~1700 nm。每个样品采用重复装样的方式采集三条光谱,平均光谱作为最终分析光谱。

1.2.2 样品转基因成分分析 两类样本由赣州出入境检验检疫局采用传统PCR检测方法进行验证。使用CTAB试剂提取样本水稻基因组DNA,将含有CaMV35S启动子、NOS终止子和Cry1Ac基因的质粒作为阳性对照,选用对应的引物,然后进行常规PCR扩增并将其扩增产物进行凝胶电泳。实验结果证实样本可靠,测试样本含BT转基因成分,而原始品系样本不含抗虫转基因成分。

1.3样品集划分及光谱预处理

采用Kennard-Stone(KS)方法[21-22]进行样品集的划分,将转基因和非转基因样品的光谱分别按2∶1的比例划分为校正集和测试集,因此两类样品的校正集光谱分别有40条,测试集则均各有20条光谱。

在大米样品光谱的采集过程中,为了消除重复装样引起的漫反射光程不一致导致的光谱漂移和噪声等因素的影响,需要对光谱进行预处理,从而提高校正模型的预测能力。本文采用5点平滑、多元散射校正(multiplicative scatter correction,MSC)[23]和标准正态变量变换(standard normal variate transformation,SNV)[24]3种预处理方法对光谱进行预处理以消除噪声(随机误差)、固体颗粒大小、表面散射以及光程变化等因素对近红外漫反射光谱的影响。

1.4数据分析及评价指标

PCA是一种常用的数据降维方法,该方法能够在最大限度地保留光谱原始数据信息的基础上有效地剔除数据中的冗余信息,便于后续分析。使用PCA对大米样品的近红外光谱进行处理,通过光谱主成分的空间分布来判断能否区分转基因和非转基因大米。

LSSVM是基于SVM的一种改进算法。它通过构造损失函数将原SVM中算法的二次寻优变为求解线性方程,其求解速度较快,在各个领域中都得到了广泛的应用[25-26]。LSSVM方法共有4种核函数进行选择(包括线性核、多项式核、径向基函数核和高斯核),其中径向基函数核(radial basis function,RBF)由于其良好的非线性问题处理能力而被广泛应用,因此本文使用RBF函数来实现LSSVM建模。

采用正确识别率(correct recognition rate,CRR)对判别模型进行评价。正确识别率可准确的表征定性判别模型的优劣。

CRR计算公式见式(1):

式(1)

CRR越接近于100%,判别模型的精度越高。

2 结果与分析

2.1大米样品的近红外漫反射光谱

转基因和非转基因大米的原始近红外漫反射光谱如图1所示。从漫反射光谱图中可知转基因和非转基因大米的光谱形状极其相似,且有部分重叠,肉眼无法从中分辨出是否为转基因大米。因此需通过光谱预处理方法结合定性判别算法对大米进行定性区分。

图1 转基因和非转基因大米的原始近红外漫反射光谱

2.2大米光谱的主成分分析

PCA方法能够在保留原始光谱数据信息的基础上进行冗余信息的剔除。采用PCA方法对原始大米样品的近红外光谱进行处理,样品前3个主成分空间分布如图2所示,非转基因大米和转基因大米的PCA分布图中部分样品互相重叠交织在一起,无法完全分离,而且采用该方法无法准确的计算转基因和非转基因大米间的明确界限和CRR值,因此需要进一步采用其它有监督的模式识别方法对样品进行识别。

图2 转基因和非转基因大米光谱的主成分分布图

2.3基于最小二乘支持向量机(LSSVM)的转基因大米定性模型建立

在利用LSSVM方法建立定性模型时,除了核函数的选择外,需要对算法的惩罚因子(c)和径向基核函数的宽度(g)进行优化以改善模型的识别效果[27-28]。图3所示为大米样品原始光谱采用网格搜索法对c和g的优化示意图。经优化后的c和g分别为0.177和0.25。

图3 LSSVM模型参数c和g优化示意图

采用校正集样品进行LSSVM模型的建立,测试集样品用于模型的验证。在模型构建时,非转基因大米光谱的目标值定义为1,转基因大米光谱的目标值则定义为2。分别采用原始光谱、5点平滑、SNV和MSC预处理光谱建立转基因和非转基因大米的LSSVM判别模型,并分别对c和g进行优化,计算模型的正确识别率,结果如表1所示。

由表1可知,原始光谱模型的总体正确识别率为95%,其CRR1和CRR2分别为100%和90%。光谱经SNV和MSC方法处理后都得到相同的识别结果,将光谱模型的总体识别率改善为97.5%。然而,采用MSC进行光谱预处理时,需要采用校正集样品的平均光谱作为理想光谱对未知样品光谱进行拟合,因此,该方法对未知样品预处理时充分参考了建模样品集的光谱信息,模型的预测可靠性和稳定性更好。

表1 最小二乘支持向量机与三种预处理方法结合的识别效果

注:CRR1为非转基因样品的识别率;CRR2为转基因样品的识别率;CRR为测试集样品的识别率。

图4 转基因和非转基因大米样品LSSVM模型识别结果和样品实际类别比较图

图4为测试集样品光谱经MSC预处理后LS-SVM模型的识别结果和样品实际类别比较图,其中22号样品识别错误,将转基因样品识别为非转基因样本,其余测试样品均为正确识别。模型对转基因和非转基因大米具有较好的识别效果。

3 结论

论文采用便携式近红外光谱仪结合PCA和LS-SVM方法对转基因大米的快速测定可行性进行了研究,探讨了不同光谱预处理方法对模型预测结果的影响。结果表明,PCA方法无法很好地区分转基因和非转基因大米,而LSSVM模型的区分效果较好;使用MSC进行光谱预处理,均可以优化LSSVM模型,预测集样品的总体识别率达到97.5%,其中转基因和非转基因样品的正确识别率分别为100%和95%。近红外光谱结合LSSVM方法可用于转基因大米的快速检测,该方法具有快速、无损、准确以及仪器便携化的优点,有望为转基因食品的现场快速鉴别提供参考。

[1]叶敬忠,李华. 关于转基因技术的综述与思考[J]. 农业技术经济,2014(1):11-21.

[2]KOU J P,TANG Q L,ZHANG X F. Agricultural GMO safety administration in China[J]. Journal of Integrative Agriculture,2015,14(11):2157-2165.

[3]CLIVE J. 2014年全球生物技术/转基因作物商业化发展态势[J]. 中国生物工程杂志,2015,36(1):1-14.

[4]宋欢,王坤立,许文涛,等. 转基因食品安全性评价研究进展[J]. 食品科学,2014,135(15):295-303.

[5]HUDSON J. Chapter 27-Genetically modified products and GMO foods:A game of chance?[J]. Developing New Functional Food and Nutraceutical Products,2017(27):481-494.

[6]DUTTA J. Chapter 42-Genetically modified(GM)foods:The food security dilemma[J]. Food Safety in the 21st Century,2017(42):507-514.

[7]王新桐,孙佳芝,高丽丽,等. 转基因棉花中新霉素磷酸转移酶(NPTⅡ)双抗体夹心ELISA定量检测方法的建立[J]. 农业生物技术学报,2014,22(3):372-379.

[8]张丽,曹应龙,王海英,等. 实时荧光定量PCR(qRT-PCR)检测转基因成分的数据分析及其标准化研究[J]. 农业生物技术学报,2015,23(1):126-134.

[9]丁耀魁,沈娟,马黎黎. 快速检测试纸条法在大豆转基因检测中的应用[J]. 粮油食品科技,2010,18(2):45-46.

[10]魏霜,陈贞,芦春斌,等. 多重PCR检测转基因水稻的转基因成分[J]. 食品科学,2012,33(12):159-162.

[11]周杰,黄文胜,邓婷婷,等. 环介导等温扩增法检测6种转基因大豆[J]. 农业生物技术学报,2017,25(2):335-344.

[12]WU G,WU Y,NIE S,et al. Real-time PCR method for detection of the transgenic rice event TT51-1[J]. Food Chemistry,2010,119(1):417-422.

[13]高荣强,范世福. 现代近红外光谱分析技术的原理及应用[J]. 分析仪器,2002(3):9-12.

[14]石吉勇,胡雪桃,朱瑶迪,等. 基于近红外光谱技术的醋醅中常见杆菌快速识别[J]. 农业机械学报,2016(2):245-250.

[15]王君,刘蓉. 近红外光谱技术在液态食品掺假检测中的应用[J]. 食品工业科技,2016,37(7):374-380,386.

[16]ADERVAL S L,ARNALDO P D S,JESSICA S A. Rapid characterization of transgenic and non-transgenic soybean oils by chemometric methods using NIR spectroscopy[J]. Spectrochimica Acta Part A:Molecular and Biomolecular Spectroscopy,2013,100(1):115-119.

[17]谢丽娟. 转基因番茄的可见/近红外光谱快速无损检测方法[D]. 杭州:浙江大学,2009.

[18]翟亚锋,苏谦,邬文锦,等. 基于仿生模式识别和近红外光谱的转基因小麦快速鉴别方法[J]. 光谱学与光谱分析,2010,30(4):924-928.

[19]ZHANG L,WANG S S,DING Y F. Discrimination of Transgenic Rice Based on Near Infrared Reflectance Spectroscopy and Partial Least Squares Regression Discriminant Analysis[J]. Rice Science,2015,22(5):245-249.

[20]于燕波. 近红外光谱分析技术在转基因水稻识别和高油棉籽筛选中的应用研究[D]. 北京:中国农业大学,2014.

[21]李华,王菊香,邢志娜,等. 改进的K/S算法对近红外光谱模型传递影响的研究[J]. 光谱学与光谱分析,2011,31(2):362-365.

[22]HU W H,SUN D W,BLASCO J. Rapid monitoring 1-MCP-induced modulation of sugars accumulation in ripening‘Hayward’ kiwifruit by Vis/NIR hyperspectral imaging[J]. Postharvest Biology and Technology,2017,125(6):168-180.

[23]王动民,纪俊敏,高洪智. 多元散射校正预处理波段对近红外光谱定标模型的影响[J]. 光谱学与光谱分析,2014,34(9):2387-2390.

[24]樊书祥,黄文倩,李江波,等. LS-SVM的梨可溶性固形物近红外光谱检测的特征波长筛选[J]. 光谱学与光谱分析,2014,34(8):2089-2093.

[25]王快妮. 支持向量机鲁棒性模型与算法研究[D]. 北京:中国农业大学,2015.

[26]唐舟进,任峰,彭涛,等. 基于迭代误差补偿的混沌时间序列最小二乘支持向量机预测算法[J]. 物理学报,2014,63(5):78-87.

[27]张红光,杨秦敏,卢建刚. 基于近红外光谱和最小二乘支持向量机的聚丙烯酰胺类型鉴别[J]. 光谱学与光谱分析,2014(4):972-976.

[28]SUN C,JIAO L C,LIU H Y,et al. New classifier based on compressed dictionary and LS-SVM[J]. Neurocomputing,2016,216(c):617-626.

Studyonidentificationofgeneticallymodifiedricebyusingnear-infraredspectroscopycombinedwithLSSVM

HAOYong1,2,WENQin-hua1,LUOQiu-hong3,RAOMin3,CHENBin2

(1.School of Mechanotronics & Vehicle Engineering,East China Jiaotong University,Nanchang 330013,China;2.School of Food and Biological Engineering,Jiangsu University,Zhenjiang 212013,China;3.Ganzhou Entry-Exit Inspection and Quarantine Bureau,Ganzhou 341000,China)

Near-infrared diffuse reflectance spectroscopy(NIDRS)combined with principal component analysis(PCA)and least squares support vector machine(LSSVM)were used for the identification of transgenic rice. PCA was used to analyze the spectral spatial distribution of rice. Different spectral preprocessing methods including 5-point smoothing,multivariate scatter correction(MSC)and standard normal variate transformation(SNV)combined with LSSVM were used to build and optimize qualitative models. The grid search algorithm was employed to obtain the optimal solution of the penalty factor(c)and the parameters gamma(g)of RBF kernel. The correct recognition rate(CRR)were used to evaluate models. The results showed that MSC combined with LSSVM could be used to establish the qualitative identification model of transgenic rice. The CRR of the optimal model was 97.50%. The method was expected to be an auxiliary method for rapid detection of genetically modified foods.

near-infrared spectroscopy(NIRS);genetically modified rice;principal component analysis(PCA);least squares support vector machine(LSSVM)

2017-04-28

郝勇(1978-),男,博士,副教授,主要从事智能光电无损检测方面的研究,E-mail:haonm@163.com。

国家自然科学基金项目(21265006)。

TS201.1

A

1002-0306(2017)22-0242-04

10.13386/j.issn1002-0306.2017.22.047

猜你喜欢

识别率转基因预处理
探秘转基因
转基因,你吃了吗?
基于类图像处理与向量化的大数据脚本攻击智能检测
基于真耳分析的助听器配戴者言语可懂度指数与言语识别率的关系
提升高速公路MTC二次抓拍车牌识别率方案研究
基于预处理MUSIC算法的分布式阵列DOA估计
高速公路机电日常维护中车牌识别率分析系统的应用
浅谈PLC在预处理生产线自动化改造中的应用
天然的转基因天然的转基因“工程师”及其对转基因食品的意蕴
络合萃取法预处理H酸废水