APP下载

基于深度神经网络的SSR 分子标记对茶叶产地的溯源研究

2023-11-13张莉莉陈富荣林丽霞陈意君孙春

广东农业科学 2023年9期
关键词:省份位点准确率

龚 浩,张莉莉,陈富荣,林丽霞,陈意君,张 乐,孙春 莲,孙 键

(1.惠州学院生命科学学院,广东 惠州 516007;2.惠州学院经济管理学院,广东 惠州 516007)

【研究意义】茶树〔Camelliasinensis(L.)O.Kuntze〕属山茶科山茶属多年生常绿木本植物,原产于热带及亚热带,是一种喜暖喜湿的叶用植物,其嫩叶经过加工后即为茶叶。茶叶具有防辐射、提神醒脑、利尿、助消化、减肥和预防疾病的作用,因此茶叶的饮用及流传从古至今都极受重视,是中华民族的举国之饮、世界三大饮品之首[1]。但是茶树异花传粉和长期自交不育的特性,使茶树高度杂合、亲缘关系复杂,茶叶品种难以轻易分辨、分类标准难以统一、鉴别结果有误差等,这就需要对茶叶不同品种进行区分和产地溯源。SSR 广泛应用于植物基因定位和QTL 分析、DNA 指纹和品种鉴定[2]、种质资源保存和利用、系谱分析以及标记辅助育种,通常呈共显性遗传,其多态位点丰富,实验操作简单易行[3]。基于深度神经网络的简单重复序列标记对茶叶产地的溯源研究不仅有利于茶叶的分类和产地溯源[4],还能为其他植物分类提供参考。

【前人研究进展】目前已发表相关论文的茶树测序群体一般为100~200 个样本,过于零散且群体覆盖性和代表性较弱,无法用于深度的群体遗传分析[5]。目前,国内对茶叶品种、产地、产季、年份和等级等真实属性的鉴别还主要停留在传统的理化分析与感官评定相结合的水平上,例如GB/T 19598-2006《地理标志产品 安溪铁观音》中评价标准是以感官为主,辅以部分理化检测。一方面,具有感官评定能力的专家非常少,特别是面对我国品种繁多的茶叶,具有特定品种茶叶感官评定能力的专家更为稀缺;另一方面,人的感官灵敏度容易受到外界因素的干扰而改变,采用感官评价方法受人为主观影响很大,可操作性较差,且目前还没有明确且易于实现的评定指标或参数,易造成判定结果的偏差[6]。基于此产生电子鼻来分类茶叶,利用气敏传感器阵列对挥发性气味物质响应,使气味成为量化指标的新技术手段,具有检测时间短、样品预处理简单、检测结果可靠等优点[7],可以高效、快速、无损检测不同种类的食品,可应用于茶叶贮藏时间[8]、加工方式、品质[9]和等级[10]等检测。但这种方法会因为检验材料部位不同而出现较大的结果误差。

【本研究切入点】近年来,分子生物学技术和生物信息学的发展有力地推动了DNA 分子标记的研究。与形态学标记、细胞标记、生化标记等相比,DNA 分子标记技术不易受外界环境及个体本身的影响,具有结果准确、信息量大、检测简单、重复性及稳定性较好等优点[11]。DNA 分子标记技术在植物分类学[12]、遗传多样性分析[13]、遗传图谱构建[14]和辅助育种[15]等方面的研究广为应用,但在茶树种质资源方面的研究应用较少,主要集中在遗传多样性及特异标记方面。【拟解决的关键问题】本研究旨在解决茶叶主成分分析、茶叶产地溯源及品种鉴定、DNN 模型构建等问题。

1 材料与方法

1.1 试验材料

本研究根据Accession No.PRJNA595795 和PRJNA562973,从NCBI database 中下载323 份茶叶的转录组数据,其中来自福建、云南、浙江、湖南省的茶叶分别有130、96、54、33 份,其余10 份属于外类群样本即研究类群之外亲缘关系最近的物种,这10 个外类群为全国收集的茶梅CamelliasasanquaThunb(表1)。

表1 茶叶样本来源属地统计Table 1 Statistics on the origin and locality of tea samples

1.2 试验方法

1.2.1 鉴定SSR 标记位点 本研究先从323 份样本中获得样本数据,使用PSR 软件(Polymorphic SSR retrieval,PMID:26428628),鉴定茶叶参考基因组(Tea treeCamelliasinensis,舒茶早)中所有可能的SSR 标记位点。首先利用PSR 软件,设置参数支持的reads 总数大于5,同时支持reads 的比例大于10%,其他参数均为默认参数;再过滤单个位点缺失率较大的位点;最后进行线性回归分析,并结合不同SSR 位点的相关性,保留最终的SSR 位点[16]。

1.2.2 主成分分析 本研究将323 个茶叶样本进行样本间SSR 序列的相互比对,计算每个样本与其他样本的差异度,再基于样本间的差异度计算323 个样本的基因差异矩阵[17]。利用PCA 对323 个样本基因差异矩阵进行分析,然后使用R语言中的read.table 函数读入数据、ovun.sample 函数清理处理数据,最后利用内置函数princomp 进行PCA。

1.2.3 构建整体样本的进化树 先用perl 的自编脚本获得所有个体的明氏距离矩阵,然后用PHYLIP 的neighbour 模块构建原始进化树,再用dendroscope 对进化树进行展示和修饰。

1.2.4 建立及优化模型 本研究使用Matlab 软件的神经网络工具,建立线性回归模型、随机森林模型和DNN 模型。在建立线性回归模型的过程中,根据样本数据集,分别生成x 矩阵和y 矩阵,利用线性回归代码建模,并使用其模型进行预测。在建立随机森林模型的过程中,先将整体样本读到内存中,按照8∶2 的比例分为80%的训练集、20%的测试集;然后将训练集的样本先分词,再转换为词向量;接着将训练集的样本和标签统一传入算法中,得到拟合后的模型;继而将测试集的样本先分词,再得到词向量;最终把测试集得出的词向量添加到拟合后的模型中,得出结果并将结果转换为准确率的形式。在建立DNN 模型的过程中,本研究通过下载WeightWatcher 安装包,导入样本数据,利用神经网络代码直接预测准确率。选取准确率最高的深度神经网络模型作进一步优化。

2 结果与分析

2.1 SSR 标记位点鉴定结果

首先需要初步鉴定SSR 位点,通过PSR 软件,从茶叶参考基因组数据库中获得所有可能的SSR 标记,最终得到3 668 个标记位点,其中,比对到染色体上的位点有3 304 个(表2)[18]。SSR 标记位点的鉴定:利用PSR 软件,经过筛选后得到2 924 个位点;过滤单个位点缺失率大于20%的位点后,获得2 155 个多态性位点;通过线性回归分析,筛选在不同省份特异性存在的位点(P<0.001),获得700 个位点;结合不同SSR位点的相关性,在两个及其相关的位点中只保留差异性较大的位点,最终获得54 个SSR 位点。

表2 各染色体中含有SSR 位点数目的统计Table 2 Statistics on the number of SSR loci contained in each chromosome

2.2 不同来源茶叶样本PCA 结果

如图1 所示,图中每个点代表1 个样本,两点距离代表茶叶样品受主成分影响下的相似性距离。全部样本的PCA 结果表明,Dim1(7.6%)表示第一主成分贡献率为7.6%,Dim2(4.3%)表示第二主成分贡献率为4.3%,即前两个主成分的累计贡献率为 11.9%(图1A);外类群与福建、湖南、云南、浙江4 省茶叶样本差异显著,部分与云南省样品个体相近。本研究通过对4 省份数据进行PCA 来做进一步判断。根据4 个省份间的PCA 结果(图 1B),并排除外类群的影响,可以发现不同省份间的整体差异较明显,而4 个省份内个体相对聚集。其中,云南省内的个体较其他省份差异大;福建、浙江、湖南的样本分别聚集,这表明福建、浙江、湖南3 个省份间茶叶差异显著,但有少量交叉,具有一定相似的遗传结构特性,3 个省份间的亲缘关系较近。其亲缘关系远近与地理来源并不呈现一致性,原因可能与茶叶人工驯化程度有关。PCA 也存在一定的不足之处,简单的PCA 只能解释部分个体的产地溯源问题,若要进一步研究溯源问题,则还需要用其他方法,如构建进化树、神经网络模型等方法,来进一步解释和验证交叉个体的溯源问题。

图1 主成分分析结果Fig.1 Principal component analysis results

2.3 进化树构建结果

从以上PCA 分析结果可以看出,不同省份的个体分别聚集,差异较为显著,但也有少量的交叉,其中福建主要与浙江、云南邻近,湖南与云南较近,外类群主要分布在云南附近,而云南个体分类较其他省份分散,由此构建不同省份茶叶的进化树(图2),其结果与PCA 结果相似。

2.4 模型构建与优化结果

2.4.1 不同模型预测结果 本研究利用3 种不同的模型对54 个SSR 分子标记矩阵构建模型,再初步鉴定不同模型的差异。通过线性回归模型(81%)、随机森林模型(77%)及DNN 模型(86%)对54 个SSR marker 矩形构建模型,发现深度神经网络模型准确率最高、为86%,故选择DNN 模型进行预测[19]。

2.4.2 DNN 模型的优化结果 本研究利用Matlab软件的神经网络工具对试验数据进行建模。使用54 个SSR 和323 个样本,构建预测模型,再用Tensorflow2.0 优化DNN 模型的一次训练样本个数(Batch size)、训练次数(Step size)、隐藏层层数和每层节点数4 个参数。

将323 份样本中除了外类群以外的数据分成训练集、测试集和验证集3 个部分,其中训练集、测试集、验证集的测试比例分别为0.8、0.1、0.1,即训练集273 份,测试集20 份,验证集20 份。先用训练集训练模型,再用测试集进行最后优化,并使用验证集对优化后的模型进行验证。

2.4.3 参数Batch size 和Step 的优化 本研究通过对参数Batch size 和Step 进行优化,测试不同参数对准确率的影响。对每次训练选取的Batch size 分别设为150、200、250、300,而迭代的次数Step 分别为5 000、10 000、15 000、20 000、25 000、30 000。理论上Step 越高模型准确率就越高,但Step 过高会导致模型过度拟合。通过对测试集10 次重复验证,发现参数Batch size 为150 和Step 为20 000 综合起来表现效果最好(表3、表4)。

表3 测试集和验证集最优准确率Table 3 Optimal accuracy of the test and validation set

表4 测试集和验证集平均准确率Table 4 Average accuracy of the test set and validation set

2.4.4 隐藏层层数和每层节点数的优化(1)隐藏层层数的优化:利用不同的随机参数模拟2~4 层神经网络的测试集和验证集的准确率。经对比,发现神经网络为2 层时验证集和测试集的准确率最高,约95%(图 2 A)。(2)每层节点数的优化:确定隐藏层为2 层后,分别产生25~150间隔为5 的26 个可能节点数,隐藏层的两层网络组合一起是26×26 共676 个组合的矩阵,检测不同参数对应的准确率,每个组合进行10 次重复。

然后按以下打分规则对最优准确率进行确定,通过统计不同指标对所有组合进行打分,每一种指标都能进10%得1 分:测试集和验证集准确率的平均值;验证集准确率的平均值;最优验证准确率。最后统计2 分以上的次数(图3),图3A 为在最优Batch size 和Step size 时不同神经层数的柱状图,对比发现神经网络为2 层时验证集和测试集的准确率最高;图3B、C、D、E 为2 层隐藏层神经网络参数的优化,其中B 为不同维度模拟的自测数据的平均准确率,C 为不同维度模拟的验证数据的平均准确率,D 为不同维度模拟的自测数据的最优准确率。综合准确率方差等因素,本研究选择隐藏层第一层95、第二层40 的模型为最优模型,其中自测集的平均准确率95%,自测集合验证平均值准确率89%,验证集的平均准确率75%以上,最优准确率为100%。

图3 深度神经网络层数和节点数的参数优化结果Fig.3 Oprtimization results of layer number and node for each layer for the Deep Neural Network

3 讨论

我国是茶叶消费大国,随着人们生活水平的提高,消费者对茶品质的要求也日益提高。为了确定茶叶的真实产地,研究者运用各种方法进行研究。目前,生物信息学在基因测序分析中发挥着举足轻重的作用,国内主要是以实验为基础,通过测定农产物及其土壤中的矿质元素,再进行相关性分析、聚类分析、主成分分析等多种统计分析方法,进而对农产品进行溯源分析[20]。本研究主要以生物信息学为基础,通过分析相关的基因位点,构建模型并进行优化,最终对茶叶溯源进行分析。

本研究通过基因组的SSR 位点进行基因数据分析。SSR 作为第二代分子标记,具有重复性好、多态性高、变异丰富、呈共显性且广泛分布于植物基因组等优点,已被广泛应用于高粱、大麦、小麦、青稞等作物遗传多样性分析和基因研究[21]。与SNP 标记相比,SSR 标记的优势是成本低、试验技术简单[22]。本研究先利用PSR 软件从茶叶参考基因组中鉴定所有可能的SSR 标记位点,再比对到染色体上,利用PSR 设置参数支持的reads 总数大于5 同时支持reads 的比例大于10%[23],得到样本后进行位点筛选,最终获得54 个SSR 位点;再利用3 种不同的模型对54 个SSR 分子标记矩阵构建模型,初步鉴定不同模型的差异[24];选择准确率最高的神经网络模型,进行人工神经网络模型的优化和参数选择、Batch size 和Step size 的优化、隐藏层数目和每层节点数优化、2 层隐藏层神经网络参数的优化,最后选择准确率在95%左右最优的2 层神经网络模型[25]。

在研究地理溯源领域中,大部分研究都是利用分子标记或化学标记构建变异图谱,然后查看变异图谱的相似性来进行溯源。本研究使用深度学习预测方法,在研究产地溯源领域使用量较少,主要通过建立样本的基因差异矩阵,使用PCA 分析323 个样本间的差异度,结果非常直观。通过分析图片,发现外类群与福建、湖南、云南、浙江4 省份间的差异显著,而各省份内个体相对聚集,其中云南省内的个体差异较其他省份大;4省份有部分材料重叠在一起,表明不同省份的部分茶叶也具有一定的遗传相似性[26]。构建整体样本的进化树,结果表明不同省份的茶叶个体分别聚集,差异显著,但也有少量交叉,此结果与PCA 结果相似[27]。

本研究只研究福建、湖南、云南、浙江4 省份和10 个外类群共323 个样本,茶叶转录组数据存在样本量少的局限性,后续需要增加样本容量,对茶叶溯源作进一步研究。

4 结论

本研究对来自湖南、云南、福建和浙江省的313 个茶叶样本的来源属地及10 个外类群关系进行研究,以筛选出的54 个高质量的SSR 位点为基础,对样本进行主成分分析,并通过3 种不同的分类模型比对及优化,得出2 层神经网络模型对茶叶分析效果最佳,准确率约95%。本研究构建的分类模型也可以用于其他物种重测序数据的属地来源鉴定。

猜你喜欢

省份位点准确率
镍基单晶高温合金多组元置换的第一性原理研究
CLOCK基因rs4580704多态性位点与2型糖尿病和睡眠质量的相关性
乳腺超声检查诊断乳腺肿瘤的特异度及准确率分析
不同序列磁共振成像诊断脊柱损伤的临床准确率比较探讨
2015—2017 年宁夏各天气预报参考产品质量检验分析
谁说小龙虾不赚钱?跨越四省份,暴走万里路,只为寻找最会养虾的您
二项式通项公式在遗传学计算中的运用*
高速公路车牌识别标识站准确率验证法
因地制宜地稳妥推进留地安置——基于对10余省份留地安置的调研
含内含子的核糖体蛋白基因转录起始位点情况分析