APP下载

基于LSTM的核小体序列可分类性分析①

2024-01-06刘建丽周德良

关键词:聚体小体基因组

刘建丽, 周德良, 靳 文

(1.中国地质大学(北京) 水资源与环境学院,北京 100083;2.北京中电易达科技有限公司,北京 100190;3.内蒙古自治区人民医院,内蒙古 呼和浩特 010017)

0 引 言

核小体是染色体的基本结构单元,主要由组蛋白八聚体、组蛋白HI和核小体DNA构成[1-2]。核小体占据着真核细胞内75% - 90%的基因组,且组蛋白的静电位阻作用会阻止蛋白质分子与核心DNA的结合[3-4]。核小体定位指组蛋白八聚体在基因组DNA序列上的精确位置[5-6],其对基因转录调控、DNA复制与修复和DNA序列的功能及进化等都有着重要的影响[7-9],但核小体定位不是固定不变的,而是可以移动的[10-11]。

递归神经网络(RNN)表现出时间行为且更适合时间序列预测,但由于梯度消失和梯度爆炸问题,RNN无法获得长程语义环境[12-16]。长短期记忆网络(long short-term memory network,LSTM)是RNN的扩展[15-17]。与RNN相比,LSTM在隐藏层中添加了输入门、输出门和遗忘门,并使用记忆态单元来存储和获取长程信息[18-19]。LSTM解决了梯度消失和梯度爆炸问题,并且可以学习时间序列数据的短程和长程语义特征。

本文将酵母2号染色体的核小体序列预处理为时间序列数据,与随机时间序列数据一起利用LSTM进行迭代训练和长、短程语义特征学习,然后利用得到的LSTM模型对核小体序列的可分类性进行分析研究,这对于核小体序列智能识别以及核小体定位具有一定的生物学意义。

1 核小体结构

核小体是染色体的基本结构单元[1-2],主要由组蛋白八聚体、组蛋白HI和核小体DNA构成,其中组蛋白八聚体由双分子的H2A,H2B,H3和H4四种组蛋白组成,是核小体的核心结构;组蛋白HI位于组蛋白八聚体核心之外,其可以使核小体形成稳定结构;核小体DNA平均长约200bp,它们缠绕在组蛋白八聚体外围,其中缠绕在组蛋白八聚体中心上的DNA称为核心DNA,它们不易被核酸酶消化,且长约146bp,而连接相邻核小体的DNA称为连接DNA,长度约在8~114bp不等。核心DNA缠绕组蛋白约1.75圈,直接将大约7个组蛋白缠绕在其内,而连接DNA结合组蛋白HI共同构成相邻核小体之间的连接区,核小体的具体结构见图1。核心DNA可塑性强,易弯曲形成核小体,但连接DNA刚性较强,不易形成核小体。核小体定位指组蛋白八聚体在基因组DNA序列上的精确位置,其并非固定不变,而是可以移动的[5-6,10-11]。核小体定位及其动态性对基因转录调控、DNA复制与修复、可变剪切、DNA序列的功能及进化等都有着重要的影响[7-9]。

2 材料和方法

2.1 LSTM

递归神经网络(recurrent neural networks,RNN)是一类表现出时间行为且更适合时间序列预测的神经网络[13-14]。但由于梯度消失和梯度爆炸问题,RNN无法获得长程语义环境。为了解决这些问题,长短期短期记忆网络(LSTM)在1997年被提出[15],其整体结构如图2所示。LSTM是RNN的扩展[15-17]。相对于RNN,LSTM在隐藏层中添加了输入门、输出门和遗忘门,并使用记忆态单元来存储和获取长程信息,其中输入门控制录入到记忆态单元的信息,遗忘门控制记忆态单元的遗忘信息并保留长程信息,输出门控制输出到输出层的信息。LSTM的前向计算过程可表示如下:

ft=σ(Wf·[ht-1,xt]+bf)

(1)

it=σ(Wi·[ht-1,xt]+bi)

(2)

(3)

(4)

ot=σ(Wo·[ht-1,xt]+bo)

(5)

ht=ot·tanh(Ct)

(6)

图1 核小体结构

2.2 数据提取与处理

从UCSC中(University of California Santa Cruz, http://genome.ucsc.edu/)下载酵母2号染色体的DNA序列,根据Brogaard[20]等人在2012年获得的酵母全基因组单碱基精度的核小体定位图谱,在酵母2号染色体中提取全部核小体序列,最终获得4593条核小体序列,且每条核小体序列均按核小体中心位点左右各取60bp组成。另外,通过脚本程序生成4593条120 bp长的随机序列。这样,我们得到两类序列:核小体序列和非核小体序列(即随机序列),以每种序列的80%用作训练集,余下20%用作测试集。每个序列以1为步长、每两个碱基为一行放置于一个csv文件内,然后作为时间序列数据基于LSTM进行迭代训练。

图2 LSTM的整体结构如图

2.3 网络设计和训练

本文设计的LSTM神经网络共有3层,即输入层、隐藏层和输出层,其中输入层输入训练数据,其节点数为2,由输入数据包含的碱基个数决定;隐藏层迭代学习时间序列数据的长、短程语义特征,其节点数为160,由反复试验确定;输出层输出学习分类结果,其节点数为2,由结果类别个数决定,具体网络参数见表1。

表1 LSTM网络的参数

3 结果和讨论

3.1 核小体分类性

对于两种序列,每种序列的80%用作训练集,余下20%用作测试集。每个序列以1为步长、每两个碱基为一行放置于一个csv文件内,被作为时间序列数据。利用LSTM按表1所取参数对训练集数据进行训练,然后利用训练得到的检测模型对核小体序列测试数据进行测试,得到的较好的测试结果,准确率高达92.67%,如表2。

表2 核小体序列(时间序列数据)检测结果

同时为了比较时间序列数据和非时间序列数据的识别效果,对于上述提取的两类序列,仍然是以每类序列的80%作训练集,余下作为测试集。每个序列整体一行放置于一个csv文件内,并被处理作为非时间序列数据。利用RNN按表1所取参数对训练集数据进行训练,然后利用训练得到的检测模型对核小体序列测试数据进行测试,准确率为76.29%,如表3。

表3 核小体序列(非时间序列数据)检测结果

从表2可以看到,当将核小体序列作为时间序列数据,并利用LSTM进行特征学习时,对于全部919个核小体测试序列,有852个核小体被正确识别,其中仅67个核小体被错误识别,准确率可高达92.67%。然而,当将核小体序列作为非时间序列数据,利用RNN进行特征学习时,对于全部919个核小体测试序列,仅有701个核小体正确识别,准确率只有76.29%。这表明,将核小体序列预处理为时间序列数据,不仅可以学习核小体序列数据的短程语义特征,同时可以学习核小体序列数据的长程语义特征,从而有利于提高检测模型性能。然而,将核小体序列作为非时间序列数据进行处理时,只能学习核小体序列数据的短程语义特征,核小体序列的识别准确率也就只有表3的76.29%。

上述分析结果表明,将核小体序列预处理为时间序列数据,利用LSTM神经网络可以实现核小体序列的高准确度识别。也就是说,只要合理地预处理核小体序列,并选择合适的神经网络,核小体序列是具有高度可分类性的。核小体序列主要由A,T,C和G四类碱基构成,人工设计核小体序列与非核小体序列之间的区分特征会非常困难。本文使用LSTM神经网络实现了核小体序列的高准确度识别,这充分说明核小体序列与非核小体序列之间具有不同的分类特征,而LSTM模型则能够通过迭代训练学习获得它们之间的区分特征,这不仅为核小体序列的可分类性奠定了坚实的基础,同时也再次充分说明核小体序列具有高度的可分类性。

3.2 核小体分类性的意义

上述分析表明核小体序列具有高度的可分类性,这种可分类性无论对其本身,还是对于核小体定位来说,都具有重要的意义,详述如下:

核小体序列的高度可分类性,直接否定了核小体与非核小体序列之间的模糊性或不可区分性。这个结果说明,如果有1万条核小体序列和1万条非核小体序列,将2万条序列随机打乱,即便从中任意选择两条序列,核小体与非核小体之间的可分类性都不可能趋于模糊。从另外一个角度说,核小体与非核小体序列之间可以高度相似,但不可能100%相同,而是两类序列各自具有独一份的身份特征[23],这对于基因组DNA序列的功能、表达与调控或许具有重要的意义。

2)核小体定位指组蛋白八聚体在基因组DNA序列上的精确位置。通过核小体序列的高度可分类性,可以实现核小体序列与非核小体序列的判断识别[21-22],如果某段序列识别判断为非核小体序列,则可以认定该位置非核小体定位位置,从而可以有利于更准确的判断核小体在基因组DNA序列上的精确定位,这对于核小体定位以及基因转录调控、DNA复制与修复和DNA序列的功能及进化等具有重要的意义。

3)核小体定位并非固定不变,而是可以移动的,并且核小体占据着真核细胞内75% - 90%的基因组。因此,通过不同核小体序列的高度可分类性,或许可以在整条染色体DNA上逐一识别确定核小体序列与非核小体序列[21-22],其中核小体序列的连接区间就是核小体在基因组DNA上的移动区间,这对于核小体定位的动态性以及基因转录调控、DNA复制与修复和DNA序列的功能及进化等或许具有重要的意义。

在接下来的工作中,会提取酵母全部染色体的核小体序列进行进一步的核小体序列可分类性分析,同时会根据核小体与非核小体序列之间的可分类性,对酵母每条染色体上的核小体动态移动区间进行分析与判断,相信这样的工作或许对核小体定位及其动态变化的研究分析具有一定的意义和价值。

4 结 语

LSTM可以学习时间序列数据的短程和长程语义特征,具有很好的识别分类性能。本文将酵母2号条染色体的核小体序列数据预处理为时间序列数据,然后与非核小体序列(同为时间序列数据)一起利用LSTM进行迭代训练和特征学习,得到的LSTM模型对核小体序列可以实现92.67%的识别准确率,相较RNN方法提高了16.38%,从而实现了核小体序列的高准确识别。这个结果表明,核小体序列与非核小体序列具有不同的分类特征,也就是说,核小体序列是具有高度可分类性的。

核小体序列的高度可分类性,否定了核小体序列与非核小体序列之间的模糊性或不可区分性,这对于基因组DNA序列的功能、表达与调控或许具有重要的意义。同时,核小体序列的高度可分类性,可以实现核小体序列与非核小体序列的判断识别,这对于核小体定位及其动态性,以及基因转录调控、DNA复制与修复和DNA序列的功能及进化等的研究具有重要的生物学意义。

猜你喜欢

聚体小体基因组
PET熔融缩聚与溶液解聚形成环状低聚物的对比分析
牛参考基因组中发现被忽视基因
一种优化小鼠成纤维细胞中自噬小体示踪的方法
川崎病患儿血清学D-2聚体与C反应蛋白表达分析
炎症小体与肾脏炎症研究进展
苯丙氨酸解氨酶印迹交联酶聚体的制备及部分催化性能研究
以粗孔微球硅胶为核芯的交联酶聚体的制备
NLRP3炎症小体与动脉粥样硬化的研究进展
细胞浆内含有Auer样杆状小体的骨髓瘤1例
基因组DNA甲基化及组蛋白甲基化