APP下载

斑马鱼piRNA预测方法的研究

2017-07-25刘立婷臧鸿雁刘秀芹

中国科技纵横 2017年12期
关键词:支持向量机预测

刘立婷++臧鸿雁++刘秀芹

摘 要:本文主要讨论斑马鱼piRNA的预测方法。本文通过选取恰当的斑马鱼piRNA特征,使用SVM方法训练正训练集和负训练集,然后利用5-fold交叉验证去预测正负测试集。完成上述工作后,使用Python语言进行编程,模拟理论研究成果,使用测试集进行预测,得到敏感性为83.2%,特异性为74.6%,预测精度为78.9%。

关键词:斑马鱼piRNA;支持向量机;预测

中图分类号:Q74 文献标识码:A 文章编号:1671-2064(2017)12-0251-01

2006年7月,杂志Science和Nature均报道了一种最新发现的非编码类小RNA[1],这些非编码类小RNA主要分布于哺乳动物的生殖细胞中,经科学家们研究发现,这种小RNA可以与PIWI蛋白质之间相互结合而产生重大作用,被称为piRNA。经过多年的研究,研究人员发现piRNA可以调控哺乳动物体内生殖细胞的生长和发育进程,从而对各种生物体产生重要作用[2]。因此,piRNA的预测能够促进人们对piRNA生成过程和结构特点的认识,进一步研究piRNA的结构特点和功能特点,对肿瘤的诊断和治疗,对新药的研发提供了重要的科学理论依据。

1 数据来源

由于斑马鱼基因与人类基因的相似度程度高,而且容易获取大数量的实验数据,这样可以有效的减少时间消耗和实验成本,提高预测精度。

根据本文的研究目的选择斑马鱼piRNA序列作为正集,斑马鱼非编码序列作负集,因为使用同一物种的基因序列可以避免由于不同物种之间的同源性差所造成的结果偏差,提高预测精度。从http://www.regulatoryrna.org/database/piRNA/download.html下载斑马鱼piRNA序列,共1330692条。从http://www.noncode.org/download.php上下载了12836条斑马鱼非编码序列。

2 训练集与测试集

本文正集和负集序列均为1500条,这个数字是作者任意选取的,当然,可以通过多次试验选取最合适的样本条数。

从斑马鱼piRNA序列中随机选择1500条序列作为正集,其中2/3的序列(即1000条序列)作为训练集,剩余的1/3序列(即500条序列)作为测试集。从斑马鱼非编码序列中随机选择1500条序列作为负集,其中2/3的序列作为训练集,剩余的1/3序列作为测试集。使用python编程统计了正集序列的长度为17-36,因此为了提高预测精度,负集序列的长度应该也在此范围内。所以,编程实现了从负集的非编码序列中随机截取相似程度的序列作为试验中用到的负集。

3 特征的提取

使用软件Teiresias提取训练集的特征。选项选择为“Exact Discovery”,“Seq Version”和“Only nucleic acid characters”。经多次试验,参数选择为L=2,W=5,K=600,它表示1000条序列中有共同特征的至少有600条序列,长度最大为5的motifs中至少有两个核苷酸[3]。

从训练集的正集中共提取出了59条特征,从训练集负集中共提取出了62条特征。去除提取出的motifs特征中的冗余特征后剩余62条特征,如特征“T..A”,“T”和“A”分别表示胸腺嘧啶和腺嘌呤,“T”和“A”之间的“.”表示任意核苷酸。

计算每个motif在每条序列中出现的频数,构成了一个特征矩阵,如(3,0,1,2,1,3,1,4,2,1,2,0,2,2,0,0,2,2,1,2,1,2,1,0,0,0,3,0,1,3,2,2,4,2,1,2,0,1,0,1,2,3,0,2,1,1,0,3,1,1,1,2,0,0,1,1,0,0,1,1,0,0)为其中某一条序列的特征向量,其中第一个元素“3”表示在该序列中第一个特征“TG”的个数,第二个元素为第二个特征“TA”在该序列中的个数,之后的数字依次类推。

4 训练和预测

在网址http://www.csie.ntu.edu.tw/~cjlin/libsvm/oldfiles/上下载libsvm。

首先,统计训练集中每条序列的motifs频数,使用python编程将统计的motifs频数转换成libsvm所接受的特征矩阵的形式,然后使用libsvm軟件包中的svm-scale.exe对训练集特征矩阵train.txt进行标准化处理,对测试集进行同样的标准化处理。

本文使用的训练函数为RBF核函数。因为这个核函数可以非线性的映射到高维空间中,能够处理类标签和属性是非线性时的关系,并且线性核函数是RBF的一个特殊情况。使用libsvm tools目录下的grid.py来选择参数,选择结果为=512。0,=0。00390625,它的交叉验证率为77.35%。使用得到的最佳参数对训练集进行训练,然后使用该训练模型对标准化后的测试集进行预测。经预测,得到了测试集的预测结果为78.9%。

5 特异性和灵敏性

使用SVM训练训练集得到了预测模型来预测测试集中的序列,由于测试集中的序列分类是已知的,因此,本文使用已知分类和预测得到的分类结果求得特异性为74.6%,灵敏性为78.9%。

特异性表明500条斑马鱼非编码序列被预测正确的概率是74.6%,灵敏性表明500条斑马鱼piRNA序列中被预测正确的概率是78.9%。预测精度为特异性和灵敏性的平均值,表示整个测试集中序列被预测正确的概率。

6 结语

本文使用高斯核函数(RBF)建立了一个斑马鱼piRNA的分类模型,由于斑马鱼piRNA序列和斑马鱼非编码序列之间具有不同的特征,因此使用motifs特征可以识别斑马鱼piRNA序列和非编码序列。然后统计训练集中每条序列中motifs的频数,构成特征矩阵。使用支持向量机对训练集和测试集进行分类和预测,得到的预测精度为78。9%,其中特异性为74.6%,敏感性为83.2%。特异性和灵敏性结果表明,在提取特征过程中,负集的特征提取不完善,如果想要得到更高的预测精度,就需要提取尽可能多的特征。

参考文献

[1]Aravin A,Gaidatzis D,Pfeffer S,et al. A novel class of small RNAs bind to MILI protein in mouse testes[J]. Nature,2006,442(7099):203-207.

[2]郭艳合,刘立,蔡荣,等.小 RNA 家族的新成员—piRNA[J].遗传,2008,30(1):28-34.

[3]Liu X,He S,Skogerb G,et al. Integrated sequence-structure motifs suffice to identify microRNA precursors[J]. PloS one,2012,7(3):e32797.

猜你喜欢

支持向量机预测
无可预测
选修2-2期中考试预测卷(A卷)
选修2-2期中考试预测卷(B卷)
选修2—2期中考试预测卷(A卷)
不可预测
基于改进支持向量机的船舶纵摇预报模型
基于支持向量机的金融数据分析研究