基于多特征参数预测转移酶的亚类
2019-09-10程薇薇王莹
程薇薇 王莹
摘要:随着对酶分类预测的研究需要,本文采用Shen建立的数据库,从蛋白质序列出发,将每条蛋白质序列分成等长的15段得到离散增量值、低频功率谱密度值、N端和C端的矩阵打分函数值和模体频数构成的组合向量表示蛋白质序列信息,用支持向量机算法对六类酶的家族类及其亚类进行预测.转移酶的预测精度依次为92.9%.
关键词:模体;矩阵打分值;离散增量;支持向量机;转移酶
中图分类号:Q55 文献标识码:A 文章编号:1673-260X(2019)05-0017-02
酶是一种生物催化剂,影响着细胞生长、代谢等生命过程的化学反应[1,2].为了更有效地研究酶的分类,对酶的研究正朝着亚类预测方向上发展.因此,本文对转移酶的亚类进行预测.
石等人用SVM算法预测酶的亚类得到很好的结果[3].因此,本文也选用SVM这种预测方法预测转移酶的亚类,得到较好的预测精度.
1 数据库和方法
1.1 数据库
本文选取2007年Shen等人构建的数据库,其中包括1820条氧化还原酶序列、2847条转移酶序列、3279条水解酶序列、892条裂解酶序列、639条异构酶序列和965条连接酶序列.
2 结论
本文先用新構建的新数据库进行预测.将15段的六类亲疏水紧邻的离散增量值、低频功率谱密度、N端和C端氨基酸组分的矩阵打分值和两种模体频数值作为参数,分别将六类酶的序列转化为向量,转移酶共得到71维向量.将得到的六类酶的向量分别输入到随即森林中,在Jack-knife检验下进行预测,总精度为92.9%(见表2).
参考文献:
〔1〕L. F. Yan, and Z. R. Sun, Protein molecular structures, Beijing: Tsinghua University, 1999, pp.65–74.
〔2〕L. F. Yan. The structure and the function of protein [M].Changsha:Hunan science and technology publishing house,1988.
〔3〕Ruijia Shi, Xiuzhen Predicting enzyme subclasses by using support vector machine with composite vectors.Volume 17, Number 5, May 2010, pp. 599-604(6).
〔4〕Bailey TL, Williams N, Misleh C, Li WW. MEME:discovering and analyzing DNA and protein sequence motifs. Nucl Acids Res, 2006,34: 369~373.
〔5〕Castro, D.E, Sigrist,C.J., Gattiker,A.,Bulliard,V., Langendijk-Genevaux,P.S., Gasteiger, E., Bairoch, A., Hulo, N. ScanProsite: detection of PROSITE signature matches and ProRule-associated functional and structural residues in protein [J]. Nucleic Acids Research. 2009, 37, 202~208.
〔6〕Ho,Tin Kam.“Random Decision Forest”.Proc.of the 3rd Int’l Conf.Document Analysis and Recognition.1995, 278-282.
〔7〕Oppenheim AV, Willsky AS, Nawab SH, Signals and systems. New York: PrenticeHall, 1985.
〔8〕CHOU K.C. The biological functions of low-frequency phonons: 3. Helical structures and microenvironment [J]. Biophysical journal, 1984, 45: 881~890.
〔9〕Zhang LR, Luo LF. Splice site prediction with quadratic discriminate analysis using diversity measure [J]. Nucleic Acids Res. 2003, 31: 6214-6220.
〔10〕Hu XZ, Li QZ. Using Support Vector Machine to Predict - and -Turns in Proteins[J]. InterScience. 2007.
〔11〕高丽群.时空地理加权回归模型的统计诊断[J].哈尔滨师范大学学报(自然科学版),2015(6):50-52.