基于生物信息学技术的生物活性肽研究进展
2019-08-26周亭屹高新昌党亚丽潘道东曹锦轩
周亭屹,高新昌,党亚丽,*,潘道东,曹锦轩
(1.浙江省医学科学院,保健食品研究所,浙江杭州 310013; 2.宁波大学食品与药学学院,浙江宁波 315800)
生物信息学(bioinformatics)技术是一种综合运用生物学、信息科学的各种知识和工具,对复杂的生物数据进行获取、处理、存储、分发、分析和解释,从而得到我们能够理解和接受的各种知识[1]。此技术于二十世纪七八十年代提出,结合计算机科学、生物学、数学和统计技术分析和解释生物数据,近年来发展迅速的生物信息学可为生物大数据分析提供方法和软件工具,目前已被广泛应用于蛋白质组学、基因组学、转录组学、代谢组学等领域,用于解释疾病的生物学机制[2]。
生物活性肽是一类对生物机体的生命活动有益或具有生理作用的肽类化合物,由20种天然氨基酸按照不同的排列方式组成,一般长度在2~30个氨基酸之间。由于构成肽的氨基酸种类、数目与排列顺序不同,生物活性肽具有复杂的结构与功能,包括增强免疫、降血糖、降血压、抗菌、抗病毒、抗疲劳和降血脂等[3-9],同时由于其食用安全性极高,是当前国际食品界最热门的研究课题之一[10]。由于经典的生物活性肽的分离鉴定方法仍然存在许多限制,生物信息学技术被迅速用于生物活性肽的研究[11]。
蛋白质组学技术的发展对发现和鉴定新的生物活性肽提供了很大的帮助,如将复杂的蛋白质混合物用酶特异性消化为肽后,通过膜过滤、色谱过滤等逐级纯化可得到生物活性肽,其中多维色谱纯化手段的应用显著提高了活性肽的纯化效率。由于分析化学的进步与创新,高分辨率质谱技术可对极其复杂的混合物进行分析,在低浓度条件下可检出不同类型的化合物。
生物质谱中的液相色谱-飞行时间串联质谱以及四级杆线性离子阱质谱,开始逐渐应用于生物活性肽的结构分析,并辅以质谱数据解析软件protein pilot,极大地缩短了活性肽结构表征的周期[12]。研究者们因此获得了大量的活性肽数据,目前BIOPEP数据库中已收录了3600多种生物活性肽。通过生物信息学技术可获得肽的结构与其活性的关系,适用于活性肽的快速高通量筛选。本文综述了几种基于生物信息学技术寻找活性肽的方法及其应用的最新进展情况。
1 传统的生物活性肽分离、纯化和鉴定方法
传统的生物活性肽研究通常包括酶解、膜分离、凝胶、尺寸排阻、离子交换、亲和层析和反相液相等多级色谱方法进行分离和纯化,分离组分进行体内或体外的活性逐级测定,通过Edman降解或质谱法鉴定肽序列[13],并采用定量构效关系(QSAR)等方法推断其构效关系(表1)。近年来,基于质谱方法的蛋白质组学技术的出现,为发现和鉴定生物活性肽提供了更加高效的方法,将酶解后的肽采用高效液相色谱和MALDI-TOF MS、CE-TOF MS和UPLC-Q/TOF MS等质谱(MS)鉴定其序列[14-16],再通过化学合成的肽验证其生物活性。由于蛋白酶解物复杂,含有数千条肽段且多条肽段分子量相近或电荷数相同,该法也面临难以分离纯化、鉴定出的肽活性低甚至没有活性等问题。因逐级纯化过程选取活性较高的组分进行纯化,可能会将一些活性高的肽遗漏。此外,多种活性评价体外实验筛选方法尚不统一,且体外实验与生物体内结果不一致。通过体内实验进行活性筛选较体外实验更为准确,但由于其成本高,此法对于大量的分离组分并不适用。因此,如何快速高效的获得生物活性肽仍是目前活性肽研究的难点。
2 基于现有生物信息学工具的活性肽研究
随着生物信息学的快速发展,文献中大量的肽信息被整合到数据库中。目前已有许多生物活性肽数据库,如表2所示,可对活性肽进行理论预测和模拟,主要可以在以下方面发挥作用[13]:分析活性肽的结构-功能关系;计算机辅助肽结构设计;预测肽的生物活性;在肽序列之间搜索和多重比对;模拟蛋白水解;寻找生物活性肽的潜在前体蛋白;蛋白质-活性肽分子对接。下文将主要介绍现有生物信息学工具在计算机模拟酶解、酶解产物的活性预测与前体蛋白的选择、肽的生物活性预测等方面的应用情况。
表2 常用的活性肽生物信息学工具Table 2 Bioinformatics tools used in bioactive peptides
2.1 计算机模拟酶解
蛋白质水解是获得生物活性肽的常见方法。水解酶的种类、浓度,加工条件及水解度等因素会影响酶水解产物和多肽的生物活性,同一蛋白质经过不同条件处理可产生功能不同的多肽[27]。为了选择合适的酶和蛋白质底物,传统方法必须进行多组平行实验,对不同的酶种类、用量及反应条件等因素进行筛选,从而得到活性最强的水解产物,而通过计算机模拟酶解可大大提高这一步的实验效率。
首先通过ExPASy,NCBI Protein database和UniProtKB等蛋白质数据库检索出原料蛋白的氨基酸序列。在获得蛋白质一级结构的基础上,用一些在线工具可实现虚拟酶解。BIOPEP的“酶作用”模块和ExPASy-PeptideCutter是常用的虚拟酶解数据库,可基于不同种类酶的特异性切割位点,预测从特定蛋白质水解的氨基酸和肽。此外,使用虚拟酶解结合现有的生物活性肽数据库,如BIOPEP,可对虚拟酶解的产物进行分析:虚拟酶解产物中包含的已有文献报道的活性肽的数量[26-28];计算蛋白质链中生物活性肽的发生频率[29];预测蛋白质的潜在生物活性[30]。通过这些分析,可大规模筛选富含蛋白的水解原料。
计算机模拟酶解可极大提高活性肽筛选效率,但往往计算机模拟与实际情况并不完全相符,究其原因可能如下:酶活性及纯度影响体外水解;计算机方法模拟的水解条件,如pH、温度、水解时间和酶-底物比例等与实际情况不一致;计算机模拟水解中酶将水解所有酶切位点的肽键;实际情况中蛋白质经过翻译、糖基化等修饰后可能导致酶切位点被保护,而计算机模拟消化过程中不考虑此问题;蛋白质的预处理也会影响水解产物的生成;计算机模拟消化工具不能用于未知蛋白的样品和未知切割位点的酶。总之,计算机模拟水解是一种有效和低成本的提供理论水解产物的方法,但其最终结果尚需实验验证。
2.2 酶解产物的活性预测与前体蛋白的选择
蛋白质单酶水解可产生多种生物活性肽,如二肽基肽酶IV(DPP-IV)抑制肽,血管紧张素转换酶(ACE)抑制肽,抗血栓肽,抗炎肽和免疫调节肽[31-33]。Rani等[34]用BIOPEP数据库比较了胃蛋白酶或胰凝乳蛋白酶A消化山羊乳蛋白形成ACE抑制肽的数量。结果表明,胃蛋白酶更适于产生ACE抑制肽。Lafarga等[35]用肽数据库和软件评估牛肉和猪肉蛋白质中潜在的具有DPP-IV和ACE抑制活性的肽,并通过化学合成验证了肽的体外活性。Dziuba等[36]通过模拟28种酶水解乳蛋白产生的肽,筛选得到了具有潜在抗菌活性的新型乳蛋白衍生肽。Tulipano等[37]运用计算机模拟方法预测了β-乳球蛋白和α-乳清蛋白在胃肠道消化期间产生的DPP-IV抑制肽。
生物信息学技术不仅可模拟单酶水解,还可预测复合酶共同作用产生的水解产物。Majumder等[38]的实验表明,与胃蛋白酶或嗜热菌蛋白酶单酶水解与嗜热菌蛋白酶和胃蛋白酶复合酶水解卵转铁蛋白相比,复合酶水解产物的ACE抑制IC50值(198.0±1.21 Ug/mL)较低。Gu等[39]用ExPASy-PeptideCutter计算嗜热菌蛋白酶单酶和嗜热菌蛋白酶+胃蛋白酶或嗜热菌蛋白酶+胃蛋白酶+胰蛋白酶复合酶消化15种常见食物蛋白质,结合QSAR模型预测消化肽的ACE抑制活性,结果表明猪、牛肉和鸡肉中的ACE抑制肽含量最高,其次是鸡蛋,大豆和油菜籽,而鱼类(鲑鱼除外)和谷物(燕麦和大麦)ACE抑制肽含量最低。
此外,由于胃肠道中的酶可能会将活性肽降解为无活性的肽段,活性肽能否在生物体内发挥作用取决于胃肠道消化后能否保持活性。通常可选择胃蛋白酶、胰蛋白酶和胰凝乳蛋白酶等模拟酶解,然后用Peptide Cutter和BIOPEP等数据库预测其产物活性[40]。
2.3 肽的生物活性预测
肽的结构特征,如肽链长度、氨基酸组成等和肽的物化特征,如氨基酸残基的疏水性,分子电荷和侧链等都会影响其生物活性[41]。目前开发的在线软件Peptide Ranker、QSAR建模和分子对接等,可基于此理论预测肽的活性。
2.3.1 基于Peptide Ranker 的活性肽预测 Peptide Ranker是一种基于新型神经网络预测生物活性肽的服务器[42]。用户将肽序列输入到网站的文本框,服务器即可将预测出的肽具有生物活性的概率给用户,然后按照每种肽的预测生物活性概率大小进行排序,对大量未报道过生物活性的肽是一种有效的筛选方法。但要注意的是,服务器预测的是肽具有生物活性的可能性,而不是预测肽可能具有生物活性的程度。
2.3.2 定量构效关系(QSAR)建模 肽的生物活性还取决于其空间结构,因此,可根据其空间结构预测肽活性。QSAR建模,是用数学模型定量描述分子结构和分子的某种生物活性之间的关系。得到这种关系的数学表达式后,可用于估计肽的活性并预测高活性的肽结构,其基本原理是,一组相似化合物以同样的方式作用于同一靶点,则其生物活性取决于每个化合物周围分子场的差别,这种分子场可说明分子和靶点之间的相互作用。目前生物活性肽QSAR建模已被应用于抗菌肽,ACE抑制肽,抗氧化肽和DPP-IV抑制肽等[43]。Jing等[44]构建了具有良好预测能力的ACE抑制肽QSAR模型,筛选出了4种牛奶ACE抑制三肽,并在体外验证了其生物活性。但由于QSAR建模方法需建立结构和活性关系的模型,在大部分活性肽功能研究中很难实现,特别是数据库中较稀有的活性肽。因此,大多研究都集中在ACE抑制肽、抗菌肽及一些苦味肽[45]。
2.3.3 分子对接 分子对接已被用于寻找能够与靶蛋白相互作用的多肽[46]。此技术可实现动态模拟多肽和受体分子相互作用的过程,得到直观的结合力得分,从而筛选生物活性肽。目前,分子对接已被广泛用于生物活性肽的筛选并说明其生物学机制,如从牛奶[32]、蚕蛹[47]和米糠[48]中筛选ACE抑制肽;从苋菜籽蛋白[49]筛选DPP-IV抑制肽;从牛奶中筛选抗血栓形成肽[50]。目前用于对接计算的软件主要有AutoDock、DOCK、Gold、SYBYL等。分子对接已被广泛用于生物活性物质设计,但在实际应用中,由于长肽的柔性较大,软件计算精度不足,其应用主要集中在2~6肽的设计和模拟,需克服一些理论和计算等难点,以提高预测的准确性[51]。PDB数据库中已有许多受体蛋白的信息,但受体的详细信息和3D结构缺乏仍是制约分子对接应用的重要因素。此外,Nongonierma等[52]研究发现三肽与DPP-IV活性位点结合能力与其体外抑制特性没有直接关系,多肽可能与受体产生非特异性的相互作用,单独使用分子对接模拟确定有活性的多肽序列不大准确。因此,分子对接的结果往往也需要进行实验验证。
3 寻找活性肽的其它生物信息学方法
3.1 根据氨基酸组成和偏好发现新的生物活性肽
生物活性肽通常由于其结构和氨基酸组成而发挥给定的功能。基于肽数据库中已知功能的肽某些位置的氨基酸偏好建立氨基酸模式,可预测出具有相似功能的肽。Wu等[53]根据已报道的活性肽,研究ACE抑制肽的定量结构-活性关系。用偏最小二乘回归的计算方法发现,携带ACE抑制功能的二肽具有庞大侧链以及疏水侧链的残基。对于三肽,羧基末端最有利的残基是芳香族氨基酸,中间位置优选带正电荷的氨基酸,而氨基末端优选疏水性氨基酸。根据这种模式,他们分析了豌豆、牛奶和大豆蛋白,并预测了7种可能具有ACE抑制作用的3种二肽和4种三肽。
此方式仅凭氨基酸序列对活性肽进行预测,比较简单直观,但其并非针对肽的作用机制,且考虑的因素较少,因此可得到的活性肽序列较少,目前难以得出具有普适性的结论。
3.2 通过分析蛋白质相互作用结合区域发现新的生物活性肽
对蛋白激酶C(PKC)进行的研究已证明,通过分析蛋白质之间相互作用的区域寻找活性肽也是一种可行的方式。PKC是丝氨酸/苏氨酸激酶家族,其参与许多信号传导事件,这些酶与癌症、糖尿病、心脏病发作、中风和心力衰竭等许多疾病有关。因此,有许多关于PKC同工酶抑制剂的研究。Dempsey等[54]观察已报道的两个可抑制PKC的蛋白14-3-3和膜联蛋白I,结果发现这两个蛋白质共有一个含12个氨基酸的序列。他们推断这两种不相关的蛋白质共享该区域,且两者都与PKC结合,因此该区域可能是介导两种蛋白质与PKC结合的关键区域。通过研究这种12肽和PKC的相互作用,结果显示它可阻止PKC与其底物结合,从而抑制其下游的生理反应。
此方法可通过对已有的数据库分析,以及计算机模拟比对,寻找与目标蛋白质相互作用的不相关蛋白质共享的区域,从而发现新的活性肽段。
4 展望
生物活性肽具有低毒、低致敏性、高安全性等优点,在保健与预防医学领域有广阔应用前景。目前生物活性肽的来源物种及地域分布范围都在逐渐扩大,筛选难度随之增加。生物信息学技术已广泛用于提供活性肽的构象信息,预测活性,构效关系描述并预测高活性结构。基于生物信息学技术的生物活性肽研究方法已打破了传统研究方法的局限性,大大缩短了研究费用和时间。然而,这种方法仍存在一些局限性,如缺乏对模拟酶水解中蛋白质修饰情况及其对酶水解影响的研究;由于生物体消化吸收过程十分复杂,体外模拟胃肠消化和实际情况有差距;缺乏分子对接受体的详细结构信息和3D结构。此外,生物信息学的预测能力,蛋白质组学的准确性以及计算机模拟和生物体内之间的差距尚需进一步研究。此外,目前的数据分析主要基于有活性的肽,而缺少对无活性的阴性数据的分析。因此,还需要开发更强大准确的生物信息学技术工具,以便于进一步分析、处理和解释获得的数据。
目前部分乳源的活性肽已用于功能性食品的开发[55],但大部分活性肽研究仍停留在体外活性研究阶段,体内数据及临床证据缺乏,建议结合快速简便的体外筛选方法和体内研究验证其活性。此类肽在胃肠道中的消化、吸收和进入体内循环的量,肽在生物体内的分布和转化以及排泄相关的研究仍需进行深入研究。因此,未来还应着重研究已确定的活性肽的稳定性、生物利用度和生物分布等,以确保能作为功效因子成功用于改善人们健康。