APP下载

活性小分子功能筛选平台M &Function的设计与实现

2012-01-06鞠元虎张国庆

复旦学报(医学版) 2012年6期
关键词:分子分类数据库

陈 健 鞠元虎 修 婧 张国庆△ 南 蓬△

(1复旦大学生命科学学院生物多样性与生态工程教育部重点实验室 上海 200433;2上海生物信息技术研究中心 上海 200235)

在新药筛选过程中,通过虚拟筛选而获得具有生物活性的先导化合物或潜在药靶是创新药物研究的基础[1]。随着药学、生物学、化学等学科的发展,大量疾病相关靶点及其潜在治疗药物被发现,同时也积累了大量生物信息数据。这些药物、靶点信息大多是分散的,并且它们之间的相互关系错综复杂。正是由于信息庞大、结构复杂、不同学科之间缺少有效整合,难以对其进行深入的数据挖掘。如果能够建立一个数据库系统平台,将这些药物及其相关数据进行集中收集、管理、分析,从中挖掘出重要信息,将有助于创新药物的研究和开发。

目前,国外已经做了很多尝试,建立了多个大型生物信息数据库。例如:药物靶点数据库TTD[2]、小分子生物活性公共数据库PubChem[3]、药物数据库DrugBank[4]等。在国内这样的大型数据库还很少见。另外,这些现有数据库大多只是信息的汇总,不能对未知活性小分子进行功能预测,这也限制了其在新药研发中的应用。

所以,我们建立了一个综合的新药研发平台,包含药物结构和活性、药靶结构等信息,整合分子对接、Fingerprint和最大公共子结构(maximum common substructure,MCS)比对软件,实现对未知活性小分子的功能预测,推动创新药物的研发。通过http://lifecenter.sgst.cn/mcs/home.do可以访问网络平台(图1)。

图1 活性小分子功能筛选平台主页Fig 1 The homepage of screening platform for small molecule activity

我们的平台包括以下4个部分:

(1)GEMBlast(基于转录组功能相似性搜索):GEMBlast是一个基于网络的工具,提供了一个用户友好界面,实现了GEMS2方法,并对不同类型的基因表达图谱数据库执行基于模块的基因表达谱相似性搜索[5]。该数据平台的相关研究已经发表于NucleicAcidsRes[5]。

(2)MaxDock(基于反向对接策略的候选靶标预测):MaxDock是一个整合M和X打分函数的反向对接策略以识别药物多个靶点的网络服务器[6]。对于一个活性化合物或候选分子,MaxDock能够对接药物到我们构建的靶蛋白数据库,并提供M和X打分函数选项进行对接结果排序。MaxDock提供了可视化的对接结果,并提供相应靶标的相关生物信息。该数据平台的相关研究已经发表于JMol GraphModel[6]。

(3)药物数据库(药物说明和用药指南):药物信息具有概念多样性、复杂性等特点,这些特点决定了药物知识结构化过程的复杂性和特殊性。为了提高药物信息结构化的效率及可信度,我们通过人工标注结合自然语言处理的方法,建立了结构化药物数据库[7]。药物数据库由两部分组成:用药指南和药物说明。

(4)M &Function(基于小分子结构的功能预测):M &Function平台是一个整合了生物信息学和化学信息学资源的小分子药物数据库,包含小分子药物的结构、功能、分类、活性等信息。同时作为新药研发平台的一部分,小分子活性功能预测是此数据库的核心功能。借助于由加州大学开发的基于MCS算法软件[8]和新加坡国立大学开发的Fingerprint计算软件 PaDEL-Descriptor[9],将功能未知的小分子结构与数据库中的小分子药物进行结构比对,计算两个小分子结构的相似性得分,结合数据库中小分子药物的分类信息和功能信息,对未知活性小分子进行功能预测。

通过页面整合技术,有机地把4个新药研发相关的服务整合为活性小分子功能筛选平台,形成了风格一致的新药研发平台。本文将详细介绍M &Function平台的构建及其在新药筛选中的应用。

材料和方法

数据来源和处理M &Function平台主要关注小分子药物信息,包含小分子药物的结构、功能、分类、活性等信息。目前数据库中共收录了6625条小分子药物信息,这些数据主要来源于针对Drugbank、Pubchem等网络数据的搜索,以及针对WHO基本药物目录和大量文献的数据挖掘。由于不同来源的数据格式千差万别,数据可靠性也参差不齐,为了确保数据库的高效搜索及数据的准确可靠,我们对各方数据进行了人工校正和整合,并用Python语言编写了脚本,协助进行数据存储和格式转换。

为了使用户在进行结构比对和功能预测时更有针对性,我们对所有小分子药物进行了分类。依照是否通过FDA认证分为2类:1 402种FDA认证药物和5 223种实验药物,按照小分子的结构分为4类:芳香类、直链类、杂环类和其他类(表1)。此外,针对FDA认证的小分子,还进行了功能分类(表2)。在分类过程中会出现某些条目同时归属于多个类别的情况。此部分工作以人工标注为主,借助Python编写的脚本协助进行化合物结构母核比对。

表1 FDA认证的小分子药物和实验性小分子药物的结构分类Tab 1 Structural classification of FDA-approved small molecule drugs and experimental small molecule drugs

结构比对软件及其优化在新药开发领域,高通量筛选方法已经发展成为一种包括计算机虚拟筛选和体外筛选的整合方法。通过虚拟筛选发现具有生物活性的化合物并进行功能预测对于高通量筛选非常重要[10-12]。基于配基的活性预测模型建立在相似性原则(similar property principle)之上。这个原理基于的实验事实是具有相似结构的化合物通常拥有相似的理化特性和生物活性。由于这个理论的重要性,很多方法提出把化合物结构间的相似性精确定量化并预测它们可能的生物活性,例如基于Fingerprint、MCS、Atom pair[13]、Atom sequence[14-15]等的计算方法。M &Function平台选择了基于MCS算法 (源 代 码 下 载 链 接 :http://bioweb.ucr.edu/ChemMineV2/help/mcs.html)和Fingerprint算法(源代码 下 载 链 接:http://padel.nus.edu.sg/software/padeldescriptor/)。

表2 FDA认证的小分子药物的功能分类Tab 2 Functional classification of FDA-approved small molecule drugs

MCS是指两个化合物结构所共有的最大子结构。基于MCS的算法有很多优势:(1)结构相似药物的MCS很有可能就是与它们活性相关的重要结构元件;(2)这种方法能够很直观地显示出两个化学结构间的公共部分。寻找MCS是一个非常复杂的计算任务,运算时间会随着两个分子结构中原子数目的增加而呈指数级增长。所以,对于结构复杂的分子,计算MCS需要耗费很长时间。我们在基于MCS算法的基础上进行了优化,用户可以根据需要设置合适的时间阈值,当运算时间达到设置阈值时,结束当前任务,返回当前最优结果,此举可以大大提高运算效率。时间阈值的设置主要取决于对结果精度的需求以及数据集中小分子结构的复杂程度,根据我们的计算统计结果,15~30 s是一个比较合适的区间。

Fingerprint是化学信息学中广泛使用的概念,将化学结构转化为字符串,通过两字符串的比较来反映两化学结构的相似性。这种方法的一大优势就是运算速度非常快。我们采用PaDEL-Descriptor软件将化学结构转化为字符串,通过计算Tanimoto coefficient来量化小分子的结构相似性。

数据库平台的设计与实现活性小分子筛选平台以及M &Function模块都是采用J2EE架构进行设计并开发的。平台发布在Linux操作系统,运行环境是Java SE6,后台数据库是MySQL5,WEB服务器是Apache2.2和Apache Tomcat5.5。除了常规设计外,M&Function模块整合了多个软件,并且需要大量的计算资源,因此我们进行了特别设计。M &Function模块整合了MCS和Fingerprint进行结构相似性分析,整合了MarvinSketch进行小分子结构绘制与展示。M &Function模块采取了应用服务器与WEB服务器分离的技术,MCS和Fingerprint部署在应用服务器上,M&Function模块通过Java WEB Service调用应用服务器上 的 程 序。MarvinSketch是Java Applet,M &Function通过WEB提供MarvinSketch的在线服务。

结 果

网站功能M &Function平台整合了全面的小分子药物信息,包括药物的通用名、分类信息、功能活性以及结构信息,内嵌了结构比对和搜寻算法、化学结构绘制软件和图形化显示插件。用户可以很方便地搜索浏览所需要的药物信息,也可以借助网站强大的数据处理和分析能力,对未知活性的小分子进行功能预测。如果应用于新药研发领域,可以为高通量先导化合物的筛选提供信息准备和数据支持。网站主要包含4大功能模块:(1)数据搜索和浏览;(2)结构比对;(3)功能预测;(4)在线绘制。

数据搜索与浏览用户可以自由地浏览本数据库所收集的6 000多条小分子药物信息,也可以便捷地搜索到所需的药物信息。用户不仅可以通过药物通用名进行精确查询,也可以通过结构、功能等分类信息进行联合查询,返回符合条件的一类药物信息(图2)。

图2 数据搜索与浏览页面Fig 2 The screenshot of data searching and browsing page

结构比对结构比对既可以用于对数据库的结构搜索,也是进行功能预测的前提。比对运算采用的数据格式为structure-data文件(即SDF),是一种广泛使用的化学数据文本文件格式。用户上传SDF文件后,可以选择进行全库比对,也可以根据结构分类和分组信息,选择感兴趣的子类进行比对,以提高运算效率。网站提供基于MCS和Fingerprint的两种比对算法,用户可以选择其一,也可同时选择。若同时选择两种,结果将按照MCS得分进行排序,Fingerprint得分作为参考,用户可以选择结果显示得分排名前100、前500或全部药物信息(图3)。

图3 化合物结构比对页面Fig 3 The screenshot of structural similarity page

功能预测对未知活性小分子进行功能预测是M &Function平台的核心功能。以数据库收录的1 402种FDA认证的小分子药物的详细结构、功能、分类信息为基础,借助结构比对算法,通过对未知活性小分子与已知功能小分子药物之间的相似性得分进行统计分析,对其进行功能预测。

用户上传SDF文件后,可以通过勾选感兴趣的结构分类和功能分类,形成自定义的比对子库,也可以进行全库比对。其他选项与结构比对相似(图4)。

图4 小分子活性功能预测页面Fig 4 The screenshot of functional prediction page for small molecule activity

最终结果包括两部分。第一部分是按照得分高低排序的药物信息列表,包括药物的ID、功能分类、药效、结构相似性得分。相似性得分越高,两者功能相似的概率越大。未知活性小分子很有可能具有与相似性得分较高的药物相类似的活性。每一个药物的ID都通过超链接的方式链接到Drugbank,用户对于感兴趣的药物可以通过超链接了解更详细的信息。

如果用户比对时勾选了MCS算法,那么MCS比对结果也可以图形化显示。这也是MCS算法的一大优势,可以直观显示出两个化学结构中的公共部分,而这部分很有可能就是与其活性相关的重要结构元件(图5)。

图5 化合物最大公共子结构图形化显示(以DB01060和DB00948为例)Fig 5 The result of Graphical display of MCS between two compounds(e.g.DB01060 & DB00948)

结果的第二部分是基于功能分类所作的统计分析,显示最终结果列表中每一个功能分类所占的药物数量及平均MCS得分。如果某一功能分类所占的药物数量和平均MCS得分都较高,则未知活性小分子很有可能就具有这一类的活性。在“药物数量”这一列,每个数字都设有超链接,可以了解到某一功能分类详细的比对结果和药物信息(图6)。

在线绘制 在进行结构比对和功能预测时,用户可以选择从本地上传SDF文件,也可以选择在线绘制小分子结构。在页面右方用户可以选择进行结构比对或功能预测,其他操作与“结构比对”和“功能预测”模块相似(图7)。

系统运行实例 我们以ID:DB01060(阿莫西林)为例,展示如何将M &Function平台应用于小分子功能预测。首先,选择“功能预测”标签,上传阿莫西林SDF格式的结构文件。结构分类和功能分类都全选,即进行全库比对。比对方法勾选MCS,时间阈值设置为15s,最后输出结果选择Top100。

从比对结果中可以看出,排名靠前的均为全身性抗感染用药(图6)。Top100中,全身性抗感染用药有29种,占的比例最大,平均MCS得分也最高,这些数据都预示着DB01060具有抗菌活性。排名靠前的药物与DB01060的MCS基本都含有类似于β-内酰胺环的结构(图5),而这恰恰也是这一类抗生素活性相关的重要结构元件。数据平台运行的结果与事实完全相符。

图6 根据比对结果所作的统计分析(以阿莫西林为例)Fig 6 Statistical Analysis based on the structural similarity result(e.g.Amoxicillin)

图7 在线绘制模块页面Fig 7 The screenshot of online drawing module page

讨 论

M &Function平台从海量电子资源和文献数据中全面收录小分子药物信息,建立一个综合了生物信息学和化学信息学的网络信息平台。相比于Pubchem,后者虽然数据量庞大,但并不提供专门的药物及其靶点信息;M &Function平台则专注于小分子药物,比较全面地收录了现有小分子药物的相关信息,更有针对性。Drugbank是一个专业全面的药物信息网络资源,包含药物结构、药效、作用靶标等信息,虽然信息全面,但仅是一个数据汇总,多用于信息搜索和查询;而M &Function平台整合了结构比对软件和数据统计插件,可以对未知活性小分子进行功能预测,也扩展了其在新药研发中的应用。同时,M &Function平台针对药物信息进行了结构分类和功能分类,用户在使用时可以更有针对性,从而提高效率。

M &Function平台在进行结构比对时,选择了基于Fingerprint和MCS的两种算法。前者计算简单、效率高、速度快;后者则能直观显示出两个化学结构间的公共部分,但运算复杂。将两者结合起来可以从不同角度反映化学结构的相似性。同时,通过设置时间阈值,也可以满足用户的个性化需求,从而提高运算效率。

M &Function平台致力于新药筛选和开发。它不仅是一个整合了小分子药物的名称、结构、功能、分类等信息的资源库,为政府、企业、科研单位和医药工作者在研究、开发、利用现有的药物时提供较全面完整的资料;也是一个功能预测平台,借助于结构比对软件和统计分析,对未知活性的小分子进行功能预测,为高通量先导化合物的筛选提供信息准备和数据支持。同时,内嵌的图形显示和数据统计插件及人性化的网站设计使M &Function平台更加直观、高效、简便易用。

GEMBlast(基于转录组的功能相似性搜索)、MaxDock(基于反向对接策略的候选靶标预测)、药物数据库(药物说明和用药指南)和M &Function(基于小分子结构的功能预测)4个平台有机整合为新药筛选平台,从基因、药靶、小分子药物及功能等不同层面服务于新药研发,不仅可以为专业药物开发人员所用,也可以成为医师、公众等的药物信息库。

[1] 陈凯先,蒋华良,嵇汝运.计算机辅助药物设计:原理、方法及应用[M].上海:上海科学技术出版社,2000:2-7.

[2] Zhu F,Shi Z,Qin C,etal.Therapeutic target database update 2012:a resource for facilitating target-oriented drug discovery[J].NucleicAcidsRes,2012,40(D1):D1128-D1136.

[3] Li Q,Cheng T,Wang Y,etal.PubChem as a public resource for drug discovery[J].DrugDiscovToday,2010,15(23-24):1052-1057.

[4] Knox C,Law V,Jewison T,etal.DrugBank 3.0:a comprehensive resource for′omics′research on drugs[J].NucleicAcidsRes,2011,39(Database issue):D1035-D1041.

[5] Li Y,Hao P,Zheng S,etal.Gene expression module based chemical function similarity search[J].Nucleic AcidsRes,2008,36(20):e137.

[6] Liu HF,Shen Q,Zhang J,etal.Evaluation of various inverse docking schemes in multiple targets identification[J].JMolGraphModel,2010,29(3):326-330.

[7] 韦雯倩,南蓬,陈燕,等.Protégé文本标注工具在药物知识表示中的应用及其比较[J].复旦学报:自然科学版,2009(1):142-147.

[8] Cao YQ,Jiang T,Girke T.A maximum common substructure-based algorithm for searching and predicting drug-like compounds[J].Bioinformatics,2008,24(13):I366-I374.

[9] Yap CW.PaDEL-descriptor:an open source software to calculate molecular descriptors and fingerprints[J].JComputChem,2011,32(7):1466-1474.

[10] Mcinnes C.Virtual screening strategies in drug discovery[J].CurrOpinChemBiol,2007,11(5):494-502.

[11] Sousa SF,Cerqueira NM,Fernandes PA,etal.Virtual screening in drug design and development[J].CombChem HighThroughputScreen,2010,13(5):442-453.

[12] Glick M,Jacoby E.The role of computational methods in the identification of bioactive compounds[J].CurrOpin ChemBiol,2011,15(4):540-546.

[13] Carhart RE,Smith DH,Venkataraghavan R.Atom pairs as molecular:features in structure activity studies:definition and applications[J].JChemInfComputSci,1985,25(2):64-73.

[14] Chen X,Reynolds CH.Performance of similarity measures in 2Dfragment-based similarity searching:Comparison of structural descriptors and similarity coefficients[J].JChemInfComputSci,2002,42(6):1407-1414.

[15] Sheridan RP,Kearsley SK.Why do we need so many chemical similarity search methods?[J].DrugDiscov Today,2002,7(17):903-911.

猜你喜欢

分子分类数据库
分类算一算
分子的扩散
分类讨论求坐标
数据分析中的分类讨论
“精日”分子到底是什么?
米和米中的危险分子
教你一招:数的分类
数据库
数据库
数据库