内分泌干扰物层级筛选中的定量构效关系
2014-02-14童伟达
童伟达
(美国食品药品监督管理局,美国国家毒理研究中心,生物信息学与生物统计学研究部,美国杰佛逊72079)
内分泌干扰物层级筛选中的定量构效关系
童伟达
(美国食品药品监督管理局,美国国家毒理研究中心,生物信息学与生物统计学研究部,美国杰佛逊72079)
大量的科学研究、监管和大众媒体一直关注于内分泌干扰物,它们主要是能够模仿天然激素功能的合成化学物质。法律要求开发一种程序,用以筛选和测试水和食品添加剂中是否含有潜在内分泌干扰物。根据法规,大量的化学品将会接受各种体外和体内的实验用以测试其潜在荷尔蒙的活性,例如雌激素活性。因此,需要对这些化学物质进行分层筛选,以降低测试成本及加快筛选和测试的速度。在已经开发的内分泌干扰物知识数据库(EDKB)项目中,将实验和建模进行了整合,以便于更加高效地进行优先级的设置。
内分泌干扰物;知识库;定量构效关系;雌激素活性
0 引言
通过实验研究发现,大量的环境化学物质,被称为内分泌干扰物(EDCs),可能是通过模仿天然激素而扰乱动物、野生物和人类的内分泌功能的。目前,科学界、政府监管部门和公众对于环境中的EDCs对人类及野生物产生不利影响这一情况给予越来越多的关注[1]。EDCs对动物及野生物产生的不良影响已在实验中被发现,它对于人类的潜在影响包括:生殖和发育毒性、致癌作用、免疫毒性和神经毒性等。EDCs可通过多种机制发挥不利影响,其中尤以雌激素受体(ER)介导毒性机制的影响最大。
围绕EDCs科学性的辩论争议,部分原因是有些人怀疑EDCs是高产量且对经济有重要影响的化学物质,如双酚A(PBA)和邻苯二甲酸盐。这样的担忧导致了政府的监管行为,且研究范围已扩展到整个欧洲、日本和北美。美国国会于1996年授权环境保护署(EPA)制定相关战略以筛选和测试从饮用水、食品添加剂及其他物质中发现的大量化学物质(超过58 000种化学制品)对内分泌干扰的可能性[2]。
优先级设置的目的是为了对大量的化学物质按照最重要到最不重要的顺序排序以用于其他更多的资源密集型的评价。有许多的标准可用于这个目的,例如产量、在环境中的持久性及生命周期、人类接触水平等。实验需要的58 000种化学物质中,大多数没有生物数据。计算方法如定量构效关系(QSAR方法)可以为优先级设置提供第一手的生物效应信息。定量构效关系已在分子设计与药物发现领域中被证明是成功的[3],特别是对受体结合活性的预测,可用于评估未经测试的化学物质以提供在优先级设定中所需的生物数据[4]。
1 内分泌干扰物知识数据库
考虑到需要一个具备访问地址的信息系统,同时该系统专注于整合大量源自实验的内分泌干扰物数据,包括雌激素、雄激素及其他内分泌物等,美国食品与药物管理局(FDA)所管辖的国家毒理学研究中心(NCTR)开发了内分泌干扰物知识数据库(EDKB)项目[5]。对于不同实验结果的收集使得对大量化学物质进行比较研究变为可能,同时为定量构效关系模型的发展提供了基础,从而对潜在内分泌干扰物的优先级排序提供实验验证。
自1997年以来EDKB一直在线,且被政府、学术界及私营部门所使用(见图1,其中“05上”、“05下”分别表示2005年上半年和2005年下半年,余类推)。该数据库是免费且完全公开的,其网址为http://edkb.fda.gov/webstart/edkb/index.html。
图1 内分泌干扰物知识数据库的用户使用历史图Fig.1 User history of the EDKB database
EDKB项目的启动是为了帮助解决对EDCs的监管问题。在线数据库涉及的的化学品,涵盖了范围广泛的被政府监管的产品包括杀虫剂、化学废物、有毒金属、食品添加剂等。
同时具备搜索化学结构和生物活性功能的EDKB,对于监管和研究是必不可少的。其他国家政府也已经实施了类似的战略,启动了诸如Tox21和ToxCast项目,用于为美国和其他国家的监管部门提供研究较少的重要物质的生物活性简况[6]。值得注意的是,虽然Tox21和ToxCast计划旨在提供丰富的化学毒性信息,但是它们不像EDKB,不提供EDCs的特定领域知识。
2 定量构效关系
构效分析的基本假设是根据物质的结构预测它的化学生物活动[7]。化学结构能够通过所谓的分子描述符进行定量表征。一种化学物质的分子描述符可以由计算方式确定,该方式比体内或体外实验方式更快捷和高效。经过统计验证的QSAR模型能够替代费时、费力的化学合成和生物评价方式来预测一种新型化学物的生物活性。如果运用得当,定量构效关系可以节省大量的时间、金钱和人力资源。当被应用于大量的化学物的时候,QSAR的优先级设置可更高效。当几个端点同时分析时,其高效率的优势更加明显。
开发QSAR模型的第一步是获取一个已知其活性的化学物质训练数据集;其次,计算出代表单个化学物质的分子结构(即疏水性,结构性片段,带电的表面面积,氢键数量,溶解度等的数值)的描述符;然后,通过采用不同的统计方法来评估训练数据集的描述符与活性之间的相关性以确定最具有统计学意义的显著关系(QSAR模型);最后,需要一个适当的验证来确保该模型对于不在数据集中的化学物质仍然具有预测能力。经过充分验证后,模型便可用来预测未经检验的潜在内分泌干扰物的活性。
3 内分泌干扰物的定量构效关系模型
Tong等[8-12]已经开发了一些用以配体结合的雌激素受体的QSAR模型。我们则采取了一个循环的过程(图2)将实验和QSAR模型融为一体。这一过程以一组化学物质的初始数据集运行为起点,而该数据集来源于与QSAR模型相关的文献。接下来,初步的QSAR模型被用于定义潜在的一组化学物质,这将有利于进一步提高模型的稳健性和预测能力。当对新的化学物质进行了实验分析后,新数据将用于优化并改善QSAR模型。该过程中包含内外部检验,而不同检验都对该模型的预测能力提供不同的置信水平。图3[13]举例描述了一个同时具备化学物质结构多样性及大范围生物活性的雌激素结合训练数据集。
图2 利用国立毒理学研究中心运用的循环过程发展预测雌激素受体结合的QSAR模型Fig.2 Depiction of the recursive process used by NCTR to develop QSAR models for predicting estrogen receptor binding
图3 232种化学物质根据国立毒理学研究中心实验的化学分类和结合活性的分布图Fig.3 The distribution of chemical classes and binding activity for 232 chemicals assayed by NCTR
在此过程中,特别强调模型的检验步骤,以确保该模型以优先设置为目的的预测能力。具体来说,该模型首先用缺1交叉检验法进行验证。在该方法中,集合中的每个化学物质被系统性地从数据集中排除一次,之后,通过数据集中的其余化学品获得的模型,预测其自身的活性。这种内部检验方法在训练数据集范围内评估了推断能力。有时候,我们采用缺N交叉验证,以实现更强大的内部验证;类似于缺1法,当将数据集随意地分成N组后,可以系统性地随机排除一组化学物质。当额外的数据可用时,该模型被用于预测不在训练数据集中的已知其活性(实验组)的数据。这种外部验证用于评估该模型对于未经测试的化学物质的预测力。
每次模型受到挑战,结果可进一步确认其有效性、限制性或可离群值的预测。反过来,该模型的失败会提供重要的信息。这可能包括对于新数据需要的识别,该数据库以对活性、对结构的依赖性的合理理解为基础。另外,它可以帮助阐明哪种机制在一个特定的化学反应中可能起的重要作用,例如,描述从拮抗剂到兴奋剂,或界定新陈代谢是重要的。无论模型失败的原因在哪,本质来讲,研究的假设应当有助于催生新的数据和改善训练数据集,并有利于改进生物模型。
4 结论
内分泌干扰物对人类和野生动物存在潜在的不利影响。模拟雌激素并与雌激素受体结合的可能性可通过计算的方式如QSAR方法进行预测。QSAR方法可以作为优先级设置的工具,确定需要通过实验来评估的化学物质。即便如此,需要注意的是任何模型的预测,本质上都不会比用于建模的实验数据好。而任何用以产生训练数据集数据的实验分析的限制,同样也会影响模型的预测性。
参考文献:
[1]KAVLOCK R J,DASTON G P,DEROSA C,et al.Research needs for the risk assessment of health and environmental effects of endocrine disruptors:a report of the U.S.EPA-sponsored workshop[J].Environ Health Perspect,1996,104(Sup 4):715-740.
[2]US-Congress.The safe drinking water act[M].California, USA:USC,1996.
[3]HANSCH C,LEO A.Exploring QSAR—Fundamentals and applications in chemistry and biology[M].Washington,DC:The American Chemical Society,1995.
[4]WALKER J D,GRAY D A.Handbook on quantitative structure activity relationships(QSARs)for predicting effects of chemicals on environmental-human health interactions[M].Walker JD Pensacola,FL.:SETAC Press,2001.
[5]DING D,XU L,FANG H,et al.The EDKB:An established knowledge base for endocrine disrupting chemicals [J].BMC Bioinformatics,2010,11(Sup 6):S5.
[6]KLEINSTREUER N C,DIX D J,HOUCK K A,et al. In vitro perturbations of targets in cancer hallmark processes predict rodent chemical carcinogenesis[J].Toxicol Sci,2013,131(1):40-55.
[7]JOHNSON M,MAGGIORA G M.Concepts and applications of molecular similarity[M].New York:Wiley,1990.
[8]TONG W,PERKINS R,STRELITZ R,et al.Quantitative structure-activity relationships(QSARs)for estrogen binding to the estrogen receptor:predictions across species[J]. Environ Health Perspect,1997,105(10):1116-1124.
[9]TONG W,PERKINS R,XING L,et al.QSAR models for binding of estrogenic compounds to estrogen receptor alpha and beta subtypes[J].Endocrin,1997,138(9):4022-4025.
[10]TONG W,LOWIS D R,PERKINS R,et al.Evaluation of quantitative structure-activity relationship methods for large-scale prediction of chemicals binding to the estrogen receptor[J].JChemInfComputSci,1998,38(4):669-677.
[11]TONG W,XIE Q,HONG H,et al.Assessment of prediction confdence and domain extrapolation of two structureactivity relationship models for predicting estrogen receptor binding activity[J].Environ Health Perspect,2004, 112(12):1249-1254.
[12]TONG W,HONG H,FANG H,et al.Decision forest:combining the predictions of multiple independent decision tree models[J].J Chem Inf Comput Sci,2003,43(2):525-531.
[13]FANG H,TONG W,SHI L,et al.Structure activity relationship for a large diverse set of natural,synthetic and environmentalchemicals[J].ChemResToxicol,2001,14(3): 280-294.
Quantitative Structure-Activity Relationships(QSARs)for Priority Setting of Endocrine Disrupting compounds(EDCs)
TONG Wei-da
(U.S.Food and Drug Administration,National Center for Toxicological Research(NCTR),Division of Bioinformatics and Biostatistics,Jefferson,AR 72079,USA)
Considerable scientifc,regulatory and popular press attention has been devoted to the Endocrine Disrupting Chemicals (EDCs)which are predominantly synthetic chemicals with an ability of mimicking the functions of natural hormones.The legislation requires development of a screening and testing program for potential EDCs in drinking water and food additives.Under the legislation, a large number of chemicals will undergo various in vitro and in vivo assays for their potential hormonal activities such as estrogenicity. There is a crucial need to set priority for these chemicals to reduce the cost and speed the screening and testing process.We have developed an Endocrine Disruptor Knowledge Base(EDKB)project where experimentation and modeling were integrated to assist the priority setting process.
endocrine disrupting chemicals(EDCs);knowledge base;quantitative structure-activity relationships(QSARs);estrogenicity
X503
A
童伟达,博士,美国食品与药品监督管理局国家毒理研究中心(FDA/NCTR)生物信息学与生物统计学系主任,兼任阿肯色大学小石城分校(UALR)教授。童博士已发表200多篇论文,被引用6 000多次,H指数为42。他所带领的部门承担发展生物信息学方法与标准来支持FDA在药物、医疗器械等方面的研究与管理,并推动管理的科学性与个体化医疗。团队中最具代表性的项目有:(1)开发了FDA生物信息学系统,ArrayTrackTM套件,以支持FDA对药物基因组学的研究与评审;(2)所引领的芯片质量控制协会(MAQC)为转化科学以及个体化医疗提供标准;(3)基于药物安全性研究开发了肝毒性知识库(LTKB)等。童博士的研究工作中采用大量肿瘤细胞体外药敏筛选、基因组学、生物信息学等技术和手段。
1001-4543(2014)03-0183-05
2014-05-15
童伟达(1961–),男,上海人,教授,博士,主要研究方向为生物信息学方法与标准。电子邮箱wtong@nctr.fda.gov。
免责声明:本文中提出的观点并不一定反映美国食品药品监督管理局目前或未来的观点或政策。任何提及的商业产品只是一种说明,并不能作为认可。