高效识别“已知的未知物质”
2014-04-08RogerSchenck
可持续发展
高效识别“已知的未知物质”
尽管“大数据”一词由来不久,但是科学家们早已试图寻找各种方法,从而对爆发式增长的化学数据进行管理和分析。当年,美国化学文摘社旗下的CAS REGISTRY数据库收录第1 000万个独一无二的有机和无机物质,历时30余年。而如今,CAS REGISTRY数据库最近收录1 000万个物质只需要半年不到的时间。目前,CAS REGISTRY数据库收录了数百万的化学物质数据,被业界誉为化学物质信息的“黄金标准”。
事实上,收录数据并非易事。处理大数据的挑战在于,在确保即时结果有效性的前提下,还需使用不同方法对文本信息、物质结构以及数值数据进行管理与分析。化学家们常常会依赖基于计算机的手段,对海量的信息进行有效地解读与分析,如此一来,他们就可以快速回到实验室从事研究工作。我们可以从科学家收集并分析物质性质的角度来阐述这一个观点。
作为物质性质数据的可靠信息来源,CAS REGISTRY数据库在2014年3月份已经收录了8 600多万种有机和无机物质。化学家们可以通过CAS REGISTRY数据库中获得48亿个预测及实验性质和谱图标签,同时还能基于物质性质的共性,对已知的化合物进行性质对比,对未知的化合物进行探究。如通过可观测的熔点检索具备相似性质的潜在化合物。
化学家们通常会利用大型的物质数据库去说明质谱分析法的结果。20世纪60年代末,绝大多数的质谱仪只能测定标称质量数据。如今,新型的质谱仪具备更强大的功能,不仅能够测定精确的质量数据,还能将误差控制在百万分之几的范围内。即便先进的仪器能够提供分子式数据,但熟练的质谱分析员仍然急需解决一个问题,那就是如何将这些数据转化为结构式数据。因此,基于计算机可获得的物质数据库及其实验性数据能够帮助科学家们节省时间和预算。
2011年,伊士曼公司研究员James Little在《美国质谱学会志》上发表的一篇论文提到,他和同事引用了Donald Rumsfeld提出的“已知的未知物质”来描述这样一类物质:虽然对于研究人员来说是未知的,但它有可能已经存在于已公开的物质数据库中。Little的论文以一些细微样品的发现历史作为引言,并详细介绍了如何将罐头涂层工艺中发现的污染物识别为一种特定环状二聚体的研究案例。通常情况下,当合适的食品模拟溶剂接触到食品包装中的聚合物涂层后,会生成可萃取物。而美国食品药物管理局对上述生成的萃取物有着非常严格的规定。在这个案例中,当合作实验室的研究人员将伊士曼公司生产的聚酯涂层涂覆到金属罐上时,通过液相色谱质谱联用仪(LCMS)观察发现,罐头涂层上的萃取物(即污染物)不仅包括常见的直链和环状聚酯,还出现了一种意想不到的UV吸收物质。
Little的团队利用精确的电喷雾质谱分析,确认该污染物中含有分子式C36H40O6,随后使用CAS旗下的检索工具SciFinder对这个分子式进行检索,得到近200个相关物质的信息。由于研究人员熟悉一些样品的来龙去脉,因此他们检索了所有学术参考资料,并以“罐头涂层”作为关键词去筛选专利和期刊文章。最终,根据四篇参考文献的资料,研究人员发现一种常见于环氧树脂罐头涂层的萃取物Cyclo-DiBADGE(CAS登记号为20583-87-3)与污染物的所有数据信息相匹配。原来,合作实验室的研究人员不小心将另一家公司的环氧树脂涂料涂染到伊士曼公司的聚酯涂层上,才发生了这次“小意外”。除了上述方法,研究人员还可以利用SciFinder最近新添的检索功能来搜索并识别这一污染物,即根据物质的分子量来检索。尽管化学数据库中有许多物质的数值属性信息,考虑到分子量与质谱分析有着非常密切的关系,SciFinder数据库还会专门将其收录进来。
如今的质谱分析调查显示,分子态离子的质量可以通过直接检索分子量获得。随后对列出的一系列物质选项进行筛选,即可破译“已知的未知物质”的结构。例如,假设某一种巴比妥酸盐可能会导致血液成分不均衡。同时,质谱分析仪显示该物质的分子态离子的质量约为232.24。在此基础上检索该物质的分子量,然后根据引用的频率对检索结果进行排序,很快就会查到该物质最有可能是苯巴比妥。最后利用SciFinder确认这一结果,即在SciFinder中查询实验性质谱数据,将其与该物质最近测量的质谱进行对比。当一个化学物质数据库拥有大量物质性质和质谱信息时,它能够帮助研究人员提高研究效率、节省时间和金钱。
美国化学文摘社Roger Schenck
(本栏目编辑:涂闽)