商品化合物数据库
2020-10-26续冉赵月红韩清珍温浩
续冉,赵月红*,韩清珍,温浩
1. 中国科学院过程工程研究所,环境技术与工程研究部,多相复杂系统国家重点实验室,北京 100190
2. 中国科学院大学,北京 100049
数据库(集)基本信息简介
数据库(集)名称 商品化合物数据库 数据作者 续冉、赵月红、韩清珍、温浩 数据通信作者 赵月红(yhzhao@ipe.ac.cn) 数据时间范围 2017–2019年 数据量 74 KB 数据格式 *.xls 数据服务系统网址 http://www.sciencedb.cn/dataSet/handle/914(89个样例数据集) 基金项目 国家科技基础条件平台项目(DKA2017-12-02-05);“十三五”院信息化专项(XXH1350303-103)。 数据库(集)组成 中国、美国、欧盟现有化学物质名录中的34 177种化合物,包含标识信息(CAS登录号、中英文名称、所属名录、化学式、摩尔质量、SMILES码)、理化性质数据(熔点Tm、正常沸点Tb、蒸汽压P、密度ρ、表面张力σ、黏度η)和萃取性能(分配系数mij、选择性βij、溶解能力SPij、溶剂损失SLi)。
引 言
目前许多国家和地区都编制了本国的化学物质管理法规,要求对生产、加工、销售、使用或从国外进口的化学物质进行注册/通报。我国自2003 年开始建立并执行新化学物质登记制度[1-2],根据是否列入目录,将化学物质分为现有化学物质和新化学物质。现有化学物质的安全、环境和健康风险已知,通过有效的技术手段和监管措施可防范可能出现的危害,且可根据CAS 登录号获得化合物的化学物质安全技术说明书(Material safety data sheet,MSDS),可为安全生产/储存/运输/使用/处置、泄露应急处理、劳动保护和救护措施等提供指导。
为了便于利用名录中的化合物,中国科学院过程工程研究所基于中国、美国和欧盟的现有化学物质名录,建立了商品化合物数据库(Existing Commercial Compounds Database,ECCD)。ECCD 中除了包含名录中化合物的基本信息外,还根据CAS 登录号添加了表征化合物结构信息的mol 文件。由于缺乏实验数据,无法满足化合物筛选数据一致性和完备性的要求,我们利用化合物分子结构信息,采用基团贡献法和基团匹配工具CACTVS 开发了化合物物性估算程序,进行物性估算,用于扩充化合物的物性信息,包括熔点、正常沸点、密度、黏度等,作为功能化合物筛选的基础数据集。对于有特定功能需求的化合物筛选,可以在基础数据集的基础上,增加专题功能数据。如,为了满足萃取剂筛选的需求,实现煤化工废水中多种污染物的萃取,我们在ECCD 库中补充了针对废水中12种典型污染物的萃取性能数据,并进一步开发了基于多物性联合检索的高通量筛选方法。由于ECCD中化合物环境健康风险已知,有可能进一步发现“老”化合物的“新”功能,有利于提高功能化合物开发效率,降低经济和时间成本。
1 数据采集和处理方法
1.1 数据源
目前,世界主要国家和地区的化学物质名录有:中国现有化学物质名录(Inventory of existing chemical substances,IECSC)、美国有毒物质控制名录(The toxic substances control act,TSCA)、欧洲现有商业化学物质名录(European inventory of existing commercial chemical substances,EINECS)、菲律宾化学品和化学物质名录(Philippine inventory of chemicals and chemical substances,PICCS)、韩国现有化学物质清单(Korea existing chemical list,KECI)、加拿大国内物质清单(Domestic substances list,DSL)、日本现有和新化学物质(Existing and new chemical substances,ENCS)、澳大利亚化学物质名录(Australia inventory of chemical substances,AICS)等[3-4]。
收录化合物数量最多的6 个名录中化合物的分布如图1 所示,其中文恩图由Tbtools[5]绘制。可以看出欧洲现有商业化学品名录(EINECS)[6]、美国有毒物质控制名录(TSCA)[7]和中国现有化学物质名录(IECSC)[8-9]基本可以包含世界化学品名录中的大部分化合物。因此,本文以这三个名录为基础建立ECCD 数据库。
图1 世界化学品名录中化合物的数量分布图
3 个名录中化学物质的数量如表1 所示,总共有10 万多种化学物质。名录中的化学物质一般包含CAS 号、流水号、物质名称和化学分子式等基本信息。为了扩充数据库信息,以支持功能化合物筛选,我们以CAS 号为依据从中国科学院上海有机化学研究所获取了化合物的mol 文件。排除重复的化合物后,ECCD 中共有34 177 种含分子结构信息的化合物。
表1 3 个名录中的化合物情况
1.2 物性数据的计算
为了扩展数据库的应用范围,ECCD 添加了化合物的物性数据,包括摩尔质量M、熔点Tm、正常沸点Tb、蒸汽压P、密度ρ、表面张力σ 和粘度η 等。由于实验数据完备性不足,ECCD 中的物性数据采用基团贡献法进行估算。现有物性计算方法中,基团贡献法具有适用范围广、计算简单、估算精度误差范围可接受等优点。表2 总结了本数据库中采用的物性计算方法[10-12],包括C-G 法、Joback 法、GCVOL 法和CSGC 法。
表2 物性数据的计算方法
物性数据 计算方法 表面张力σ CSGC_ST1 黏度η CSGC_VK
物性估算程序包括3 个步骤:首先利用Open Babel 2.3.2 软件将化合物结构mol 文件转化成SMILES 码;根据SMARTS 码的编码规则,对不同基团贡献法中的基团进行表达。然后利用CACTVS化学工具库[13]进行SMILES 码和SMARTS 码的匹配,将分子结构拆解成基团。最后采用相应的基团贡献法估算化合物的性质。物性估算程序采用Tcl 语言(Tool Command Language)[14]编写,可以实现不同物性估算任务的批处理作业,以及程序与外部数据的连接。
根据不同的化合物筛选需求,用户可以在现有ECCD 数据库上的基础上添加专用的物性数据和功能数据,实现相应的功能化合物的筛选。例如,为了将ECCD 数据库应用于煤化工废水中多种污染物脱除的萃取剂设计,我们在库中添加了萃取性能数据。考虑到废水中污染物浓度很低,萃取操作液液相平衡计算采用了无限稀活度系数。萃取剂对12 种典型污染物(苯酚、甲基酚、二甲基酚、苯二酚、苯三酚、联苯、三联苯、萘、茚、吡啶、吲哚、喹啉)的萃取性能的计算方法如下:
1.3 数据使用的便利化
为了方便使用ECCD 进行萃取剂筛选,以SQL Server 2008 作为数据库管理系统,在Windows 7环境下,利用C#语言和Visual Studio 2010 开发了ECCD 的图形用户界面。ECCD 的主界面和检索界面如图2 和图3 所示。
图2 现有商品化合物数据库的登录界面
图3 现有商品化合物数据库检索栏
2 数据样本描述
ECCD 采用CAS 号作为唯一标识字段,化合物的基本信息、物性数据和功能数据均通过CAS 号集成到数据库中。针对不同功能化合物筛选扩充的物性数据表也可以通过CAS 登录号集成到ECCD中。表3–5 分别是化合物的标识数据表、理化性质数据表和萃取性能数据表。其中各个表包含的信息为:(1)标识数据:CAS 登录号、中文名称、英文名称、所属名录、分子式、SMILES 码、摩尔质量;(2)理化性质数据:正常沸点、熔点、密度、蒸汽压、黏度、表面张力;(3)萃取性能数据:分配系数、选择性、溶解能力、溶剂损失。
表3 ECCD 的化合物标识数据表
字段 数据类型 含义 说明 Name_EN nvarchar(255) 英文名称 IUPAC 命名 Inventory nvarchar(255) 所属名录 − MF nvarchar(255) 化学式 − smiles nvarchar(255) SMILES 码 − M float 摩尔质量 单位:g∙mol−1
表4 ECCD 的理化性质数据表
表5 ECCD 的相间行为参数数据表
3 数据质量控制和评估
分子结构和基团的表达以及基团匹配顺序将对拆解结果的正确性产生影响,本库通过对分子mol文件进行显氢处理,以避免SMILES 码因隐氢引起的拆解错误。此外,修改了部分基团的SMARTS码和基团匹配顺序,以保证基团匹配结果的正确性。
无限稀释活度系数采用Dortmund UNIFAC 模型[15-16]计算,它改进了活度系数组合项和剩余项,能更好地描述稀释区的真实行为。关联模型参数的数据集来自多特蒙德数据库(Dortmund Data Bank,DDB),关联中不仅使用了汽–液平衡数据,还使用了超额焓、超额等压热容、液–液平衡、共沸、固–液平衡数据、无限稀释活度系数数据,与原始UNIFAC 模型相比,Dortmund UNIFAC 模型估算精度更高,估算范围更广,预测无限稀释活度系数的误差可比原始UNIFAC 模型降低40%–50%[17]。
4 数据使用方法和建议
ECCD 数据已经开发完成,目前仅限于内部使用,已具备在线数据查询和数据可视化能力。ECCD数据库包括两个账户,管理员账户和普通用户账户。管理员可以实现数据的检索、导入、导出和删除。普通用户可以进行数据的检索和导出。图4 是检索后的结果界面。点击图中的“查看”,可以得到基本信息、理化性质和萃取性能。用户可以设定物性约束范围进行检索,批量下载筛选后的结果。本数据库还可以根据不同的体系添加相应的物性数据,更新数据集,扩展其应用范围。如需深入 了 解 ECCD 包 含 数 据 内 容 , 样 例 数 据 集 可 以 从 Science Data Bank(http://www.sciencedb.cn/dataSet/handle/914)下载(包含89 组样例数据)。需要指出的是ECCD 系统尚未对外提供服务,正式线上服务工作正在准备中。如需使用本系统,可联系作者。
数据作者分工职责
续冉(1990—)女,山东临沂人,博士研究生,研究方向为计算化学与化工。主要承担工作:商品化合物数据库的创建、物性数据的计算、更新和维护。
赵月红(1973—),男,内蒙古包头人,博士,副研究员,研究方向为计算化学与化工。主要承担工作:商品化合物数据库的创建、更新和维护。
韩清珍(1979—)女,山东临沂人,博士,副研究员,研究方向为计算化学与化工。主要承担工作:商品化合物数据库的维护。
温浩(1957—),男,北京人,博士,研究员,研究方向为计算化学与化工。主要承担工作:商品化合物数据库的设计。