实验室化学品纯化方法数据集
2020-10-26李英勇赵英莉
李英勇,赵英莉
1. 中国科学院上海有机化学研究所信息中心,上海 200032
数据库(集)基本信息简介
数据库(集)名称 实验室化学品纯化方法数据集 数据通信作者 李英勇(liyingyong@sioc.ac.cn) 数据作者 李英勇、赵英莉 数据时间范围 1912–2006年 地理区域 世界各国 数据量 2.75 MB 数据格式 *.mdb http://www.sciencedb.cn/dataSet/handle/897 数据服务系统网址 http://www.organchem.csdb.cn/scdb/main/purechem_introduce.asp 基金项目 数据库(集)组成 中国科学院信息化建设专项(XXH13505-03-103);国家基础科学数据共享服务平台项目(DKA2017-12-02-05);上海市科委项目(18DZ2294000)。 本数据集由1 个ACCESS 文件组成, 包括一个数据表(LabChemPurification表)和3个检索窗体(CASRN检索、名称检索和顺序浏览窗体):共有5747条记录,包括实验室化学品的ID号、类别、名称、CASRN号、分子式、分子量、凝固点、熔点、沸点、相对密度、折射率、旋光度、比色指数、电离常数、纯化方法、来源文献和其他性质数据。
引 言
化学家和生物化学家在进行实验研究时,往往会遇到实验用化学品是否需要纯化,以及如何纯化的问题。有些研究对化学品纯度要求较低,而有些研究对化学品纯度却有较高的要求,必须对实验室化学品进行纯化,使其理化性质数据达到一定的指标,才能满足实验要求。特别是随着半导体技术、特殊合金制备以及高生物活性物质的分离等方面的快速发展,对化学品纯度的要求越来越高。目前,化学品纯化方法信息分散于科技期刊和科技手册中,从期刊手册中查找数据不够方便,期刊手册上的数据内容也无法及时补充完善。此外,也没有相关的开放数据集可供使用。
针对化学家与生物化学家的实验需求,通过收集整理科技手册中的实验室化学品纯化方法和理化性质数据,建设完成了实验室化学品纯化方法数据集。通过此纯化方法数据集,化学家与生物化学家可以方便地查询实验用化学品是否需要纯化,如何纯化,以及化学品的理化性质数据。用户也可以随时补充完善最新的纯化方法和理化性质数据,以进行横向比较研究。
1 数据采集和处理方法
1.1 原始数据来源
实验室化学品纯化方法数据集的原始数据采集自《实验室化学品纯化手册》[1],此手册规范整理了2006 年以前的相关科技期刊信息,记录了常用实验室化学品的纯化方法数据和理化性质数据,数据格式规范,内容较为详尽,采用此科技手册,大大减少了原始数据收集、校对与规范化处理的工作量。此数据集今后会持续建设,不定期补充期刊文献中新发表的纯化方法数据和理化性质数据,以持续反应最新的科研成果。
原始数据按采集要求录入后,再对采集数据进行规范化处理和质量校验,最终得到实验室化学品纯化方法数据。
1.2 数据采集
原始数据为科技手册,首先介绍了实验室化学品常用的物理纯化技术和化学纯化技术,以及化学品纯化方法的未来发展方向,然后具体讲述了各种化学品的纯化方法,分为有机化学品、无机化合物、金属有机化学品以及生物化学品。这些纯化方法条目长度不等,有的只有一行,有的约有一页,甚至更多,如乙腈、苯、乙醇和甲醇等。有些条目还包括了可能的污染物和储存条件等信息。大多数条目里插入了与物理性质有关的更多信息,比如熔点、沸点、折射率、相对密度、旋光度(针对适用的化合物)和紫外吸收数据,部分条目有化合物分子量,几乎所有条目都附有化合物的CAS 登录号。原始数据如图1 所示。
根据原始数据的这些类型和特点,设计了实验室化学品纯化方法数据集加工数据表,采用人工录入的方式,将原始手册中的实验室化学品纯化方法、理化性质和参考文献等数据,分别录入加工数据表中。加工数据表以化学品作为实体,将理化性质数据、纯化方法数据和参考文献数据作为其属性。制订了具体的数据采集录入规则:
(1)段落开头部分若是粗体字,说明这是一个新化学品条目;若段落开头不是粗体字,则此段内容属于上一段的化学品,在开头部分加入“$$”段落标识,内容并入上一段。
(2)新化学品条目开头的粗体字部分是化学品名称,若此部分结尾处有括号,则括号前数据是化学品俗名,括号中数据是化学品系统名称。
图1 原始数据示例
(3)化合物名称后中括号部分是化学品的CASRN 号。
(4)CASRN 号后面的粗体字部分是化学品的分子式和理化性质数据,各项间以逗号分隔,并以句号结尾。其中:“M”字符开头者是化学品分子量数据。“m”字符开头者是化学品熔点数据。“b”字符开头者是化学品沸点数据。“pK”字符开头者是可电离化合物的电离常数数据。若“pK”有上标,则上标数字是温度值;若没有上标,说明是室温(约15–25℃),若下标有“Est”字符,说明这是电离常数估计值。“[α]”字符开头者是化学品旋光度数据,其上标是温度,下标是光源波长。“n”字符开头者是化学品折射率数据,其上标是温度,下标是光源波长。所有数据项分别录入数据采集表的对应列中。若没有对应列,则录入“Other”列。
(5)理化性质数据之后的部分是化学品纯化方法数据,其中的中括号部分是纯化方法的来源文献信息,此部分可能存在多个纯化方法和多个来源文献。
1.3 数据规范化处理
原始数据经采集整理后,录入实验室化学品纯化方法加工数据表。然后,根据数据集的设计,对加工数据表中的数据项进行规范化处理:去除CASRN 号中的“-”字符,将其由字符串转换为整型数字,以便后续进行数据校验处理。最后,设计实验室化学品纯化方法数据表(数据表结构信息如表1 所示),将加工数据表中的合格数据项存入此数据表,并添加流水号作为主键。
表1 实验室化学品纯化方法数据表
序号 属性名称 数据类型 属性说明 8 MP 数值 熔点,单位:℃ 9 BP 数值 沸点,单位:℃ 10 DS 字符 相对密度,是20℃下目标物密度与4℃下水密度的比值。 11 IOR 字符 12 OPR 字符 折射率。以“^<”和“^>”括起来的部分是上标数据;以“^{”和“^}”括起来的部分是下标数据。缺省温度是20℃,缺省波长是钠D 线平均波长。 旋光度。以“^<”和“^>”括起来的部分是上标数据;以“^{”和“^}”括起来的部分是下标数据。缺省温度是20℃,缺省波长是钠D 线平均波长。 13 Other 字符 其他性质数据 14 CI 字符 比色指数 15 DC 字符 电离常数。以“^<”和“^>”括起来的部分是上标数据;以“^{”和“^}”括起来的部分是下标数据。缺省温度是室温(约15–25℃)。 16 Method 字符 纯化方法。其中,以字符“$$”标记新行行首。 17 SrcDoc 字符 来源文献。其中,多个来源文献数据以分号分隔。
2 数据样本描述
实验室化学品纯化方法数据集主要包括实验室化学品纯化方法数据表,此数据表中存储了实验室化学品的理化性质数据、纯化方法数据和来源文献信息。具体是实验室化学品的类别、名称、CASRN 号、分子式、分子量、凝固点、熔点、沸点、相对密度、折射率、旋光度、比色指数、电离常数、纯化方法和来源文献数据,其属性名称和数据如表2 所示。
表2 实验室化学品纯化方法数据示例
序号 属性名称 属性说明 范例 11 IOR 折射率 nD20 = 1.4575 12 OPR 旋光度 [α]546=-123°(c 10,H20,24h 后) 13 Other 其他性质 闪点:−41.8℃ 14 CI 比色指数 45160 15 DC 电离常数 pK25 11.29 16 Method 纯化方法 本品用水(活性炭脱色)结晶成黄色针状晶体。如果其中含有游离酸,那么用二氯甲烷溶解,再用饱和碳酸钠、盐水洗涤,之后用硫酸镁干燥,蒸发最后将残留物重结晶。游离酸的熔点是203–204℃(dec),其pK1<1,pK2=3.70。铵盐熔点232℃(dec)(用丙酮溶液重结晶),氨基化合物的熔点239.2℃(用水重结晶)。 17 SrcDoc 来源文献 Searles et al. J Am Chem Soc 78 4917 1956
3 数据质量控制和评估
为保证实验室化学品纯化方法数据集的数据质量,在原始数据采集录入过程中制定了数据采集规范。同时采用抽捡的方式,随机抽取数据记录进行人工校对,以控制数据录入质量。为了解决数据的可追溯性问题,在原始数据采集时同时录入了数据来源号,此来源号由条目所在页码组成。由于工具书籍的编排具有严格的顺序性,所以可针对数据项的连续性进行校验。另外,在后续的数据处理中,若发现有数据遗漏或者数据质量问题,可以根据数据来源号追溯到原始数据,以进行校对修正。
对于数据集中的关键数据项,通过软件程序进行了自动校验。根据美国化学文摘社发布的CASRN 号有效性验证规范[2],一个CASRN 最多有十位数字,由连字符“-”分为三部分,从左边起的第一部分数字为二到七位数,第二部分数字为两位数,最后一部分为一个数字。最后一部分是整个CASRN 号有效性的校验码,根据CASRN 号的校验规则,数据集自主开发了程序软件,自动验证了录入CASRN 号的正确性。
对于实验室化学品纯化方法数据集中同时有分子式和分子量的条目,设计了通过化学品分子式计算分子量的算法程序,此算法考虑了晶体、有机盐和聚合物分子式的特殊性,对这类分子式进行了特殊处理。最终通过分子式计算得到化学品的计算分子量,并与录入的分子量进行比对,以验证录入的分子式和分子量的正确性。
考虑到手册结尾有化学品名称索引和CAS 索引部分,还安排专人将化学品名称、CASRN 号与页码信息与加工数据表中的相关信息进行校对,以筛选出人工录入时的错误,进一步提高了实验室化学品纯化方法数据集的数据质量。
4 数据使用方法和建议
实验室化学品纯化方法数据集采用MDB 格式存储,使用者可以通过Microsoft Office Access®软件打开数据集,然后通过浏览或检索窗体对数据集进行查看、检索和筛选等操作,如图2–4 所示。数据集共有17 个数据项,分别是化学品的ID 号、类别、名称、CASRN 号、分子式、分子量、凝固点、熔点、沸点、相对密度、折射率、旋光度、比色指数、电离常数、纯化方法、来源文献和其他性质数据,均支持检索和筛选操作。当鼠标悬停于相对密度、折射率、旋光度或电离常数项时,会有此项的说明信息显示,如图2 所示。
化学专业数据库网站上也提供了实验室化学品纯化方法数据集服务[3],网站检索页面如图5 所示。网站主要提供了三种Web 检索方式:按化合物名称检索、按CASRN 号检索和按分子式检索。另外,网站将本数据集与其他数据集进行了有机整合,通过网站检索可以获得目标化学品更多的性质数据。
图2 实验室化学品纯化方法数据集浏览窗口示例
图3 实验室化学品纯化方法数据集名称检索示例
图4 实验室化学品纯化方法数据集CASRN 检索示例
图5 实验室化学品纯化方法数据集Web 检索示例
实验室化学品纯化方法数据集中的数据描述具有一定的专业性,为了保证数据格式的统一,数据集中采用某些符号和缩写来代替相应的专业名词;为了满足在数据集中存储及检索的需要,特制定了缩写符号的数据集存储格式。详细说明如表3 所示。
表3 实验室化学品纯化方法数据集符号和缩写说明表
序号 缩写符号 数据集存储格式 说 明 6 Me Me 甲基 7 ε ε 分子消光系数 8 IR IR 红外光谱 9 UV UV 紫外光谱 10 NMR NMR 核磁共振 11 λmax λ^{max^} (光谱的)最大吸收波长
相对于工具书籍只能根据目录和索引来浏览和检索,实验室化学品纯化方法数据集的使用方法更为便捷和灵活。不仅可以根据化学品的理化性质数据进行检索和筛选,而且可以根据用户感兴趣的纯化方法关键词进行筛选和聚类分析。本数据集的信息描述言简意赅,收集整理的大都是实验室常用的化学品信息,可以作为化学和生物化学科研人员进行实验研究时的参考数据集。
数据作者分工职责
李英勇(1978—),男,河南南阳人,硕士,高级工程师,研究方向为化学信息学。主要承担数据库设计和数据库建库工作。
赵英莉(1970—),女,辽宁沈阳人,硕士,副研究馆员,研究方向为化学信息学。主要承担数据采集、基础数据加工和数据管理工作。