婴幼儿配方乳粉危害物分子预测及营养组分数据库的组建
2021-04-22杨慧慧修红霞任海斌冯宝龙温春辉张厚森王洪跃侯俊财王玉堂
杨慧慧,修红霞,任海斌,冯宝龙,温春辉,张厚森,王洪跃,侯俊财,3,王玉堂,3
(1.东北农业大学食品学院,哈尔滨150030;2.东北农业大学 现代教育技术中心,哈尔滨150030;3.东北农业大学乳品科学教育部重点实验室,哈尔滨150030)
0 引 言
婴幼儿配方乳粉是一种备受关注的特殊食品,近年来,有关婴幼儿营养及安全的研究十分丰富,积累了大量的数据。但这些数据散落各处,一直没有被系统的组织起来建立数据库。仍然不能回答,“符合国家标准GB10767和GB10765的婴幼儿配方乳粉中一共有多少种营养组分分子,以及多少种内源和外源危害物可能影响婴幼儿配方乳粉的质量和安全?”这样的问题。
解决上述问题对全面了解婴幼儿配方乳粉的营养组成分布,营养组分的存在状态及婴幼儿配方乳粉中可能的安全风险至关重要。随着大数据技术的成熟,越来越多的研究利用大数据技术解决食品中的一些问题。杨辉等[1]利用K-均值(k-means)聚类分析我国31省份的乳制品消费数据,从政策层面提出增强国内乳企品牌核心竞争力的建议;邵航等[2]利用数据科学技术,交叉研究文献宏分析数据,梳理了食品安全领域的技术发展和趋势;Zhang Dachun等[3]利用相似性算法和分子指纹技术,建立了分子水平的食品掺假数据库和食品风险成分数据库,提出了利用大数据技术研究食品安全问题的思路和方法。本研究则基于大数据思路和方法,将自然语言处理技术和人工查阅相结合,系统整理历年来文献中的数据,缺失的数据参考GB10767和GB10765所述的检测方法测定市场上所有的婴幼儿配方乳粉营养组分的分子数据;综合整理1998年至2019年所有婴幼儿配方乳粉产品及原料的食品安全事件相关文献中涉及的内源及外源危害物,将这些信息整理进入数据库,为婴幼儿配方乳粉营养及安全研究,基于分子相似性预测婴幼儿配方乳粉中的内源或外源潜在危害物,提供基础数据和新的视角。
1 实 验
1.1 仪器与试剂
配有柱加热器的Waters Alliance 2695高效液相色谱系统;Waters Micromass Quattro LC质谱仪,美国Waters公司;10 ku大分子量截止过滤器,德国达姆施塔特Merck公司。
硼氢化钠、甲酸,美国Sigma-Aldrich公司;乙酸、乙腈,北京百灵威科技有限公司;超纯水。
标准品:2-岩藻糖乳糖、3-岩藻糖乳糖、乳酰-N-四糖、乳酰-N-己糖、乳酰-N-岩藻五糖I、乳酰-N-二岩藻六糖I、乳酰-N-二岩藻六糖II、3-唾液酸乳糖、6-唾液酸乳糖、乳糖基四糖a、乳糖基四糖b、乳糖基四糖均购于上海麦克林生化科技有限公司。
1.2 低聚糖的测定
网络采集的有关婴幼儿配方乳粉的数据缺少低聚糖项目,因此,从市场上采购婴幼儿配方乳粉,并检测其低聚糖含量。检测方法根据Tonon等[4]所述方法进行了一些更改。将婴幼儿配方乳粉溶解到10 mL试管中,然后分取3份,每份1 mL,在5 000 g,低温条件下,离心15 min进行脱脂,然后将500μL样液转移到10 ku分子量截止过滤器中,在低温12 000 g下离心30 min,去除蛋白质。最后将样品稀释60~120倍。将稀释后的100μL的滤液与100μL新鲜制备的0.25 mol/L硼氢化钠进行还原反应,反应30 min后终止,然后加入100μL 0.25 mol/L的乙酸。将还原后的提取物注入液相色谱-电喷雾电离质谱(LC-ESI-MS)系统中,对16种低聚糖进行定量。
色谱条件:柱加热器温度设置为30℃,流动相由超纯水(A)和乙腈(B)组成,两者均含有0.1%的甲酸,并以200μL/min的流速输送。梯度条件包括最初流动相B在21 min内从0%增加到12%(中性低聚糖的洗脱),接着在11 min内将流动相B从12%增加到40%(酸性低聚糖的洗脱),第三次是在5 min内将流动相B从40%增加到100%,并保持该梯度5 min。最后在1 min内将B相梯度降低到0%,并在0%下保持12 min的柱平衡。总色谱时间为55 min。
质谱条件:质谱采用负离子监测模式(SIM)进行操作。毛细管电压为3.0 k V,锥电压为30 V,锥气流量为86 L/h,脱溶温度分别为150℃和250℃,停留时间为0.055 min。
1.3 数据库建立
数据库的数据来源为相关书籍、相关文献、产品标签、国家标准以及政府发布的公告文件。采用人工和自然语言提取的方式,系统整理婴幼儿配方乳粉组分和危害物的相关文章。从上述整理的内容中手动提取婴幼儿配方乳粉的组分和危害物数据,通过Pub-Chem[5]对数据进行详细注释,包括化学名称、简化线性分子输入规范(Simplified molecular input line entry specification,SMILES)、化合物登录标识符(Identifier from Database of Chemical,CID)、化学品摘要服务编号(CASRegistry Number,CAS)、国际化学标识符(International Chemical Identifier,InChI)、蛋白质序列等信息。为了保证数据的准确性,由本研究组成员反复交叉校对。图1为婴幼儿配方乳粉营养组分及危害物分子数据库的建立流程图。
数据库基于MySQL建立。通过python程序,将整理收集的婴幼儿配方乳粉营养组分及危害物分子数据进行统一格式处理,自动生成数据表及数据添加的SQL语句后连接MySql数据库创建。
图1 婴幼儿配方乳粉营养组分及危害物分子数据库的建立流程图
1.4 分子相似性算法
量化两个分子的相似性是化学信息学中的一个重要概念和常规任务[6]。它广泛用于虚拟筛选、靶点预测和代谢物注释[7-9]。在本研究中,我们采用拓展连接性指纹[10](extended-connectivity fingerprints,ECFP)表示分子,由开源化学信息学工具RDkit生成[11]。采用Tanimoto系数衡量分子相似度[12]。同时结合最大共同子结构(maximum common substructure,MCS)算法[13]预测出潜在危害物。最大公共子结构的具体算法如下:
公式中,|A|i和|B|i分别表示输入分子和数据库中某一分子的原子数;|MCS(A,B)|i表示两个分子的公共子结构的原子数。筛选的阈值设置为0.9,超过阈值则认为两分子具有很强的相似性。
1.5 潜在危害物预测
基于现有搜集到的危害物构建危害物化学空间。利用相似性算法从Tox21[14]、USPTO[15]数据库中找到与现有危害物相似性大于0.9的物质,即为潜在危害物。预测完成后,再利用PubChem详细调查潜在危害物是否有潜在的毒性。
2 结果与讨论
2.1 婴幼儿配方乳粉营养组分及危害物分子数据库
在全球范围内,婴幼儿配方乳粉在食品质量和安全方面被公认为一种非常重要的商品[16]。婴幼儿配方乳粉营养成分繁多,体系复杂。为满足婴幼儿的营养需求,婴幼儿配方乳粉的营养成分必须精心配制,不仅包括主要营养素(蛋白质、脂类和碳水化合物),还包括微量元素(矿物质、维生素等)和添加剂等[17]。尽管我们已经尽最大努力去搜集有关婴幼儿配方乳粉营养组分及危害物分子数据,但受到文献调查中有关它们的信息可用性的限制,我们所建立的囊括营养组分与危害物分子的婴幼儿配方乳粉数据库并不是十分完美详尽的数据库。不过,我们的数据库是迄今为止的第一个婴幼儿配方乳粉营养组分及危害物分子数据库。未来,我们会不断提高该数据库的覆盖面,为探索开发出更有利于婴儿成长、更高质量的婴儿乳粉奠定坚实基础。
我们在600多份相关资料中筛选了468个婴幼儿配方乳粉组分及危害物数据,经过横向比对,具有SMILES格式,可用于后续分析的数据有357个。根据中国食物营养成分表,将收集到的数据信息归纳分9类,其中碳水化合物类物质65个,蛋白质类67个,氨基酸类20个,肽类13个,脂肪类64个,维生素类41个,矿物质类18个,营养强化剂类41个,可能危害物类139个。利用468个数据,我们构建了婴幼儿配方乳粉营养组分及危害物分子数据库。为了后期在不同类成分扩展更多的属性数据,每一类数据单独建表存储。数据库包含9个数据表,每一类物质为一个数据表,分别是碳水化合物表(t_carbohydrate)、蛋白质表(t_protein)、氨基酸表(t_amino_acid)、肽表(t_peptide)、脂肪表(t_fat)、维生素表(t_vitamin)、矿物质表(t_mineral)、营养强化剂表(t_nutrient_supplement)、危害物表(t_hazard),括弧中是表的名称。数据库提供了多种检索方法,可输入化学名称、SMILES、CAS等,检索结果包括化学名称、CID、CAS等,从而提供一种快速访问的方法,满足食品研究人员对营养组分或危害物进行精确搜索的需求。此外,该数据库对世界各地的科学家均可共享。
图2展示了婴幼儿配方乳粉营养组分及危害物分子数据库的化学空间分布。其中,图中绿色点表示危害物类物质,蓝色点代表维生素类物质,深红色点表示碳水化合物类物质,黄色点代表脂肪类物质,白色点代表肽类物质,紫色点代表营养强化剂类物质,粉色点表示氨基酸类物质,棕色点表示矿物质类物质,灰色点表示蛋白质类物质。其中,某类物质中可能含有离群点,即,显著不同于该样本空间下的其他样本点。危害物类离群点是螺旋霉素,维生素类离群点是维生素B12,碳水化合物类的离群点是菊粉,脂肪类离群点是胆碱和磷脂酰乙醇胺,营养强化剂类离群点是1,3-二油酸-2-棕榈酸甘油三酯;矿物质类离群点是乙二胺四乙酸铁钠。离群点不代表数据错误,而可能是因为相比于样本空间的其他数据,离群点含有过多其他信息,或者离群点所属空间太大,因此,可能需要进一步对婴幼儿配方乳粉的营养组分进行更细致的分析和分类。此外,通过图中各个点的分布可以看出,婴幼儿配方乳粉的营养组分以及内外源危害物的化学空间分布比较广泛。而且危害物相对于其他营养成分的化学空间分布更广泛,说明危害物的种类繁多,来源广泛,因此,婴幼儿配方乳粉中实际包含多少种影响乳粉质量安全的危害物成为急需解决的问题。结构越相似的化合物,空间分布越紧密。通过危害物与其他类物质的化学空间距离可大致推出婴幼儿配方乳粉中更容易添加哪些物质或更容易对哪类物质进行掺假。
图2 婴幼儿配方乳粉营养组分及危害物分子数据库的化学空间分布
2016年三元已发布母乳数据库,Zhen-yu Yang等[18]在2016年建立了包含6431个母乳样本数据的母乳分子在线数据库。2020年周锦等[19]建立了母乳脂肪酸数据库,并探讨膳食摄入与母乳脂肪酸及磷脂构成的关系。但是,目前为止,我国还没有建立一个关于婴幼儿配方乳粉营养及危害物分子的数据库。此外,通过我们所建立的婴幼儿配方乳粉营养组分及危害物分子数据库可以与母乳数据库进行对比,从而研发出更安全、更适合婴幼儿健康成长的乳粉。
2.2 潜在危害物预测
危害物种类各种各样,我们需要对潜在危害物与婴幼儿配方乳粉中现有危害物的个体分子相似性进行评价。衡量个体间差异方法主要分为距离度量和相似度度量。其中,相似度度量是计算个体间的相似程度,主要包括向量空间余弦相似度、皮尔逊相关系数、Jaccard相似系数、KL散度、Tanimoto系数等。Pereira等[20]结合欧氏距离、分层聚类分析和主成分分析的算法应用,证明了时间分辨和固定荧光光谱在检测乳清蛋白浓缩粉(Whey protein concentrate powder,WPC)中掺假的有效性;Garcia-Hernandez等[8]使用扩展的简化图和图形编辑距离方法,将分子相似性计算作为基于配体虚拟筛选应用的工具;Chushak等[7]利用分子相似性搜索、分子对接和体外验证来识别潜在的甲苯蛋白靶点。在本研究中,我们选择集计算快、易于实现于一体的Tanimoto系数来计算分子相似性,它在化学信息学和药物发现中均已广泛应用[21]。
我们从Tox21、USPTO数据库中搜索并列举了1000种可能影响婴幼儿配方乳粉质量和安全的潜在危害物清单。根据数据库中已经纳入的139个危害物分子,结合分子指纹以及Tanimoto系数从清单中筛选了350种潜在的婴儿配方乳粉危害物,接着使用MCS算法筛选出220种危害物分子。通过对数据进行最终筛选,我们共预测了89种具有类似功能和活性的潜在危害物。表1为预测出来的部分可能影响婴幼儿配方乳粉安全的危害物。1和5号化合物是基于双氯西林,2号化合物基于羧甲基赖氨酸,3号和4号化合物的结构相似物是吡咯素。其中,双氯西林属于外源污染物,羧甲基赖氨酸和吡咯素是内源危害物,预测的潜在危害物的毒性需要进一步研究。
表1 可能影响婴幼儿乳粉的部分危害物表
3 结 论
充分保障婴幼儿配方乳粉的营养和安全是所有国家的共识。通过建立婴幼儿配方乳粉营养组分及危害物分子数据库,能够从分子水平上更好的认识婴幼儿配方乳粉的组成,同时利用分子指纹和相似性算法,基于已有的危害物发现新的可能对婴幼儿配方乳粉品质和安全造成影响的潜在危害物。
本研究基于文献和自测的数据建立了第一个婴幼儿配方乳粉营养组分及危害物分子数据库。通过本研究可知,婴幼儿配方乳粉中有329个营养组分分子,有139个危害物可能影响婴幼儿配方乳粉的质量和安全。不同厂家的婴幼儿配方乳粉中营养组分的组成种类和含量有较大区别。通过分子指纹和相似性算法,我们共计发现89个可能影响婴幼儿配方乳粉营养及安全的危害物,将在下一步研究中验证这些潜在危害物。
本研究建立的婴幼儿配方乳粉营养组分及危害物分子数据库为从分子水平上认识婴幼儿配方乳粉,为从分子水平上解决婴幼儿配方乳粉的营养、质量及安全问题,为国家制定相应的政策,提供了数据基础。