基于自然语言处理的蛋白质小分子亲和力值预测

2019-06-22欧阳志友王愉茜陈金刚周青松

应用科学学报 2019年3期

关键词：亲和力决策树蛋白质

欧阳志友，陈晨，王愉茜，陈金刚，殷昭，周青松

1.南京邮电大学先进技术研究院,南京210023

2.南京邮电大学计算机学院，南京210023

3.南京邮电大学经济学院,南京210023

4.中国石油大学（华东）石油工程学院,山东青岛266580

5.重庆邮电大学通信与信息工程学院，重庆400065

蛋白质与小分子化合物之间的相互作用是进行药物设计与研发的基础.在分子水平上深入研究蛋白质与药物分子的结合机理，有助于快速筛选出有效的药物候选分子，大大缩短新药开发流程，降低新药失败风险.因此，研究利用机器学习技术对蛋白质分子结构的分析非常必要.通过挖掘蛋白质分子结构与小分子亲和力之间的关系，对蛋白质与小分子的亲和力值进行预测，可以实现快速批量筛选有效的药物候选分子，从而加快药物研发的进程，降低药物研发的成本.蛋白质与小分子的相互作用如图1所示.

图1 蛋白质与小分子相互作用Figure1 Protein interactions with small molecules

1 相关研究工作

1.1 传统预测方法

测定蛋白质小分子亲和力值的方法有实验室测定法[1]和回归预测方法两大类.文献[2]利用实验室测定法测定出了炭疽芽孢DNA 适配子结构与长度对亲和力的影响，该方法实验成本高昂、难以大面积推广，不利于快速测定出蛋白质亲和力值.回归预测方法则是在已知蛋白质亲和力值信息的基础上，利用统计方法对未知蛋白质亲和力值进行预测，文献[3]利用回归预测方法对芳基碳氢化合物亲和力受体和甲状腺转运蛋白的毒性亲和力进行了预测，文献[4]利用分子描述符采用支持向量机（support vector machine,SVM）等方法进行了亲和力预测.该类方法虽然快捷方便、成本低廉，但存在着预测精度低的问题.

蛋白质小分子亲和力值的预测是一个典型的预测类问题，目前主流的方法有岭回归法、Logistic 回归法、决策树方法[5]、随机森林法[6]、朴素贝叶斯方法[7]、提升法[8]等.其中，岭回归方法能够克服数据共线性问题，而决策树方法适用于数据量较少的情况且结果具有较强的可解释性，但是决策树方法的鲁棒性较差，数据的微小扰动会导致预测结果变化较大[9].随机森林法与提升法均属于集成算法，泛化能力与鲁棒性都较强，对噪声数据不敏感，但是难以避免过拟合的问题.Logistic 回归法可解释性强，但是对数据规模与模型训练时间要求较高.朴素贝叶斯方法是一种基于概率的分类方法，该方法基于条件独立性假设，但是在实际情况中这一假设往往难以成立.

值得注意的是，与传统的预测类问题不相同，蛋白质小分子亲和力值预测过程中会涉及到非数值型数据的处理，即无论是蛋白质一级结构序列的矢量化数据还是蛋白质小分子的指纹数据，都是非结构化的字符串类型数据.在传统的蛋白质小分子预测方法中，对这类数据有的不进行处理，有的仅统计数据的长度特征或者频率特征，而对数据内部的关联关系与相关关系未进行挖掘，从而造成信息浪费，同时也降低了预测精度.自然语言处理技术的发展给这类问题的解决提供了启示，蛋白质结构序列数据与分子指纹数据等非结构化的字符串类型数据可以作为类文本数据，借助自然语言处理技术进行处理，从而挖掘出相关信息以提高模型预测精度.

1.2 词向量模型

词向量模型[10-11]作为一种常用的自然语言处理方法，能够充分挖掘出类文本数据内部的关联关系和相关关系，实现对信息的有效利用.蛋白质结构序列矢量化结果作为一种类文本数据，可以采用词向量方法对其进行处理.词向量模型有两种常用的算法：Skip-Gram 算法和CBOW 算法.Skip-Gram 算法本质上是只含有一层输入层与一层隐含层的神经网络模型，其模型结构如图2所示，当输入的单词是“VDS”时，输出的单词是“MDN”、“NLP”、“DLS”、“PNI”.值得注意的是，词向量模型更加关心模型训练之后输入层到隐藏层的权重，因为它反映了词与词之间的关联性.

图2 Skip-Gram 模型结构示意图Figure2 Skip-Gram model structure diagram

1.3 TF-IDF 模型

词频-逆文本频率（term frequency-inverse document frequency,TF-IDF）[12]是一种反映不同字词在语料库的重要程度的算法.字词的重要性与其出现次数成正比，与其在语料库中出现的频率成反比.TF-IDF 的计算公式为

式中，tf(x)为词语x在文本中出现的频率，N为文本集合中所有文本的总数，N(x)表示文本集合中有多少篇文本出现了词语x.

1.4 梯度提升决策树

梯度提升决策树是一种由多棵决策树构成的基于迭代的机器学习算法，其输出结果是所有树结果的累加值，具有很强的拟合能力和泛化能力，可广泛用于分类和回归问题，是目前应用最为广泛的机器学习模型之一.常用的梯度提升决策树模型包括scikit-learn 中的GBDT、微软开发的LightGBM[13]、陈天奇等人开发的XGBOOST[14]等，其中由微软研发和开源的LightGBM 具有更高的执行效率与更快的运行速度，使用更广泛.

2 数据描述

2.1 蛋白质一级结构数据

蛋白质一级结构（protein primary structure）是指肽或蛋白质中氨基酸的线性序列，是由一串氨基酸组成的，可以由蛋白质序列测序直接获得或者从DNA 序列中推断得到.对蛋白质一级结构数据进行矢量化处理之后得到的矢量化处理结果的数据格式如表1所示.

表1 蛋白质一级结构数据表Table1 Protein primary structure data sheet

蛋白质结构序列的矢量化结果以字母串的形式表达出了从氨基末端到羧基末端的氨基酸序列，单个字母代码代表24种氨基酸中的一种.

2.2 蛋白质小分子亲和力值数据

蛋白质小分子亲和力值数据包括3 列数据，分别是蛋白质id（Protein_ID）、小分子id（Molecule_ID）与蛋白质小分子亲和力值（Ki），其中蛋白质小分子亲和力值就是需要预测的数据，其格式如表2所示.

表2 蛋白小分子亲和力值数据表Table2 Protein small molecule affinity value data sheet

2.3 小分子信息

小分子信息数据主要由小分子指纹信息数据与小分子理化试验数据组成，其中分子指纹数据为字符串类型数据，小分子理化试验数据为数值型数据，其格式如表3所示.

3 基于NLP 的蛋白质亲和力值预测

3.1 整体框架

本文提出的基于NLP 的蛋白质亲和力值的预测框架如图3所示.首先，基于自然语言处理技术对蛋白质结构数据与小分子指纹数据进行处理，构造出词向量特征与TF-IDF 特征，并对其余理化指标数据进行处理，构造相应的统计特征.其次，将构建好的特征数据输入到梯度提升决策树算法中进行模型训练.最后，利用训练好的模型对蛋白质小分子亲和力值数据进行预测.

表3 小分子信息数据表Table3 Small molecule information data sheet

图3 蛋白质亲和力值预测流程Figure3 Prediction process of protein affinity value

3.2 词向量特征构造

词向量特征构造是处理文本数据的基础，为后续的文本特征提取提供支撑.以蛋白质小分子数据为例，选取一个蛋白质的部分片段“MDNNLPVDSDLSPNI”，其中每一个字母代表一个氨基酸，常见的氨基酸种类有24 种，如果将3 个连续的氨基酸视为1 个词组，则总语料库中共包含有13 000 多个词组.这里设置滑动窗口为2，即选取输入词前后各2 个单词与输入词进行组合，具体处理过程如图4所示，其中蓝色方框表示输入词，绿色方框表示组合词.

图4 蛋白质结构处理示意图Figure4 Protein structure processing diagram

3.3 TF-IDF 模型特征构造

由TF-IDF 思想可知，一种氨基酸组合在特定的蛋白质中出现的频率越高，说明它在区分该蛋白质信息属性方面的能力越强（TF）；一个种氨基酸组合在所有蛋白质中出现的范围越广，说明它区分蛋白质信息的属性越低（IDF）.因此，提取蛋白质的TF-IDF 特征公式为

式中，tf(ωi)为词语ωi在集合中出现的频率，N为蛋白质集合中所有蛋白质的总数，N(ωi)表示蛋白质集合中有多少个蛋白质出现了词语ωi.

由n 元模型（n-gram）可知，假设一个蛋白质由L个氨基酸组成，那么这个蛋白质包含的n-gram 信息共有L(L+1)/2 个.为了充分挖掘蛋白质信息，可利用n 元组模型提取蛋白质的n 元组信息.以蛋白质“MDNNLP”为例，每个字母代表的氨基酸分别为

由此可将切分好的蛋白质信息通过TF-IDF 算法转换为特征.实验分析结果表明，综合取1～4 的所有元组组合构造的特征，其效果要高于单独取元组1 的特征、元组1～2 的组合特征以及元组1～3 的组合特征.

3.4 统计特征构造

结构化的数值型数据包括处理后的蛋白质结构数据、小分子指纹数据、小分子理化指标数据等，为了更好地挖掘相关信息，可提取出有效的统计特征作为机器学习模型的输入数据.这里提取的统计特征如表4所示.

3.5 梯度提升决策树模型

通过上述步骤提取了蛋白质小分子的统计特征和结构特性特征，可以将非结构化数据转化为数值化的特征信息，从而只需借助梯队提升决策树等回归算法，利用标注好的数据进行训练，即可对待标注的数据进行预测.鉴于LightGBM 的性能优势，构建完特征工程之后，即可采用LightGBM 算法对蛋白质小分子的亲和力值进行预测.通过对标注好的蛋白子小分子的亲和力进行训练，可以获得上述步骤中提取的特征对预测亲和力值的重要度，即特征的重要度.其中排名前10 的特征如图5所示.

表4 统计特征表Table4 Statistical feature table

图5 特征重要度排序图Figure5 Feature importance ranking chart

从图5可以看出，在最重要的10 个特征中，从蛋白质一级结构数据中提取的特征有2 个，从小分子指纹信息中提取的特征有2 个，从统计特征中提取的特征有6 个.也就是说，新方案对蛋白质一级结构数据与小分子指纹数据进行处理，引入的新信息为模型提供了4 个新的重要特征，从而提升了模型的预测精度.

4 实验评估

4.1 评测方案

为验证基于自然语言处理的蛋白质小分子亲和力值的预测算法的性能，本文从BindingDB 数据库与晶泰科技公司在DC 大数据竞赛平台上公布的蛋白质小分子数据集中收集了2 万组蛋白质与小分子的数据，并借助DC 大数据竞赛平台提供的线上评测机制对算法预测结果进行了评测.结果表明，相比于传统方法，本文提出的基于自然语言处理的方法在预测精度上有了较大的提升.

4.2 评测标准

本文的评测标准采用均方根误差函数，它是真实值与预测值偏差的平方和与观测次数n比值的平方根，如式(3)所示：

式中，Xobs为真实值，Xpred为预测值.均方根误差得分越小，表明模型预测精度越高.

4.3 评测结果及分析

为测试本文所提方法的有效性和性能，使用Python 语言对蛋白质小分子的数据进行了处理，提取了相应的TF-IDF 和统计特征之后，分别使用了岭回归模型、LightGBM 模型等对处理后的特征数据进行了对比训练和预测，并提交到DC 大数据竞赛平台提供的线上评测平台，得到评测结果如表5所示：

表5 评测结果表Table5 Evaluation result table

从表5可以发现，本文提出的利用自然语言处理技术和LightGBM模型的方法获得的预测效果最好，均方根误差只有1.348.使用自然语言处理技术处理后的特征，即便使用岭回归方法，其误差也可以达到1.415.相比而言，不对蛋白质结构数据进行处理的传统方法，使用LightGBM 与岭回归方法时误差分别达到了1.446 与1.495.对特征数据的分析可以发现，由于对蛋白质一级结构序列数据与小分子指纹信息进行了处理引入了新信息，因此无论使用LightGBM 还是岭回归算法，效果都有明显提升.其中，使用LightGBM 算法时，本文所提出的方法较原有方法在预测准确率方面提升了7.249%；使用岭回归方法时，本文提出的方法较原有方法在预测准确率方面提升了5.649%；而且本文所提出的利用自然语言处理技术与LightGBM 相结合的方法，获得了比常用的岭回归方法更高的预测精度.由此可见，本文提出的基于自然语言处理与梯度提升算法的蛋白质小分子亲和力值的预测方法，较原有的传统预测方法有显著的预测精度提升，具有实际的应用价值.

5 结语

蛋白质与小分子的相互作用研究是进行药物研发与药物设计的基础，传统的蛋白质亲和力值测定方法在预测准确率和成本方面存在一定的局限性，不利于推广应用，于是本文提出了基于自然语言处理技术和梯度提升决策树的蛋白质小分子亲和力值的预测方法，利用自然语言处理技术对蛋白质一级结构的序列数据与小分子指纹信息进行处理，提取了蛋白子和小分子的非结构化数据中隐含的信息，并利用梯度提升决策树模型进行了预测，实验表明本文提出的方法较现有的传统预测方法在精度方面得到了较大提升.