APP下载

基于机器学习的针灸相关疾病、基因、药物新关联挖掘

2019-12-04

中华医学图书情报杂志 2019年8期
关键词:关联实体针灸

科学文献是生物数据最可靠的来源之一[1]。利用机器学习的方法能在海量资料中挖掘出有效知识,并实时整合以往的经验教训[2]。目前,绝大部分生物医学实体(如疾病、基因、药物)的关联存储在各种生物信息学和临床数据库中,并以文本形式记录在数据库中,研究者需要用关联挖掘工具识别文本中的实体及其之间的语义关联,构建关联网络以描述实体之间的相互作用。近年来,国内外对生物实体间关联进行了较多的研究,如蛋白质与蛋白质的关联[3]、蛋白质与基因的关联[4]、药物与药物的关联[5]、药物与疾病的关联[6]等。

针灸是在中医学中采用针刺或火灸人体穴位治疗疾病的方法[7],是联合国教科文组织认定的人类非物质文化遗产代表作之一,在中国已有几千年历史。针灸用于缓解人体各种疼痛已得到越来越多专家的认可,但其治疗机制尚不明确[8],与基因和药物之间的关联也不明确,需要深入挖掘探讨。

本文基于机器学习中的支持向量机(Support Vector Machine,SVM)方法,以针灸为例,识别疾病、基因和药物实体,挖掘三者之间的关联,构建出3个关联网络,预测实体间新关联,提出实验性研究假设,为研究人员今后进行有关针灸治疗、疾病候选、基因筛选、靶向药物和个性化医疗等研究提供数据支持和新的研究思路。

1 数据与方法

为顺利完成本次研究,制定了如下研究步骤:构建词典并获取针灸相关英文文献,基于词典和SVM方法对文献摘要进行实体识别,基于SVM方法挖掘针灸相关疾病、基因和药物的关联,设定最小Lift阈值并依据关联规则计算并排序疾病-基因-药物之间的关联,利用R语言实现关联网络的可视化和分析新关联,使用ROC曲线验证本文算法的准确性。

1.1 构建词典

首先从国际疾病分类-10(International Statistical Classification of Diseases and Related Health Problems 10th Revision,ICD-10)[9]、Entrez GENE[10-11]、Gene Ontology[12]、OMIM[13]、DrugBank[14]等数据库中获取并建立疾病、基因和药物词典,命名为“Disease_Dictionary”(共计2 036个类目)、“Gene_Dictionary”(共计4 0172个人类基因词条)和“Drug_Dictionary”(共计1 763种药物词条)。

词典包括每个基因(药物)的标准名称、别名、同义词、标准编号等属性。以这3个词典为标准进行命名实体识别。

1.2 获取数据

在PubMed数据库中以“"acupuncture"[MeSH Terms] OR "acupuncture"[All Fields] OR "acupuncture therapy"[MeSH Terms] OR ("acupuncture"[All Fields] AND "therapy"[All Fields]) OR "acupuncture therapy"[All Fields]”为关键词进行检索,截止日期为2017年2月13日,得到25 777篇相关文献,其中18 333篇含有摘要。本文以这18 333篇文献摘要为主要对象进行文本关联挖掘研究。

考虑到医学文献专业性较高及后期数据处理的实际需求,采用以下方法对文献摘要进行预处理:去除所有与本文无关的信息,如作者信息、发表日期等;由于摘要中出现的“BACKGROUND:”“METHODS:”“RESULTS:”“CONCLUSION:”等部分期刊的标准格式,不影响最终处理结果,所以本文将这些单词全部移除;保留文献摘要部分,合计18 333篇;通过断句法把这些摘要转化为单独语句,得到有764 308条语句的语料库;将希腊字母变为英文音译,如“α→Alpha”等;采用BIO方法对每个单词进行标注,使之变成规范文本语料库,以便进行实体识别和关联提取;基于词典在语料库中识别3种不同实体,提取并标注,同一句中出现不同的实体则假定该实体对具有关联。

需要说明的是,由于文献量较大,很难准确且完全将文中的疾病是由药物副作用引起的还是其他原因引起的区分开;本文是以“针灸”这个治疗方法为关键字进行检索的,得到的资料大多是治疗效果的展示。所以,本文设定为识别出的药物用于治疗疾病,而不是导致疾病的原因。

1.3 支持向量机

本文使用机器学习算法中的SVM方法是一种二元分类器,属于有监督机器学习方法。对于二值问题,SVM通过一条清晰的间距区分不同类别中的数据点,其中“间距”通过优化使分割的距离最大,间距边界上的样本一般称为“支持向量”;处理非线性的数据时,SVM挑选出一个内核函数(Kernel Function)将低维数据映射到高维空间解决该问题,相当于直接在特征空间内直接计算内积。

本文采用的内核函数是Huber损失函数[15],它是支持SVM分类器中的一种变体函数。Smith[16]对比多种生物实体关联提取算法时,发现Huber损失函数效率最高。该函数公式中的T表示整个训练集大小,训练集中第i对二进制特征向量定义为Xi,若关联对被标记为正数,则yi=1,否则yi=-1。令ω为特征向量权重,距离相同的为Xi;令θ为阈值参数;令λ为正则化参数。由此,本文使用的损失函数定义如下:

在R语言中,可以在svmMLiA.py文件中添加函数kernelTrans(),然后对optStruct类进行修改,即可实现Huber损失核函数。部分关键代码如图1所示。

图1 部分关键代码

1.4 关联规则

对生物医学实体间的关联进行度量时,需要用以下度量指标。

支持度support用于衡量集合内各项出现的频次阈值。

support(A)=P(A)=a/N

置信度confidence可以度量关联规则的属性。

提升指数lift能够评估一个预测模型是否有效,体现集合{A}对{B}的重要性。

若值为1,则A与B无关联;若值小于1,则A与B相斥;若值大于1,则值越高,A与B之间的关联规则越有价值[17]。由于life阈值为3时,相当于99.8%百分位临界值或连续标准正态分布的标准差,因此lift大于3的关联对具有更强关联性。

1.5 R语言实现和ROC曲线验证

R语言是一种进行统计计算和绘图的语言和环境,能够实现网络模型的构建和分析算法[18]。ROC曲线检测算法的准确性适用于二分类情况,现广泛应用于医学诊断实验性能的评价[19],同样也适用于本文算法性能的评价。因此,本文采用R语言实现关联网络模型构建,并用ROC曲线判别算法性能。

2 结果与讨论

2.1 疾病、基因和药物识别

本文以针灸相关文献摘要为研究的数据基础,以“Disease_Dictionary”、“Gene_Dictionary”和“Drug_Dictionary”为标准,基于SVM方法对针灸相关文献摘要进行识别,去重后得到与针灸相关的包括抑郁症等在内的296种疾病、神经生长因子(Nerve Growth Factor,NGF)等在内的51种基因和纳洛酮等在内的278种药物。

在识别疾病实体时,由于ICD-10内所有疾病名称都有明确分类,疾病名称含有具体部位(或原因),如查询“疼痛(Pain)”时,得到“眼疼(H57.1-Ocular Pain)、关节痛(M25.5-Pain in joint)、腰背疼痛(M54.5-LowBackPain)等”。但在实际文本挖掘过程中,由于很多文献摘要中的医学词汇没有严格按照标准进行撰写,因此本文在挖掘过程中直接引用此类没有严格限定的疾病实体,并标注上“不明原因(not otherwise specified,NOS)”,如“PainNOS”等,以示区别。可以发现,针灸主要用于治疗疼痛、疱疹样皮炎、紧张、焦虑等病征,其中疼痛包括头痛、腰背疼痛、偏头痛、不明原因疼痛等。

针灸与基因的关联研究较少,相关研究最多的是NGF。该蛋白质具有刺激神经增长的活性,其突变与遗传性感觉和自主性神经障碍相关,其基因表达失调与过敏性鼻炎有关[20]。在治疗慢性疼痛和中风过程中使用电针刺疗法(electroacupuncture,EA),可显著上调NGF水平[21-22]。针灸相关药物研究最多的是纳洛酮,它能起到预防或逆转阿片样物质的作用,包括呼吸抑制、镇静和低血压。电针刺疗法结合纳洛酮可以缓解急性内脏痛觉过敏[23]。

2.2 疾病-基因关联网络

针灸相关38种疾病与29种基因存在关联的有81种,Lift阈值超过3的有70种。

使用R语言构建的针灸相关疾病-基因关联网络如图2所示。

图2 疾病-基因关联网络

疾病-基因中单关联的有2对,即SMO-恶心与呕吐(Nausea And Vomiting)和NRG1-精神分裂症(Schizophrenia),基因NGF、CORT、APP(Amyloid beta Precursor Protein,淀粉样β蛋白前体)分别与15、8、7种疾病具有关联,炎症(Inflammation)、紧张(Stress)、阿兹海默病(Alzheimer’s Disease)、坏死(Necrosis)分别与11、6、5、5种基因具有关联。

2.3 疾病-药物关联网络

得到443种关联,大于Lift阈值3的关联有285种。针灸相关疾病-药物关联网络如图3所示。

疾病-药物之间具有单关联的有4对,即焦虑-阿普唑仑(Anxiety-Alprazolam)、消化不良-多潘立酮(Dyspepsia-Domperidone)、炎症-纳洛酮(Inflammation-Naloxone)、哮喘-地塞米松(Asthma-Dexamethasone)。恶心呕吐(Nausea And Vomiting)与昂丹司琼(Ondansetron)、顺铂(Cisplatin)、胃复安(Metoclopramide)3种药物存在关联,尼莫地平(Nimodipine)与血管性痴呆(VascularDementia)、痴呆(Dementia)、梗塞(Infarction)3种疾病存在关联。可以发现,疼痛与药物的关联最多。

图3 疾病-药物关联网络

此外,本文得到的药物与疾病的关联,都是与针灸相关的,因此可以预测这些药物与针灸共同治疗的疗效可能会更佳。

2.4 基因-药物关联网络

得到39种不同关联,大于Lift阈值3的关联有38种。针灸相关基因-药物关联网络如图4所示。

图4 基因-药物关联网络

基因-药物之间具有单关联的有2对,即DICER1-黄体酮(DICER1-Progesterone)、MYD88-秋水仙碱(MYD88-Colchicine)。一氧化氮(Nitric Oxide)只与基因S100B、NOS2有关,基因NGF与9种不同药物存在关联,基因CORT与7种药物存在关联,基因APP和CYP2C8分别与4种不同药物关联。普鲁卡因可以抑制基因STAT3在mRNA和蛋白质水平表达,是一种治疗神经性疼痛很有潜力的治疗药物[24]。

2.5 疾病-基因-药物关联网络

同样,得到疾病-基因-药物两两之间有704种关联,经过验证得到预测性关联(即假阳性关联)262种。使用R语言构建的针灸相关疾病-基因-药物关联网络如图5所示。

图5 疾病-基因-药物关联网络

可以发现,阿兹海默病(Alzheimer's Disease)与基因APP、NGF和药物腺苷(Adenosine)、银杏(Ginkgo biloba)、异氟烷(Isoflurane)、链脲菌素(Streptozocin)具有关联。由此推测这2种基因与这4种药物也可能具有关联。

3 新关联预测

本文通过计算得到一些关联程度较高,但尚未被证实的实体关联对(表1)。

在疾病-基因新关联预测中,便秘可能与基因NGF、CORT有关。NGF相关疾病有脑梗、帕金森病、小儿脑瘫、视神经相关疾病、过敏性鼻炎等[25],NGF医药产品主要有苏肽生、金路捷和恩经复。皮质醇稳定蛋白[26](cortistatin,CORT)的基因编码是一种类似生长激素抑制素的神经肽,与抑郁症相关。便秘是由多种病因引起的,如胃肠道疾病;不少药物也可导致该疾病,如抗精神病药“奋乃静”“氯氮平”等、精神活性药“丙戊酸钠”等、阿片类镇痛药“可卡因”“吗啡”等、抗抑郁药“氟西汀”“阿米替林”等。可以发现,服用抗抑郁药可能会导致便秘,而基因CORT又与抑郁症相关,那么便秘可能与CORT某种变异具有关联。同理,服用精神活性药可能导致便秘,而NGF又与神经性疾病息息相关,针灸对治疗便秘具有一定的功效[27]。所以,便秘与NGF也可能具有关联,针灸在治疗便秘的同时,也可能改变了基因NGF的性状。

表1 关联程度较高的预测性实体对

在疾病-药物新关联预测中,抑郁症(Depression)可能与药物巴氯芬(Baclofen)有关。巴氯芬用于改善锥体束损害造成的肌张力增高的痉挛症状、不同原因造成的痉挛性偏瘫和截瘫,针灸可以通过一定程度上激活细胞外信号调节激酶(Extracellular Signal-regulated Kinase,ERK)来缓解重度抑郁症症状[28]。因此,巴氯芬结合针灸可能会对抑郁症产生更好的疗效。

潜在关联对Amyloidosis-Ondansetron中的淀粉样变(Amyloidosis)指淀粉样蛋白沉积于组织或器官引起的慢性代谢性疾病,可侵犯全身多种器官,分为系统性和皮肤淀粉样变,是一组表现各异的临床综合征,目前尚无特效治疗方法。对原发性及合并于多发性骨髓瘤的A1型淀粉样变,二甲硫氧化物显示较好的疗效,可与环磷酰胺等烷化剂并用;对于皮肤淀粉样变,针灸可以显著缓解[29];昂丹司琼用于预防或治疗化疗药物(如“顺铂”“阿霉素”等)和放射治疗引起的恶心呕吐。因此,这二者的关联,必须考虑患者淀粉样变器官(或部位)及并发症的不同,需要进一步探讨。

在基因-药物新关联预测中,基因APP可能与硼替佐米、布托啡诺、多潘立酮等8种药物有关。以新关联APP-氟桂利嗪为例进行分析,APP经β和γ分泌酶水解产生的β淀粉样蛋白,会对血管形态及血管功能产生影响,导致血管硬化,在大脑内引起与阿尔茨海默病相似的病理变化——神经突退缩和神经元变性[30]。氟桂利嗪对血管收缩物质引起的血管收缩有持久的抑制作用,保护脑组织,所以APP与氟桂利嗪可能会具有某种关联。因此,氟桂利嗪结合针灸对阿尔茨海默病或偏头痛的疗效更好。同样,在治疗APP/PS1双转基因阿尔茨海默病小鼠时,能提高它们的空间学习和记忆能力[31],由此可以推测针灸与APP可能具有关联。针灸在治疗多发性骨髓瘤癌症患者使用硼替佐米而导致的周围神经性病变时,有较好的疗效[32];在治疗偏头痛时,针灸可能比用常规药物(如氟桂利嗪)的疗效更好[33]。在动物实验中表明,在治疗术后疼痛时,针灸比布托啡诺等阿片类镇痛药的效果更好[34]。但是目前尚无大规模临床实验证明针灸与前述药物共同治疗会产生更好的疗效,也没有证据表明针灸会导致这些基因突变。

4 算法验证

将针灸相关疾病-基因、疾病-药物和基因-药物间的关联结果导入SPSS 20.0软件,使用ROC曲线判断算法性能(图6)。

图6 ROC曲线验证

从图6看出,得到ROC曲线下的面积分别为0.749、0.840和0.806,关联准确度中等偏上,相应的标准误差分别为0.072、0.032和0.071,P值均为0.000,95%置信区间分别为(0.607,0.890)、(0.777,0.903)和(0.667,0.945),说明算法性能中等偏上,优于CoPub[35]生物实体关联提取算法。本文也得到了一些尚未验证的实体关联对,即有一些假阳性的预测性结果[36],这也是生物医学实体关联提取的目标之一:提出的预测性的研究假设,可帮助科研人员设计相关实验方向[37]。

5 结语

文献数量飞速增长,PubMed约每分钟增加2篇论文[38],每位研究者不可能全面阅读与研究相关领域的所有文献。文本挖掘的目标是增强从不断增长的文献语料库中提取信息的能力,从而更为有效地提取及合成信息。在医学生物领域,文本挖掘越来越多地用于支持新知识发现和假设生成[39],如现有药物新用途、疾病候选基因、发病机制等相关科学假设[40]。同时,通过信息可视化技术,可对现有知识点进行概述,帮助学者更高效地获取生物医学文献关键内容。随着生物医学大数据的进一步发展,各种文本挖掘算法和技术将会呈现越来越重要的作用。

本文基于机器学习方法成功地在针灸相关文献中进行疾病-基因-药物新关联的挖掘与预测,但只对3种实体进行了关联挖掘,并仅限于PubMed数据库,不够全面。因此,下一步的研究计划是在更大规模数据(包括临床平台获得的数据)中,尝试对生物医学数据中多种实体(如基因、蛋白质、通路、疾病、致病机制、药物、临床检查、基因组和药物不良反应等)进行关联挖掘与预测。

猜你喜欢

关联实体针灸
面向未来的中国医学——针灸篇
不惧于新,不困于形——一道函数“关联”题的剖析与拓展
前海自贸区:金融服务实体
“一带一路”递进,关联民生更紧
Efficacy of acupuncture on treating obesity and adipose-incurred illnesses
Acupuncture as a potential approach to improving the health of women with obesity
奇趣搭配
实体的可感部分与实体——兼论亚里士多德分析实体的两种模式
中医针灸的发展与传承
两会进行时:紧扣实体经济“钉钉子”