APP下载

共词分析及网络分析法探测乳腺癌转移相关基因

2016-03-21

中华医学图书情报杂志 2016年3期
关键词:行动者度数语义

乳腺癌是女性最常见的恶性肿瘤之一,大约有10%-15%的乳腺癌患者在首次确诊为原发肿瘤3年后都会伴发其他严重疾病或发生远处转移。转移是导致乳腺癌患者死亡的主要原因,因此阻止乳腺癌的浸润和转移是现代乳腺癌治疗中的关键环节。

乳腺癌转移是一个由多基因参与及多步骤完成的复杂过程。乳腺癌转移相关基因是一类功能上能促进或阻断肿瘤转移潜能而不影响肿瘤细胞生长增殖的基因,可分为转移促进基因和转移抑制基因两大类。转移促进基因有HER-2、BCSG1、MMPs等,转移抑制基因有nm23、BRMS1等。相关研究较多,但目前未见从文本角度挖掘乳腺癌转移相关基因的研究。

共词分析法是20世纪70年代由法国的文献计量学家提出的,其原理是对一组词两两统计它们在同一篇文献中出现的次数。以此为基础对这些词进行聚类分析或网络分析等,可以反映这些词之间的亲疏关系及其代表的学科和主题的结构变化[1]。国内最早将共词分析法应用于医学文献分析[2],目前已广泛应用于知识管理、生物信息学、纳米科技、土地研究、人力资源、城市信息化、阅读疗法研究、奶牛繁殖研究等各个领域的文献分析[3-6]。社会网络分析是综合运用图论、数学模型来研究行动者与行动者、行动者与其所处社会网络及一个社会网络与另一个社会网络之间关系的一种结构分析方法,近年来在图书情报、计算机软件与计算机应用、新闻传媒、企业管理、医学等领域得到了广泛应用[7-10]。

本文尝试基于共词分析法,从PubMed数据库检索获取乳腺癌转移与基因关系的研究文献,利用MetaMap进行概念匹配后抽取乳腺癌转移相关基因,建立乳腺癌转移-基因矩阵和基因-基因矩阵,再利用Ucinet软件建立乳腺癌转移相关基因的相互作用网络,分析网络拓扑结构及其作用,以探测基因与转移癌的关系,为乳腺癌转移的早期诊断和治疗提供参考。

1 研究工具

1.1 概念匹配程序MetaMap

由Lister Hill National Center for Biomedical Communications(美国生物医学通讯中心)开发的MetaMap,是一个将生物医学文本与一体化医学语言系统(Unified Medical Language System,UMLS)超级词表中的概念匹配的程序。MetaMap使用知识密集方法,采用符号、自然语言处理和计算机语言学等技术,能基于语义关系提取疾病、基因、蛋白等知识,完成概念组配。MetaMap首先把题目和文摘中的各个句子解析成多个词或短语,然后列出每个词或短语候选词,根据所选择的候选词在UMLS所出现的相关语义类型和研究领域进行匹配,得到文本中的主要概念。MetaMap主要应用于信息检索和数据挖掘,是美国国立医学图书馆(NLM)初步标引系统(indexing initiative system)的基础之一,这个标引系统应用于图书馆半自动和全自动的生物医学文献标引[11]。

1.2 dataMiner数据分析软件

dataMiner软件是由中国医科大学闫雷开发的。它可根据UMLS超级词表,选择需要的语义类型,将所得结果按所需的百分比或前几位列出,用于统计概念匹配后文本中两个词或词组在同一标题、摘要、句子及正文中出现的次数,形成矩阵。

1.3 社会网络分析软件 Ucinet

Ucinet(University of California at Irvine NETwork)最初由加州大学尔湾分校学者Linton Freeman编写的,集成了可以对一维和二维数据进行统计和可视化分析的NetDraw软件,将网络结构可视化,是综合性社会网络分析工具[12]。Ucinet可以对网络拓扑结构进行统计分析,包括网络密度、中心度、最短路径、子群等。

2 研究步骤和结果分析

2.1 利用MetaMap进行概念匹配

以“breast neoplasms[majr] AND genes[majr] AND Neoplasm Metastasis[Mesh] AND humans[mesh]”为检索策略(1966年1月1日-2015年7月31日),在PubMed共检索到375篇乳腺癌转移相关基因文献,以MEDLINE格式进行保存,作为挖掘样本。将MEDLINE格式文本上传到在线MetaMap,选择UMLS涵盖的所有词表及所有语义类型,进行概念匹配,得到所保存文献题名和摘要的UMLS概念匹配结果。

2.2 利用数据分析软件得到矩阵

首先,将概念匹配结果导入数据挖掘软件,基因选择的语义类型为[Gene or Genome],转移癌的语义类型为[neoplastic process],选取同句共现的矩阵,得到与乳腺癌转移相关基因。然后,再将X轴和Y轴共同选择语义类型[Gene or Genome],得到基因之间相互作用的矩阵。删除范围过于广泛的基因名称(如genes,alleles,locus,tumor suppressor genes,proto-oncogenes等)和重复的基因名称(如tp53 gene与tp53 wt allele等),合并表示同一基因的不同基因名称(如erbb、egfr和c-erbb-1合并为egfr,使用Genebank中的官方名称),删除错配的基因名(如gene A错配为genes,vif),最终得到44×44的基因-基因矩阵,并将对角线的基因出现次数设置为0(表1)。

表1 基因-基因共现矩阵(44行×44列)(部分)

2.3 基因相互作用网络的建立和拓扑结构分析

利用Ucinet 6的数据转换功能将处理后的基因-基因共现矩阵进行二值化处理,利用自带的Netdraw生成基因相互作用网络(图1),利用network功能分析基因网络的拓扑结构,包括核心和外缘(图2)、度数中心度(图3)、中间中心度(图4)、结构洞。

图1 乳腺癌转移相关基因相互作用网络图

图2 乳腺癌转移相关基因相互作用核心和外缘(部分)

图3 乳腺癌转移相关基因相互作用度数中心度(部分)

图4 乳腺癌转移相关基因相互作用中间中心度(部分)

由图1可知,网络图共有44个节点、146条线。

从图2可以看出,核心基因为bcl2、brca1、brca2、cd69、cdh1、cdkn2a、Egfr、erbb2、esr1、myc、nr4a1、thra、tp53,其余31个基因为边缘基因。

绝对度数中心度是某点与其他点直接相连的个数。如果某点具有最高的度数,则称该点居于中心,有可能拥有最大的权力[12]。从图3可知,tp53度数最大为13,度数中心度排在前10的基因是tp53、thra、erbb2、esr1、cdh1、egfr、nr4a1、cd69、cdkn2a、bcl2,最小度数是1。因此,tp53、thra、erbb2、esr1、cdh1、egfr、nr4a1、cd69、cdkn2a和bcl2的度数最多,权力最大,处于中心位置。

另一个表征行动者个体中心度的指标是中间中心度,它测量的是行动者对资源控制的程度。如果一个点处于许多其他点对的捷径(最短路径)上,则该点具有较高的中间中心度[12]。从图4可知,blid、bcpr、akr1a1、chafla、bcl2l1、kidins220、cxcr4和mir200b等19个基因的中间中心度为0,不能控制任何其他行动者,处于网络边缘[12];erbb2、esr1、cdh1、cd69、egfr、nr4a1、tp53、s100a4和thra处于网络的中间连接位置,连接能力依次递减。

结构洞是“社会网络中的某个或某些个体和有些个体发生直接联系,但与其他个体不发生直接联系,无直接联系或关系间断(disconnection)的现象,从网络整体看好像网络结构中出现了洞穴”。结构洞的等级度越高,该点越居于网络的核心,其控制力也越大[12],tp53、thra、erbb2、esr1、cdh1和egfr等级度依次递减,说明其控制力也依次递减。

3 结论与讨论

与乳腺癌转移相关的基因中,13个核心基因按照核心程度由高到低排列依次为tp53、thra、erbb2、esr1、cdh1、egfr、nr4a1、cd69、bcl2、cdkn2a、brca2、myc、brca1,其余31个为边缘基因。

tp53官方全称为肿瘤蛋白p53(tumor protein p53),别称有P53、BCC7、LFS1和TRP53。tp53蛋白能通过调节细胞周期和避免细胞癌变发生,保持基因组的稳定性,避免突变发生。在遗传性乳腺癌和散发性乳腺癌患者中,tp53突变均会引起杂合性丢失增强和等位基因失衡,但遗传性乳腺癌患者的突发率高于散发性。端粒紊乱激活p53,反过来结合pgc1-α和pgc1-β将其抑制,从而促进端粒和线粒体直接连接[13]。

目前关于tp53基因突变能否预测乳腺癌转移有很大争议。刘祖宏等[14]对92例乳腺润性导管癌患者的标本进行检测发现,乳腺淋巴结转移与p53蛋白表达呈正相关,提示p53基因突变与肿瘤细胞的侵袭转移有相关性,可能增强肿瘤细胞的增殖能力,促进肿瘤浸润转移。汪海新等[15]通过免疫组化方法检测359例乳腺浸润性导管癌组织中p53的表达情况却得出了相反的结论,即p53蛋白的表达在区域淋巴结无转移之间的差异均无统计学意义。

Erbb2(c-erbb2原癌基因)、Brca1(breastCancer SusceptibilityGene 1,肿瘤易感基因)、egfr(epidermal growth factor receptor,表皮生长因子受体)均参与乳腺癌转移。

郑伟等[16]选择42例乳腺癌患者石蜡固定的组织标本,用SABC免疫组织化学方法检测EGFR、C-erbB-2蛋白发现,EGFR的阳性率为42.9%,C-erbB-2的阳性率为31%,EGFR、C-erbB-2表达与乳腺癌骨髓微小转移有密切关系,可以作为判断乳腺癌预后的重要指标。韩芳芳等[17]应用免疫组织化学PV-9000法检测83例乳腺基底细胞样癌肿BRCA1、EGFR的表达发现BRCA1的阳性表达率为57.83%,EGFR的阳性表达率为87.95%,且各组间的不同临床分期、不同淋巴结转移情况各组间均有统计学意义,但与二者的表达无相关性。

文献调研发现,tp53、thra、erbb2、esr1、cdh1、egfr、nr4a1、cd69等13个核心基因中,大部分都与乳腺癌转移有直接或间接的关系,但cd69对于乳腺癌转移的具体病理生理学过程尚不明确,需要进一步验证。这可能是因为cd69基因属于NK细胞信号传导基因复合体家族参与细胞增殖,表达蛋白在自然杀伤细胞和血小板中传导信号,与血液系统疾病及免疫相关性疾病的发生与发展密切相关,也可能与乳腺癌转移相关。

4 结语

本文利用MetaMap概念匹配PubMed中375篇乳腺癌转移相关基因文献的标题和摘要,用数据挖掘软件得到乳腺癌转移相关基因和基因-基因相互作用矩阵,用Ucinet 6分析网络相关指标,得到13个核心基因,希望利用基因与转移癌的关系对乳腺癌转移的早期诊断和个性治疗提供参考。

此外,不足之处是cd69基因对于乳腺癌转移的具体过程尚不明确,还需进一步实验验证。MetaMap存在错误匹配和遗漏匹配的现象,在准确性和全面性方面有所欠缺。

猜你喜欢

行动者度数语义
与异质性行动者共生演进:基于行动者网络理论的政策执行研究新路径
眼镜的度数是如何得出的
图形中角的度数
语言与语义
隐形眼镜度数换算
敬仰中国大地上的绿色行动者
“上”与“下”语义的不对称性及其认知阐释
网络行动者的新媒体使用特征、影响及媒介民主化
做“互联网+”的积极行动者
认知范畴模糊与语义模糊