子宫内膜癌相关基因的生物医学文本分析研究
2019-10-14刘玲玲2薛凤霞
张 凯,刘玲玲2,薛凤霞
子宫内膜癌(Endometrial Caner,EC)是全世界女性生殖系统中最常见的妇科恶性肿瘤之一,发病率逐年上升。美国学者预计2019年美国子宫内膜癌新发病例数将达61 880例,新发病率占生殖恶性肿瘤的21%,其中12 160例患者因罹患子宫内膜癌而死亡[1]。与其他实体肿瘤一样,子宫内膜癌的发生、发展和转移是一个多因素、多阶段、涉及到多基因突变以及肿瘤微环境改变的复杂分子过程[2]。此外,EC的发生和发展与多种基因和细胞途径密切相关。如Mirakhor[3]等人检测了p53、Bcl-2和Bax等基因蛋白在EC中的表达量,用于对EC的危险分层的评估;Chen HX指出MAPK/ERK和PI3K/Akt信号通路也参与了EC的发生[4]。因此子宫内膜癌的发生、发展与基因之间存在着密切联系。本文期望通过探究子宫内膜癌和基因之间的相互关系,帮助妇产科医生更好地从分子生物学水平理解其发生、发展的机制,从而为子宫内膜癌筛选分子标志和靶向治疗奠定基础。
文本数据挖掘简称文本挖掘,指为了发现知识,从大规模文本库中抽取隐含的、未知的、潜在有用的信息的模式过程。医学文献信息数量呈现阶梯式增长,已超出了人们对信息处理及分析的速度,从而产生信息过载等问题。而生物医学文本挖掘可通过计算机从生物医学自然语言文本数据中提取出包括基因、蛋白、药物、疾病等生物实体的信息,从而帮助医学研究人员理解和认知整个生物网络及生物体之间的关系,减轻他们的信息过载负担[5-6]。
文本挖掘在文本数据方面展现的优势使得越来越多的医学研究者将文本挖掘和肿瘤研究相结合,通过文本挖掘从同类型的文本数据库中提取相关的生物医学文本,加强文本之间的脉络化分析、可视化分析,找出潜在关系,以促进生物医学的深入研究。如朱祥等[7]利用CoremineMedical工具寻找与白血病相关的基因,再通过对从PubMed中所获的相关文献的摘要进行分析,找出白血病和基因的相互作用关系;Luwei Wei等[8]通过生物信息技术和Coremine Medical文本挖掘工具证实了整合素α-6(ITGA6)与卵巢癌和多耐药性有关,且为卵巢癌预后的潜在标志物;Kong Q[9]等利用BATMAN-TCM、SystemsDock、Coremine Medical等文本挖掘工具,确定了11种靶向基因/蛋白质、4种关键途径和10种生物过程参与了使用吉马酮、莪术二酮和呋喃二烯治疗乳腺癌的作用机制。
目前常用的生物医学文本挖掘工具有AliBaba[10]、Coremine Medical、BiolE、GeneWays[11]、GAPSCORE[12]、Chilibot、POSBIOTM/W、Suiseki等。文本挖掘工具系统一般包括文献检索模块文本转化、结构化模块、自然语言处理模块和文本挖掘模块4个功能模块,以满足生物医学文本挖掘的要求和任务。本文采用Coremine Medical、Chilibot等分析工具对子宫内膜癌和基因的作用关系进行挖掘分析,并利用UALCAN[13]在线工具对关键基因在子宫内膜癌组织中的表达水平做进一步验证说明。
1 研究工具与步骤
本文的研究工具包括Coremine Medical、Chilibot和UALCAN。
Coremine Medical是一个医学本体信息检索平台,可完成基于本体语言、语义网络、智能分析等技术支持检索、分析和获取,可寻求复杂主题概述和允许深入研究。其搜索结果会通过聚类重要生物医学术语以图像网络的形式呈现,其中生物医学术语包括医学主题标题、基因本体论、制药、草药、化学、基因和蛋白质术语,而且涵盖了各种类别的信息,如基本信息的来源、最新的发表的科学文章等。
Chilibot(chipliterature robot)[14]是一种能够对基因和生物医学实体之间共现关系进行挖掘的网络程序工具,能够在PubMed文献数据库(摘要)中搜索蛋白质、基因或关键词之间的特定关系,挖掘基因与基因之间或基因与蛋白质之间的相互作用信息。与基于文章组织结果的PubMed界面相比,Chilibot直接呈现研究者正在寻找的关键信息,即包含两个术语的句子。根据对文本的语言分析,这些句子被组织成不同的关系类型。此外,Chilibot所特有的基因关系拓扑网络能够揭露基因和蛋白质、药物等医学实体之间隐含的潜在关系,为医学推断提供一定的假设基础。
UALCAN是一个全面的、用户友好的交互式门户资源网站,可对癌症基因组图谱(The Cancer Genome Atlas,TCGA)中的基因组数据的基因表达进行深入分析。它基于PERL-CGI构建,具有使用javascript和CSS的高质量图形。UALCAN数据门户提供的链接可快速访问GeneCards的宝贵资源。
本文以子宫内膜癌(Endometrial cancer)为研究对象,通过Coremine Medical 系统找到与子宫内膜癌关联程度较高的基因,再利用Chilibot系统得到的子宫内膜癌与几种基因的相互作用结果进行人工分析,最后利用UALCAN在线工具验证子宫内膜癌和关键基因的关系。
2 结果与分析
2.1 利用Coremine Medical 寻找基因
在Coremine Medical数据库中,以子宫内膜癌“Endometrial cancer”为主题词进行检索,结果如图1所示。图1中左侧为子宫内膜癌与各类别词的共现关系可视化图,右侧为各类词列表选项卡。
本文选择的基因蛋白卡显示出了与子宫内膜癌关联强度大的5个目标基因,即MLH1、MSH2、MSH6、PTEN、PMS2,图1中深蓝色格子越多,表明其显著性越强。
2.2 子宫内膜癌和基因之间的相互作用关系
2.2.1 子宫内膜癌和MLH1之间的相互作用关系
对子宫内膜癌“Endometrial cancer”和MLH1展开关联分析。用Chilibot分析从PubMed检出的301篇文献中100条最新的摘要,经过文本去重处理得到23个相互作用句和16个平行句,如图2所示。通过分析23个相互作用句得出以下结论:MLH1是参与DNA错配修复(Mismatch Repair,MMR)的一种肿瘤抑制基因,它所编码的蛋白能够与PMS2基因产物形成MutL-α异二聚体。它具有核酸内切酶的活性,能够在MutS-α复合物和MutS-β复合物识别错配和插入/缺失后被激活而参与修复单碱基的错配。MLH1基因甲基化的发生可导致DNA错配修复基因的突变,使MLH1蛋白的表达缺失,从而促进子宫内膜癌的发生。
利用UALCAN在线工具检索MLH1基因在正常内膜组织和子宫内膜癌组织中的表达。如图3中A所示,相比于正常内膜组织,MLH1基因在子宫内膜癌组织中的相对表达量明显降低(median 25.69 vs median 19.38,P<0.001)。由于MLH1基因的甲基化导致了DNA错配修复基因的突变,从而使抑癌蛋白MLH1的表达缺失,所以检测了正常内膜组织和子宫内膜癌组织中MLH1甲基化的表达水平。如图3中B所示,子宫内膜癌中MLH1基因的甲基化水平比正常组织的甲基化水平要高(median 0.08 vs median 0.16,P<0.001)。
图2 用Chilibot分析Endometrial cancer和MLH1的相互关系
图3 MLH1在正常子宫内膜组织样本中和子宫内膜癌组织样本中的基因表达量以及甲基化表达水平
2.2.2 子宫内膜癌和MSH2之间的相互作用关系
对子宫内膜癌“Endometrial cancer”和MSH2进行关联分析。用Chilibot分析从PubMed检出的445篇文献中100条最新的摘要,得到11个相互作用句和7个平行句。通过分析11个相互作用句得出以下结论:基因MSH2编码的蛋白能结合MSH6蛋白形成MSH2-MSH6(MutS-α)复合物,或与MSH3蛋白结合形成MSH2-MSH3(MutS-β)复合物,分别参与修复错配的单碱基对和大的突变环。由于DNA错配修复基因MSH2突变引起的Lynch综合征主要与结直肠癌和子宫内膜癌相关,因此发病风险更高。晋薇[15]检测了错配修复基因MSH2蛋白在子宫内膜癌中的表达及临床意义,结果发现基因MSH2蛋白缺失率为8.1%(34/420),在FIGO分期中单个MSH2蛋白在Ⅲ期中表达缺失率达18.6%且差异性显著,说明MSH2蛋白的异常表达在子宫内膜癌的发生发展过程中起着重要作用。
MSH2基因在子宫内膜癌中的表达量比在正常内膜组织中的高(median 13.45 vs median 21.31,P<0.001),如图4中A所示。对子宫内膜癌分期分层的比较发现,与正常子宫内膜组织相比,MSH2基因在子宫内膜癌Ⅲ期中的表达量要高,且差异有统计学意义(median 13.45 vs median 24.18,P<0.001),如图4中B所示。
图4 MSH2在正常子宫内膜组织样本中和子宫内膜癌组织样本中的基因表达量以及在不同分期中的表达水平
2.2.3 子宫内膜癌和MSH6之间的相互作用关系
对子宫内膜癌“Endometrial cancer”和MSH6进行关联分析。用Chilibot分析从PubMed检出的322篇文献中100条最新的摘要,得到12个相互作用句和7个平行句。通过分析12个相互作用句得出以下结论:MSH6基因位于2p15,作用是纠正碱基错配以及小片段插入和缺失,而携带MSH6突变的子宫内膜癌患者发病年龄比携带MLH1或MSH2突变的子宫内膜癌患者晚,间接说明癌症发病年龄的延迟也是MSH6突变者的特征[16]。一项荟萃分析表明,错配修复基因MSH6在子宫内膜癌人群中的突变率较高(约为9.77%),突变种类以置换突变和移码突变为主,外显子4是主要突变部位,携带突变者发病年龄较晚[17]。Stembalska A等学者在2019年描述了MSH6基因 T767I致病变异体可能与遗传性子宫内膜癌的发生有关[18]。
TCGA数据分析表明(图5),MSH6基因在子宫内膜组织中表达较低(median 30.36 vs median 19.65,P<0.001),MSH6甲基化水平相比正常内膜组织也是低表达(median 0.052 vs median 0.038,P<0.001),说明MSH6基因的异常表达和甲基化的异常水平与子宫内膜癌的发生息息相关。
图5 MSH6在正常子宫内膜组织样本中和子宫内膜癌组织样本中的基因表达量以及甲基化水平
2.2.4 子宫内膜癌和PTEN之间的相互作用关系
对子宫内膜癌“Endometrial cancer”和PTEN进行关联分析。用Chilibot分析从PubMed检出的357篇文献中100条最新的摘要,得到26个相互作用句和42个平行句。通过分析26个相互作用句得出以下结论:PTEN基因是肿瘤抑制基因,它的缺失表达或者沉默突变将导致子宫内膜癌的发生;PTEN基因位于染色体10q23,它能够编码一种具有脂质磷酸酶活性的蛋白质,诱导细胞周期的停滞,通过诱导上调AKT依赖的信号通路机制和下调Bcl-2机制来促进肿瘤细胞的凋亡[19-20]。此外,PTEN基因编码的蛋白产物还具有蛋白磷酸酶活性,能够抑制肿瘤细胞的迁移侵袭、粘附扩散等一系类生物过程[21]。通过调研文献可知,PTEN基因的突变是子宫内膜癌中最常见的突变,在子宫内膜癌的发生、发展中具有重要意义。在子宫内膜癌细胞的PTEN突变中,PTEN的Y68移码突变构成了对多西紫杉醇治疗抵抗性的主要机制,导致了耐多西紫杉醇化疗药物的肿瘤细胞的产生。其分子机制涉及Y68移码的突变,导致在编码氨基酸68处,截短403氨基酸PTEN蛋白的改变,从而引起PTEN蛋白磷酸酶和脂质磷酸酶活性的丧失。理解子宫内膜癌中PTEN基因的突变与DNA的修复之间复杂的相互关系,将有助于临床妇产科医生更好地选择可能对某些新的和昂贵的靶向治疗有反应的患者,从而提高EC患者的生活质量和生存时间。
正常子宫内膜组织中PTEN的基因表达量比子宫内膜癌组织样本中的要高(median 33.45 vs median 17.16,P<0.001),子宫内膜癌分期分层之间表达没有差异(图6)。
图6 PTEN在正常子宫内膜组织样本中和子宫内膜癌组织样本中的基因表达量以及子宫内膜癌不同分期中的表达水平
2.2.5 子宫内膜癌和PMS2之间的相互作用关系
对子宫内膜癌“Endometrial cancer”和PMS2进行关联分析。用Chilibot分析从PubMed检出的140篇文献中100条最新的摘要,得到15个相互作用句和6个平行句。通过分析15个相互作用句得出以下结论:PMS2基因编码的蛋白质能够与MLH1基因编码的蛋白结合形成MutL-α异二聚体,当MutL-α异二聚体复合物被MutS-β复合物和一些辅助蛋白结合时,MutL-α的PMS2亚单位会在DNA错配附近引入一个单链断裂,为核酸外切酶的降解提供了切入点,以帮助降解含有错配的链。PMS2的基因突变会诱导林奇综合征(Lynch syndrome)的发生和增加子宫内膜癌和结直肠癌的发病。在这些相互作用句中,有10句都包含了短语“Lynch syndrome(LS,林奇综合征)”,因此也将LS和PMS2关联起来。
用Chilibot分析从PubMed检出的496篇文献中100条最新的摘要,得到22个相互作用句和17个平行句,分析后得出以下结论:当MLH1、PMS2、MSH2和MSH6中的任何一种或多种蛋白质表达缺失时,可能增加Lynch综合征相关的子宫内膜癌的易感性,进而导致子宫内膜癌的发生。经调研文献,大约有10%的子宫内膜癌还与遗传有关。其中关系最为密切的遗传症候是林奇综合征,也称为遗传性非息肉结直肠癌综合征(hereditary non-polyposis colorectal cancer syndrome,HNPCC),是一种常染色体显性遗传病,由错配修复基因突变引起,与年轻女性的子宫内膜癌发病有关。
TCGA数据显示,PMS2基因在子宫内膜癌组织中高表达(median 16.77 vs median 21.21,P<0.001),如图7中A所示;甲基化表达量降低,差异有统计学意义(median 0.045 vs median 0.049,P<0.01),如图7中B所示。
图7PMS2在正常子宫内膜组织样本中和子宫内膜癌组织样本中的基因表达量以及甲基化水平
3 结论
子宫内膜癌与5种基因都存在相互作用关系,包括4种DNA错配修复基因MLH1、MSH2、MSH6、PMS2和1种肿瘤抑制基因PTEN。
MLH1是参与DNA错配修复的一种肿瘤抑制基因,在EC组织中的表达量明显低于正常内膜组织。它所编码的蛋白能够与PMS2基因产物异二聚化形成MutL-α异二聚体复合物,是DNA错配修复系统的一部分。该异二聚体具有核酸内切酶的活性,能够在MutS-α复合物和MutS-β复合物识别错配和插入/缺失后被激活而发挥作用。MLH1基因甲基化的启动会导致DNA错配修复基因的突变,使MLH1错配修复蛋白的缺失表达,促进EC的发生。
错配修复基因MSH2蛋白能够与MSH6蛋白结合成MutS-α异二聚体,或者与MSH3蛋白结合形成MutS-β异二聚体。两种异二聚体均能与MutL-α异二聚体结合形成三元复合物,前者能参与修复单碱基的错配,后者能参与修复大的缺失和突变环,其中主要由MSH蛋白识别DNA中的错配位点。MSH2基因的突变或者异常表达将引起编码蛋白的缺失或者功能异常,导致不能及时修复错配的碱基和突变环,进而诱导子宫内膜癌和结直肠癌的发生、发展。
MSH6基因位于2p15染色体上,MSH6蛋白通过与MSH2蛋白结合形成二聚体,能够发挥纠正碱基错配以及小片段插入和缺失的作用。调研文献可知,子宫内膜癌患者发病年龄的延迟是MSH6基因突变的特征。
PMS2基因编码的蛋白质是错配修复系统的关键组分,具有ATP酶活性和错配修复核酸内切酶活性,能够与MLH1基因编码的蛋白结合形成MutL-α异二聚体。当MutL-α异二聚体复合物被MutS-β复合物和一些辅助蛋白结合时,MutL-α的PMS2亚单位会在DNA错配附近引入一个单链断裂,为核酸外切酶的降解提供了切入点,以帮助降解含有错配的链。DNA甲基化能够防止切割断裂,因此只有新突变的DNA链才会被纠正。该基因突变时,则会诱导Lynch综合征的发生,增加子宫内膜癌和结直肠癌的发生。
位于10号染色体长臂上的PTEN基因,是一种肿瘤抑制基因,对子宫内膜癌的发生具有抑制作用,它在子宫内膜癌组织中的表达水平明显低于其在正常子宫内膜组织中的表达水平。由于染色体10q23上PTEN基因的突变缺失,导致它编码相应的具有脂质磷酸酶活性和蛋白磷酸酶活性的蛋白质缺失,从而促进肿瘤细胞凋亡和抑制肿瘤细胞迁移、侵袭能力的沉默、失调,导致EC的发生。不仅如此,PTEN基因突变中的Y68移码突变又最终使子宫内膜癌细胞对临床化疗药物多西紫杉醇产生耐药性。
错配修复基因是纠正碱基错配的主要因子,通过修复DNA复制过程中产生的碱基对错误,从而维持基因组的完整性及稳定性,避免发生突变及肿瘤的产生。错配修复基因能保证DNA复制的高保真性,一旦发生基因的突变或者甲基化的启动,则会引起错配基因的失活,导致错配修复蛋白的表达缺失,使某些突变的癌基因和抑癌基因在体内得到快速聚集,肿瘤由此而发生。因此,检测DNA错配修复基因的表达对筛查子宫内膜癌及HNPCC家系有重要意义。
4 结语
本文通过Coremine Medical工具发现与EC关系密切的5种基因,并利用Chilibot文本工具和UALCAN在线分析工具探究了错配修复基因MLH1、MSH2、MSH6、PMS2在EC中的突变和表达,以及肿瘤抑制基因PTEN异常表达。错配修复基因MLH1、MSH2、MSH6以及PMS2的突变,可促进相应修复蛋白的缺失进而导致EC的发生、发展,因此联合检测EC患者的4种MMR蛋白能更有效地提高EC筛查的特异度和敏感度,为制定检测策略提供准确信息和依据。目前,对单个MMR蛋白在EC中的表达及作用机制仍处于探索阶段,需要多学科协作、多中心联合、大样本的临床研究和体外实验性研究,才能充分证实这些关键基因在EC中的作用机制。