基于数据挖掘分析人组织激肽释放酶家族在结直肠癌中的表达和预后研究
2021-03-22郭佩何宁宁夏玉军
郭佩,何宁宁,夏玉军#
1青岛大学基础医学院,山东 青岛 266071
2烟台毓璜顶医院放射科,山东 烟台 264000
结直肠癌又称大肠癌,是结肠癌和直肠癌的总称,是人类最常见的消化道恶性肿瘤之一。在中国,随着经济水平的提高以及生活方式的改变,结直肠癌的发病率逐年上升。目前,结直肠癌的主要诊断方法包括肠镜检查、磁共振成像(magnetic resonance imaging,MRI)和异常隐窝病灶(aberrant crypt foci,ACF)检查。目前对结直肠癌的早期诊断仍然缺乏一种高敏感性的方法。肿瘤标志物存在于组织、血液、体液和尿液中,对肿瘤的早期诊断、预后和疗效评估具有重要作用。组织激肽释放酶家族(kallikrein-related peptidase,KLK)也称为激肽释放酶,属于丝氨酸蛋白酶,它们广泛存在于机体的各个组织中,主要参与调控心血管、肾脏、神经系统等的生理功能。KLK的异常表达与心脏病、肾病、炎症反应、恶性肿瘤等疾病的发生有着密切联系,尤其是在肿瘤中,KLK异常表达提示其可作为临床上肿瘤早期诊断的标志物。已有研究证明,KLK5、KLK10、KLK11的异常表达与卵巢癌密切相关,KLK6的高表达与胃癌的增殖和迁移密切相关,KLK3可以作为前列腺癌诊断的生物标志物,KLK7的高表达与结肠癌细胞的增殖和侵袭密切相关。虽然人们对KLK与各种恶性肿瘤的关系进行了一些研究,但是对KLK家族基因在结直肠癌中的表达及与预后的关系未进行过系统分析。ONCOMINE数据库是目前世界上最大的肿瘤基因芯片数据库和整合数据提取平台。TCGA数据库是目前世界上最大的肿瘤基因组信息数据库。STRING数据库是一个搜寻蛋白质和蛋白质之间相互作用的系统,以帮助研究人员更加深入地认清相关蛋白质的功能和其调控机制。GEO是功能基因组学的数据存储库,可以查询和下载样本信息以及基因组的表达概况。本研究利用ONCOMINE、TCGA及GEO数据库进行数据挖掘,分析人KLK基因在结直肠癌中的表达和预后意义,以及KLK作为结直肠癌标志物的可能性,为研究KLK基因在结直肠癌发生发展中的作用机制提供线索和思路,现报道如下。
1 材料与方法
1.1 利用ONCOMINE数据库提取数据
在ONCOMINE v4.5数据库中进行注册,获得数据库的使用权限。根据实验要求设定搜索条件,设定筛选条件。①Gene:KLK1-KLK15(依次检索KLK家族的基因);②THRESHOLD(P-VALUE):0.01;③THRESHOLD(FOLD CHANGE):2;④ THRESHOLD(GENE RANK):ALL;⑤ Data Type:All。
1.2 分析TCGA数据库中人KLK 基因在结直肠癌组织和正常结直肠组织中的表达情况
登录TCGA数据库(版本v71),获得人KLK基因在结直肠癌组织和正常结直肠组织中的表达数据。
1.3 分析TCGA数据库中人KLK 基因表达及其与结直肠癌患者预后的关系
登录UALCAN在线分析工具(http://ualcan.path.uab.edu/index.html),选择TCGA数据库的研究,设定筛选条件。①Select Cancer Study:Colorectal cancer;②Select Genomic Profiles:Expression;③Kaplan-Meier生存曲线:Survival。然后以PDF格式导出。
1.4 分析GEO数据库中KLK 基因表达与结直肠癌患者预后的关系
选择GEO数据库(https://www.ncbi.nlm.nih.gov/geo/)的GSE39582系列数据,这个数据库包括585个结直肠癌样本。此数据系列还具有分子亚型分类以及临床生存特征等信息。下载数据库后,利用R软件(https://www.r-project.org/,版本:3.5.3)分析KLK基因表达与结直肠癌患者预后的关系。根据基因的中位表达数,分为高表达和低表达。
1.5 从STRING 数据库中提取KLK6、KLK8和KLK10基因相关的蛋白质-蛋白质作用网络
进入STRING在线数据库(https://string-db.org/),设定查找条件。①基因名称:KLK6、KLK8和KLK10;②物种:homo(人种);③证据来源(active interaction sources):选择实验数据(Experiments)。从而得到KLK基因相关的蛋白质-蛋白质作用网络。
1.6 临床组织的获取
临床组织样本来自于烟台毓璜顶医院,且是在患者知情同意且签署知情同意书的情况下取得的。研究方案得到了青岛大学医学部伦理委员会批准。2018年6月至2019年5月,共收集了24例组织样本,包括20例结直肠癌组织和4例正常结直肠组织。手术之前,患者未进行任何化疗或放疗。在手术切除后,组织样本立即被冷冻在液氮中,保存于-80℃,供后续研究。
1.7 mRNA 提取和定量逆转录聚合酶链反应
根据mirVana miRNAIsolation kit(购自Thermo Fisher Scientific公司)的说明书进行操作,从组织中提取RNA。采用逆转录试剂盒[购自宝生物工程(大连)有限公司]进行cDNA的合成。采用Nanodrop测定cDNA的浓度。产物保存于-80℃,用于下一步的实验。使用试剂盒Power SYBR-Green PCR Master Mix(购自Thermo Fisher Scientific公司)以及适当的引物进行聚合酶链反应,采用ABI7500-fast thermocycler(购自Thermo Fisher Scientific公司)进行实验数据的采集。以甘油醛-3-磷酸脱氢酶(glyceraldehyde-3-phosphate dehydrogenase,GAPDH)作为内参,引物见表1。
表1 KLK和GAPDH基因的引物序列
1.8 统计学分析
采用Graphpad Prism 5及SPSS 24.0软件对数据进行统计分析。不符合正态分布的计量资料以中位数及四分位数[M
(Q
,Q
)]表示,组间比较采用非参数检验;符合正态分布的计量资料以均数±标准差(x-
±s
)表示,组间比较采用t
检验。采用Kaplan-Meier法绘制生存曲线,组间比较采用Logrank检验。采用AdobeIllustrator CS4软件对图片进行整理。以P
<0.05为差异有统计学意义。2 结果
2.1 人KLK 基因在各种肿瘤类型中的表达
在ONCOMINE v4.5数据库中共收集了包括乳腺癌、结直肠癌和肺癌等20个不同肿瘤类型的统计结果。结果显示,KLK6
、KLK8
、KLK10
和KLK11
基因在结直肠癌组织中具有高水平的表达,KLK7
和KLK12
具有相对较高的表达水平,KLK1
和KLK15
具有较低的表达水平。其中KLK6
在13组数据、KLK8
在6组数据,KLK10
在17组数据、KLK11
在10组数据中显示具有高水平的表达(且基因排序超过1%)。(图1)图1 ONCOMINE数据库中人KLK 基因在各种肿瘤类型中的表达情况
2.2 TCGA数据库中人KLK 基因在结直肠癌组织和正常结直肠组织中的表达情况
在TCGA数据库中获取人KLK
基因在结直肠癌组织和正常结直肠组织中的表达结果,对具有显著性差异的数据进行比较分析。结果显示,结直肠癌组织中人KLK6
、KLK7
、KLK8
、KLK10
、KLK11
和KLK12
基因的表达水平均明显高于正常结直肠组织,差异均有统计学意义(P
<0.01)。(表2)表2 TCGA数据库中人KLK基因在结直肠癌组织和正常结直肠组织中的表达情况
2.3 人KLK 基因表达与结直肠癌预后的关系
为进一步明确人KLK
基因表达与结直肠癌预后的关系,本研究利用UALCAN在线工具分析TCGA数据库中人KLK
mRNA表达水平与结直肠癌预后的相关数据。结果表明,KLK
基因表达与结直肠癌预后无关。TCGA数据库包括121例具有预后信息的结直肠癌组织,进一步选择GEO数据库中的GSE39582系列数据,此系列数据包括578例具有预后信息的结直肠癌组织。利用R软件进行数据处理和分析,结果显示,KLK6
、KLK8
、KLK10
和KLK12
基因低表达患者的预后分别优于上述基因高表达的患者,差异均有统计学意义(P
=0.0008、0.0392、0.0013、0.0203)(图2)。图2 人KLK 基因高表达与低表达结直肠癌患者的生存曲线
2.4 临床样本中人KLK 基因在结直肠癌组织和正常结直肠组织中的表达
为进一步验证KLK
基因在结直肠癌组织中的表达情况,对临床收集的20例结直肠癌组织和4例正常结直肠组织进行定量逆转录聚合酶链反应。结果显示,结直肠癌组织中KLK1
基因的表达水平低于正常结直肠组织,KLK6
、KLK7
、KLK8
、KLK10
和KLK11
基因的表达水平均高于正常结直肠组织,差异均有统计学意义(P
<0.05)(表3)。综合数据挖掘结果和临床样本验证的结果,KLK6
、KLK8
和KLK10
基因具有很高的可能性作为结直肠癌标志物。表3 临床样本中人KLK基因在结直肠癌组织和正常结直肠组织中的表达水平
2.5 KLK6、KLK8和KLK10基因相关的蛋白质-蛋白质作用网络
为了进一步明确与KLK6、KLK8和KLK10相互作用的蛋白,通过挖掘STRING数据库构建KLK6、KLK8和KLK10蛋白质-蛋白质作用网络。结果表明,KLK6和5个蛋白[YY1关联因子2(YY1 associated factor 2,YAF2)、α-突触核蛋白(alpha-synuclein,SNCA)、α2-巨球蛋白样蛋白 1(alpha-2-macroglobulin like protein 1,A2ML1)、丝氨酸蛋白酶抑制剂Kazal型5(serine peptidase inhibitor Kazal type 5,SPINK5)和丝氨酸蛋白酶抑制剂Kazal 型 9(serine peptidase inhibitor Kazal type 9,SPINK9)]相关,KLK10 和 2 个蛋白(SPINK5 和KLK8)相关,KLK8和8个蛋白[SPINK5、SPINK9、KLK5、半胱天冬酶 1(caspase-1,CASP1)、半胱天冬酶募集结构域16(caspase recruitment domain 16,CARD16)、丝氨酸蛋白酶抑制剂B6(serine proteinase inhibitor B6,SERPINB6)、丝氨酸蛋白酶抑制剂B5(serine proteinase inhibitor B5,SERPINB5)和KLK10]相关。进一步对KLK6、KLK8和KLK10相关的10个相互作用蛋白的生物学功能进行分析,发现这些相互作用分子主要参与对细胞增殖和凋亡的调节。(图3)
图3 KLK6、KLK8和KLK10基因相关的蛋白质-蛋白质作用网络图
3 讨论
结直肠癌是临床上一种常见的消化道肿瘤,对人类的健康和生命危害极大,并且经常伴随多种并发症。结直肠癌的医学研究一直是肿瘤研究的热点之一。目前治疗结直肠癌的主要方法是外科手术和结肠镜治疗,结直肠癌可经手术治愈,但术后复发转移率高,可达40%~50%。因此,早期发现是治疗结直肠癌的关键,提前发现将会发生癌变的患者是医学的研究重点。发现有效的结直肠癌标志物对了解肿瘤成因及患者预后具有关键作用。
20世纪90年代中期发展起来的基因组学是生物信息学的主要研究内容之一。在病理生理、疾病检测、药物开发、疾病预防和功能基因组方面得到了广泛的应用。在肿瘤研究领域,利用公开的组学数据库寻找肿瘤标志物成为目前科学研究的重要手段之一。本研究通过ONCOMINE数据库的整合分析发现,KLK6、KLK8、KLK10和KLK11基因在结直肠癌组织中具有高水平的表达,KLK7和KLK12基因具有相对较高的表达水平。通过TCGA数据库收集KLK mRNA在结直肠癌组织和正常结直肠组织中的表达水平,结果发现,结直肠癌组织中人 KLK6、KLK7、KLK8、KLK10、KLK11和KLK12基因的表达水平均明显高于正常结直肠组织(P<0.01)。TCGA数据库虽然是目前世界上最大的肿瘤基因组信息数据库,但是它只有121例具有预后信息的结直肠癌组织,因此,本研究进一步选择了GEO数据库中包括578例具有预后信息的结直肠癌组织的GSE39582系列数据进行生存分析,采用Kaplan-Meier法绘制生存曲线。结果发现,KLK6、KLK8、KLK10和KLK12基因低表达患者的预后分别优于上述基因高表达的患者,差异均有统计学意义(P<0.05)。本研究还对临床收集的结直肠癌组织和正常结直肠组织样本中的KLK基因进行检测,结果发现,结直肠癌组织中KLK6、KLK7、KLK8、KLK10和KLK11基因的表达水平均高于正常结直肠组织,差异均有统计学意义(P<0.05)。综合分析,KLK6、KLK8和KLK10基因具有很大的可能性作为结直肠癌标志物。之前的研究已经发现KLK6在结直肠癌中具有较高的表达水平以及靶向KLK6作为结直肠癌治疗策略的可能性。另外,本研究通过挖掘STRING数据库构建了KLK6、KLK8和KLK10基因相关的蛋白质-蛋白质作用网络图。通过分析相关的10个相互作用蛋白的生物学功能,进一步证明了KLK6、KLK8和KLK10对细胞增殖和凋亡具有调节作用。
综上所述,本研究通过对公共数据库中肿瘤相关基因信息和预后信息深入挖掘,发现KLK6、KLK8和KLK10基因在结直肠癌组织中高表达,且与结直肠癌患者的预后有关,将为进一步阐明KLK6、KLK8和KLK10在结直肠癌发生发展中的作用奠定理论基础。