乳腺上皮差异表达基因生物信息学分析对乳腺癌的早期诊断价值*
2014-02-28魏熙胤臧凤琳
魏熙胤 臧凤琳
基因芯片技术的迅猛发展使得在同一时间点上检测大量基因的表达水平成为可能,进而从中筛选出差异表达基因,可以帮助人们进一步了解乳腺癌的发病机制。迄今为止,人们对于乳腺癌初始分子特征改变的认识仍然有限。初期癌组织前体的改变逐渐成为研究热点,包括增生病变以及组织学上正常的上皮组织。其中,对乳腺癌上皮组织细胞异常
基因的研究可以弥补人们对乳腺癌发生认识的不足。研究表明,乳腺癌患者的乳腺上皮虽然在组织学上是正常的,但是其中存在一些隐蔽性的异常,而人们对这些异常在癌症发生中的作用却知之甚少[1]。本研究运用基因芯片的方法对乳腺癌患者组织学正常的上皮细胞和正常人的上皮细胞进行生物信息学分析,从中发现异常的基因信号,进而实现对乳腺癌的早期诊断。
1 材料与方法
1.1 芯片数据的获取 数据主要来自2部分。一是Tripathi等[1]使用的数据集GSE9574。该数据集共包括29个样本,全部来源于组织学上正常的显微切割乳腺上皮。其中14个样本来自组织学上正常的乳腺癌上皮,全部为雌激素受体(ER)阳性;另外15个样本来自接受乳房整形切术、无明显乳腺癌特征的患者。提取以上样本的RNA制作芯片,使用af⁃fymetrix的人类基因组U133A芯片(HG-U133A)。二是Gra⁃ham等[2]使用的数据集GSE20437。该数据集中共有42个样本,其中18个样本为组织学上正常的乳腺癌上皮,包括9个ER阳性和9个ER阴性样本;18个样本为乳房整形切除手术的乳腺上皮;6个样本为预防性乳腺癌切除手术的乳腺上皮。提取RNA制作芯片,芯片平台同样为HG-U133A。为了与Tripathi等[1]的数据集合并,只选用GSE20437中9个ER阳性样本和18个乳房整形切除手术样本进行合并。本研究的初始数据集包括23个乳腺癌乳腺上皮样本和33个乳房整形切除术乳腺上皮样本。根据箱线图,将严重偏离总体样本的样本去掉,最终获得19个乳腺癌上皮样本以及25个乳房整形切除术上皮样本。
1.2 芯片数据的处理 原始数据集用R语言软件包进行处理,包括affy和affycoretools。通过RMA算法对原始数据进行背景校正、标准化以及表达值计算。将44例样本打乱3次,抽取35个作为训练集,其余9个作为测试集。第1次的数据集中,训练集包括14个乳腺癌上皮样本和21个乳房整形切除术上皮样本;测试集包括5个乳腺癌上皮样本和4个乳房整形切除术上皮样本;第2次数据集中,训练集包括14个乳腺癌上皮样本和21个乳房整形切除术上皮样本,测试集包括5个乳腺癌上皮样本和4个乳房整形切除术样本;第3次样本集中训练集包括16个乳腺癌上皮样本和19个乳房整形切除术样本,测试集包括3个乳腺癌上皮样本和6个乳房整形切除术样本。使用Limma方法从训练集中筛选P值小于0.05的差异表达基因。将差异表达基因上传至DAVID(http://da⁃vid.abcc.ncifcrf.gov/home.jsp)网站进行通路富集分析。将富集到KEGG以及BioCarta数据库中的基因提取出来,提取在芯片中对应的表达值作为训练模型的特征值。本研究采取的分类方法为SVM在R语言中的e1071软件包。
1.3 预测结果的衡量 本文中选用了3个预测指标来衡量预测方法的准确度,分别为准确度(Ac)、敏感度(Sn)以及特异度(Sp)。计算公式如下:
其中TP、TN、FP、FN分别代表真阳性、真阴性、假阳性以及假阴性。
2 结果
2.1 差异表达基因的获取 第一部分数据的差异表达探针为28个(17个基因),第二部分探针14个(12个基因),第三部分为18个差异表达探针(14个基因)。将这些基因分别富集到KEGG和BioCarta数据库中的信号通路上,从而得到富集到信号通路上的差异表达基因,见表1。
Table 1 The differentially expressed genes enriched in KEGG and BioCarta database表1 在KEGG和BioCarta数据库中富集到的差异表达基因
2.2 分类结果比较 差异表达基因主要富集在转录以及MAPK信号通路上。使用KEGG信号通路中富集到的基因作为特征值建议模型的预测精度优于BioCarta信号通路。将KEGG和BioCarta中富集到的基因合并起来共同作为特征值,其预测精度与将所有差异表达基因作为特征值建立的模型精度一致,见表2,但是特征值却分别从22个缩减到7个,14个缩减到3个,18个缩减到4个。KEGG和Bio⁃Carta中富集到的基因包括JUN、DUSP1、BTG2、FOSB、JUND、E1F1和FOS。
Table 2 Comparison of the accuracy between different methods表2 不同方法的预测精度比较
3 讨论
通过生物信息学的手段对乳腺癌的研究屡见不鲜,如使用基因表达谱对乳腺癌预后的预测,运用生物信息学的手段从乳腺癌和正常细胞系中鉴定融合基因[3],从基因表达模式中预测乳腺癌特征[4]。目前乳腺癌上皮细胞的基因表达谱仅用来提取差异表达基因,比较正常个体与癌症患者在基因表达上的差异以及在信号通路上的富集情况。本研究使用乳腺癌上皮细胞的基因表达谱建立乳腺癌分类模型,并使用通路富集的方法来过滤差异表达基因,从而使目的基因个数在保持预测模型精度不变的情况大大缩减,达到降低干扰的目的,能够更加合理的解释乳腺癌的发病机制。
Tripathi等[1]从14个乳腺癌样本(ER阳性)和15个乳房整形切除术的乳腺上皮细胞基因芯片中获得了127个探针(105个基因)差异表达,其中有三分之二的基因与癌发生有关,并且主要富集在转录、G蛋白相关以及生物运动活性通路和MAPK通路上。Graham等[2]对18个乳腺癌个体(9个ER阳性和9个ER阴性)、19个乳房整形切除术正常个体以及6个预防疾病而进行乳房整形切除术的个体的乳腺上皮细胞进行基因芯片分析,从中获得了98个探针(86个基因)在乳房整形切除术正常个体和乳腺癌个体之间差异表达,而且这86个基因大多富集在与转录相关的通路以及MAPK通路上。
本研究结果显示,差异表达基因主要富集在MAKP和转录相关的信号通路上,与Tripathi等[1]和Graham等[2]的研究结果一致。另外,用KEGG信号通路中富集到的基因作为特征值与BioCarta信号通路中富集到的基因作为特征值相比能更好的对乳腺癌进行分类,这些基因包括JUN、DUSP1、BTG2、FOSB、JUND、E1F1和FOS。基因JUN又称为c-Jun,是第1个细胞原癌基因,在乳腺癌中高表达。基因FOS又称为c-fos,也是原癌基因。研究表明PADI4与EIK-1协同作用导致c-fox在乳腺癌中高表达[5]。Kataoka等[6]提出FOSB在癌症基质中的表达是一个独立的评价癌症预后的指标。有研究表明DUSP1是乳腺孕激素抗增殖和抗炎活动中的一个重要的调节因子[7]。以上均提示本研究模型中的特征基因与乳腺癌高度相关,KEGG和BioCarta中富集到的基因表达水平可作为乳腺癌的早期诊断标准。
[1]Tripathi A,King C,de la Morenas A,et al.Gene expression abnor⁃malities in histologically normal breast epithelium of breast cancer patients[J].Int J Cancer,2008,122(7):1557-1566.
[2]Graham K,de las Morenas A,Tripathi A,et al.Gene expression in histologically normal epithelium from breast cancer patients and from cancer-free prophylactic mastectomy patients shares a similar profile[J].Br J Cancer,2010,102(8):1284-1293.doi:10.1038/sj. bjc.6605576.
[3]Asmann YW,Hossain A,Necela BM,et al.A novel bioinformatics pipeline for identification and characterization of fusion transcripts in breast cancer and normal cell lines[J].Nucleic Acids Res,2011, 39(15):e100.doi:10.1093/nar/gkr362.
[4]Desriac N,Postollec F,Coroller L,et al.Prediction of Bacillus wei⁃henstephanensis acid resistance:The use of gene expression pat⁃terns to select potential biomarkers[J].Int J Food Microbiol,2013, 167(1):80-86.doi:10.1016/j.ijfoodmicro.2013.03.014.
[5] Zhang X,Gamble MJ,Stadler S,et al.Genome-wide analysis re⁃veals PADI4 cooperates with Elk-1 to activate c-Fos expression in breast cancer cells[J].PLoS Genet,2011,7(6):e1002112.doi: 10.1371/journal.pgen.1002112.
[6]Kataoka F,Tsuda H,Arao T,et al.EGRI and FOSB gene expres⁃sions in cancer stroma are independent prognostic indicators for epi⁃thelial ovarian cancer receiving standard therapy[J].Genes Chromo⁃somes Cancer,2012,51(3):300-312.doi:10.1002/gcc.21916.
[7]Chen CC,Hardy DB,Mendelson CR.Progesterone receptor inhibits proliferation of human breast cancer cells via induction of MAPK phosphatase 1(MKP-1/DUSP1)[J].J Biol Chem,2011,286(50): 43091-102.doi:10.1074/jbc.M111.295865.