老药新用:基于基因表达谱和Connectivity Map对丹参酮ⅡA药理作用的再认识
2020-10-22杨志旭徐凤芹
盛 松,黄 烨,杨志旭,李 婧,徐凤芹
丹参酮ⅡA(Tanshinone ⅡA,TanⅡA)是从唇形科中药丹参及其同科属植物的根分离提取得到的活性单体成分,为二萜醌类化合物。经体外实验证实TanⅡA主要具有抗血小板聚集、抑制血栓形成、降低血液黏度、扩张冠状动脉、改善心肌供血、减小心肌梗死面积等药理作用,可以治疗动脉粥样硬化、急性冠脉综合征等疾病[1]。目前关于TanⅡA的药理研究主要集中在心血管方面,关于其他方面的研究较少,因此,难以全面评价Tan ⅡA的药理作用。近年来,基于基因表达谱和Connectivity Map(Cmap)对已上市的药物发现新适应证或新用途,进行重评价、重定用途、重新定位治疗方向,已成为一个新的研究热点。相对于传统的药物研究,基于已知药物的重新定位,不仅能够节省药物研发的时间和成本,而且能够扩大药物的应用范围,并对不同药物的作用机制进行横向对比,是一个不可或缺的药物研究方式[2]。目前已经有学者成功应用Cmap验证了抗菌药小檗碱可以作为组蛋白去乙酰化酶(HDAC)抑制剂和哺乳动物雷帕霉素靶蛋白(mTOR)抑制剂发挥抗肿瘤作用[3]。这种成功的先例提示可以把这种方法应用在TanⅡA药理作用的评价和研究当中,具体流程见图1。
图1 研究流程图
1 资料与方法
1.1 GEO数据样本获取与预处理
1.1.1 GEO数据样本获取 从开源数据库GEO(https://www.ncbi.nlm.nih.gov/geo/)中检索与TanⅡA有关的基因芯片,利用R软件的GEOquery包下载GSE85871数据集的CEL格式文件,从中筛选得到GSM2286216、GSM2286217、GSM2286398、GSM2286399共4个MCF7细胞样本的原始基因表达数据。MCF7细胞用MEM/EBSS培养基在37 ℃、5%CO2条件下的培养箱中培养,其中GSM2286216、GSM2286217采用10 μmol/L的TanⅡA处理12 h,GSM2286398、GSM2286399采用等浓度的二甲基亚砜(DMSO)处理12 h作为对照,基因芯片类型为[HG-U133A]Affymetrix Human Genome U133A Array,均采用GPL571芯片分析平台。
1.1.2 数据预处理 首先使用R软件的Affy包读取基因芯片的原始表达值,利用稳健多阵列平均值算法(robust multi-array average,RMA)对原始数据进行标准化处理,包括背景校正、Log2转换、分位数归一化以及数据汇总,利用RColorBrewer和AffyPLM包绘制基因表达数据标准化前后的密度图。然后应用impute包以K近邻法(k-nearest neighbors,KNN)对缺失值进行填补。最后使用annotate包对探针进行批量注释,转换为基因名,对于一个基因名对应多个探针ID时取平均值作为基因表达值,部分没有注释的探针予以删除。
1.2 获取差异基因 设置实验分组:TanⅡA处理组和对照组,通过Limma包使用经验贝叶斯算法(empirical Bayes,eBayes)计算两组差异表达基因的显著性。本研究以P<0.05和|LogFC|≥1.5为阈值筛选TanⅡA的差异基因,分别使用ggplot2和pheatmap包绘制差异基因的火山图和聚类热图。
1.3 基因集富集分析(gene set enrichment analysis,GSEA)与领头亚群分析 参照GSEA网站的用户指南(http://software.broadinstitute.org/gsea/index.jsp/),下载并使用GSEA 3.0软件做GSEA。从GSEA 网站的MsigDB数据库中下载c2.cp.v6.2.symbols.gm作为参照基因集文件,按照default weighted enrichment statistic的方法每次重复分析1 000 次,P<0.05定义为显著富集。领头亚群(leading edge subset)是基因集中对富集作用最大的基因,寻找领头亚群,能够发现在多条信号通路中发挥重要生理作用的基因[4]。导入GSEA分析结果,应用GSEA软件的“leading edge analysis”功能进行领头亚群分析,寻找基因集中差异表达不显著却有重要生物学意义的基因。
1.4 Cmap药物重定位 Cmap(https://www.broadinstitute.org/cmap/)是由美国哈佛大学和麻省理工学院联合开发的数据库,包括1 309种经美国食品药品监督管理局(FDA)批准作用机制已知的药物处理人类细胞系后(不同浓度、不同时间点)的基因表达谱,利用基因表达谱数据比对Cmap中药物分子的化学结构,用于发现作用相似的药物和归纳药物分子可能的作用机制[5]。通过Cmap进行TanⅡA的重定位,首先将获得的差异基因和领头亚群利用Affymetrix网站的batch query在线工具(https://www.affymetrix.com/analysis/netaffx/batch_query.affx?netaffx=netaffx4_annot)转换成为“Affymetrix gene chip Human GenomeU133A Array”标准探针ID,然后在Camp网站的“load signature”界面分别导入上调和下调基因探针ID列表,进行药物重定位。
1.5 差异基因联合领头亚群的基因共表达分析和疾病本体富集分析 一般认为,共表达基因具有相似的生物学功能,基因共表达网络正是基于基因生物学功能相似性而构建的网络,通过该网络可分析基因的相互作用关系,从而了解基因间相互作用脉络及寻找核心基因。使用线上工具Coexpedia(http://www.coexpedia.org/search.php),将分析得到的差异基因和领头亚群构建基因共表达网络,寻找关键基因。疾病本体(disease ontology,DO)富集分析是研究目标基因是否在某个疾病或某一类疾病中富集的一种分析方法,对于研究复杂疾病发病机制、新药研发具有重要作用[6]。因此,本研究应用Coexpedia的“GeneSet Analysis:Disease Ontology”功能进一步做共表达基因DO富集分析。
2 结 果
2.1 差异基因分析结果 基于前述1.1和1.2的操作方法,利用R软件对4个样品(对照组2个,处理组2个)的原始数据进行标准化处理,标准化前后各个样品数据内部的分布状态见图2,其中图Figure A芯片数据分布较散乱,标准化后图Figure B示在芯片间数据集中,有利于后续的分析。以P<0.05和LogFC≥1.5为阈值筛选出TanⅡA的上调基因175个,以P<0.05和LogFC≤-1.5为阈值筛选出TanⅡA的下调基因194个,差异基因共计369个。图3的聚类热图展现了差异大小排名前25位基因的表达量情况,火山图展示差异表达基因的分布情况。
图2 标准化前后密度图
图3 差异基因聚类热图和火山图
2.2 GSEA领头亚群分析 选取领头亚群重叠次数≥0.8×最高重叠次数,即≥10作为阈值共得到10个基因,其中细胞分裂周期基因4个(CDC25A、CDC6、CDC45、CDK2)、微小染色体维持蛋白5个(MCM7、MCM4、MCM5、MCM6、MCM2)、复制蛋白A(RPA1)1个。
2.3 Cmap分析结果 本研究以处理细胞类型相同且score≥0.85为条件,筛选得到药物共22个(见表1),其药理作用涉及心血管、内分泌、呼吸、神经、免疫等多个系统,包括扩血管、抗血小板聚集、降血脂、解热镇痛抗炎、抗菌、抗肿瘤、抗甲状腺、免疫抑制、抗癫痫惊厥、止咳化痰、中毒解救等,提示TanⅡA可能具有与这22种药物相同的药理作用。
表1 Cmap分析结果(score≥0.85)
2.4 差异基因联合领头亚群的基因共表达分析和DO富集分析 得到TanⅡA差异基因和GSEA领头亚群共379个,通过Coexpedia查询并构建共表达网络(见图4)。网络由258个点构成,代表258个共表达基因,线代表基因之间的互作,其中每个score代表该基因与网络的其余基因的共表达关系大小,score越大说明这种关系越大。选出MCM2、MCM4等13个score≥100的基因,即为核心基因(见表2)。运用Coexpedia做共表达基因的DO富集分析,得到DO富集条目192个(P<0.05),显著富集条目70个(P<0.01),DO分析前50富集条目见表3,除了心血管系统疾病(高血压、心肌梗死、动脉粥样硬化等)外,还包括多种肿瘤疾病、呼吸系统疾病(慢性阻塞性肺疾病、肺炎、肺动脉高压等)、炎症性疾病(骨关节炎、关节炎等)、内分泌系统疾病(2型糖尿病、增生性糖尿病视网膜病变等)、免疫系统疾病(IgA肾小球肾炎等)。
图4 基因共表达网络
表2 基因共表达网络中的关键基因(score≥100)
表3 DO分析前50个富集条目
3 讨 论
本研究通过挖掘GEO,对比TanⅡA和DMSO作用于MCF7细胞的表达谱变化,共获得上调基因175个,下调基因194个。但是通过主观界定阈值(如P<0.05,|LogFC|≥1.5等)筛选差异基因可能会遗漏部分差异表达不显著却有重要生物学意义的基因,因此,本研究又通过GSEA领头亚群分析挖掘得到10个重要基因。在随后的Cmap分析筛选得到的药物中,抗菌类药物有5种,即:磺胺苯吡唑、磺胺噻唑、替卡西林、替硝唑、环丙沙星,提示TanⅡA可能具有广谱的抗感染作用,对革兰阳性(G+)菌、革兰阴性(G-)杆菌、厌氧菌、衣原体、原虫均有抑制作用;COX抑制剂有2种,即吲哚美辛、白蒿酮,说明TanⅡA可能抑制COX发挥解热镇痛消炎、抗血小板作用,另外,环氧化酶-2(COX-2)在多种实体瘤中高表达[7],选择性的COX-2抑制剂通过COX-2依赖和COX-2非依赖途径发挥预防和治疗肿瘤的作用,可以抑制细胞增殖,诱导细胞凋亡,抑制血管新生并能够增强化疗药物和放疗的敏感性[8]。另外,去甲二氢愈创木酸在体外实验中可以抑制细胞增殖,促进肿瘤细胞凋亡[9],推测TanⅡA可能通过多种途径抑制肿瘤的发生发展;乌拉地尔对突触后膜α1受体具有阻断作用,降低外周阻力,降低血压;普罗布考通过加速低密度脂蛋白(LDL)分解代谢来降低血总胆固醇(TC)。最近的研究表明,普罗布考可能抑制LDL氧化和组织沉积,从而抑制动脉粥样硬化的发生[10],推测TanⅡA可能具有类似的心血管保护作用。此外,表1显示,免疫抑制、抗癫痫惊厥、止咳化痰、中毒解救、抗过敏、抗甲状腺等也是TanⅡA具有的潜在药理作用。在基因共表达网络中(见图4)筛选出MCM2、MCM4、MCM5、MCM7、MCM6、CDC6、CDC45、C1S、CDC25A、GAS1、CXCL12、CDK2、SNAI2这13个关键基因。其中MCM2、MCM4、MCM5、MCM7、MCM6参与DNA复制启动和DNA损伤修复[11],CDC6、CDC45参与DNA的复制启动[12-13],CDC25A特异性降解损伤DNA[14],CDK2调控细胞周期[15],SNAI2参与肿瘤细胞侵袭迁移等恶性特征的调控[16],GAS1引起细胞周期停滞和细胞凋亡[17],因此,上述基因的表达水平和活性异常可引起基因组不稳定和不完整,影响恶性肿瘤的发生发展。C1S[17]、CXCL12[18]介导免疫、炎症反应,与多种疾病密切相关。TanⅡA主要集中在冠心病、心肌梗死、动脉粥样硬化中,DO分析提示TanⅡA有望在治疗高血压、肿瘤、2型糖尿、肺炎、慢性阻塞性肺疾病、骨关节炎、IgA肾病等其他常见慢性病方面起到一定的作用,有望成为治疗的候选药物,并且为后期的研究提供参考依据。
综上所述,相比传统化学药物,TanⅡA作为一种中药提取物,具有来源广泛、毒副反应小、多靶点调节等优点。因此,基于TanⅡA的药理作用,扩大其治疗应用范围,具有一定的前景,但应用于临床仍需进一步结合临床疗效研究,对其作用机制及药物重定位等做深入、全面的探究分析。