APP下载

基于随机森林算法预测分析绝经妇女骨质疏松症关键lncRNA 及其调控作用

2021-11-27陈敬恒陈凯奇何达东石宇雄

中国医药导报 2021年30期
关键词:靶标骨细胞生物学

陈敬恒 陈凯奇 何达东 石宇雄

广州市番禺区中医院骨伤科,广东广州 511400

绝经妇女骨质疏松症(postmenopausal osteoporosis,PMOP)属Ⅰ型原发性骨质疏松症,主要发病机制为女性绝经后雌激素水平下降,骨量丢失,骨脆性增加,其导致的骨折会极大地增加患者的致残率、病死率,加重社会经济负担,现已成为重要的公共卫生问题[1]。PMOP 发病的本质是成骨、破骨细胞的活动发生紊乱,骨代谢平衡被打破。长链非编码RNA(long noncoding RNA,lncRNA)是不翻译蛋白质的功能性RNA 分子,参与转录调控、转录后调控、表观遗传调控等过程,对机体重要的生物学功能起到调节作用[2]。近年来随着测序技术快速发展,多项研究报道,lncRNA 可能参与调控机体骨代谢平衡[3-5],但目前lncRNA 参与调控PMOP 的分子机制尚不明确。机器学习是通过计算机模拟人类学习过程涉及的概率学、统计学、人工智能的新兴学科,被广泛应用于生物医学领域[6-7]。随机森林算法通过对分类变量进行反复迭代计算评分,生成高准确度分类器,筛选关键变量,常被作为挖掘生物标记物的重要机器学习算法[8]。本研究拟通过随机森林算法筛选PMOP 的关键lncRNA,并通过生物信息学方法预测分析靶标基因及其相关生物学过程,为PMOP 的诊断治疗提供新的靶点方向。

1 材料与方法

1.1 芯片数据获取

从基因表达数据库检索PMOP 患者芯片数据,检索时限为建库至2020 年12 月。下载GSE56815 芯片数据,该芯片基于GPL96 HG-U133A 平台检测,包括40 例PMOP 患者与40 名正常绝经后女性的测序数据。

1.2 校正处理与注释

使用R 语言oligo 软件包[9]对GSE56815 芯片数据进行RMA 基因校正标准化处理,通过Ensemble Gene 97 数据库[10]进行基因重注释,获得基因类型、基因名及探针对应关系,获得lncRNA 表达矩阵。当有多个探针对应同一个基因时,取平均值作为最终表达值。

1.3 随机森林算法筛选关键lncRNA

使用R 语言Randomforest 软件包建立随机森林模型,该模型通过随机生成lncRNA 分类树并对分类结果打分,随后模型会对所有单棵树的分类结果进行统计判定,获得高准确性分类结果。使用Caret 软件包对上述分类结果进行重要性排序,筛选前10 位关键lncRNA。

1.4 靶标基因预测

靶标基因是非编码RNA 参与调控生物学过程的重要中介分子,本研究使用starBase V2.0 数据库[11]进行lncRNA 靶标基因预测分析。将lncRNA 的Gene Symbol 上传至starBase V2.0,设定物种为“Homo sapiens”(人类),运行预测分析,数据库将识别目标lncRNA 并对基于文献、实验验证的靶标基因结果进行汇总。

1.5 蛋白质-蛋白质相互作用(proteinprotein interaction,PPI)分析

生物学过程依赖于遗传物质翻译的蛋白质分子互相协作完成,对共同参与相关生物学过程的基因进行PPI 分析与网络构建,有助于深入理解基因作用关系。借助在线网站STRING V11[12]进行靶标基因PPI 网络构建与分析,将靶标基因上传至STRING 进行分析,下载保存结果。

1.6 信号通路与基因本体论富集分析

预测靶标基因富集的KEGG 信号通路[13]、GO 生物学注释[14]过程,有助于探索lncRNA 调控PMOP 的分子机制。使用clusterProfiler[15]软件包进行GO 富集分析,使用在线数据库KOBAS 3.0[16]进行KEGG 信号通路富集分析,以P <0.05 为差异有统计学意义。

2 结果

2.1 随机森林模型筛选PMOP 关键lncRNA

通过对GSE56815 芯片数据进行校正标准化处理及重注释共识别出其中127 个PMOP 相关lncRNA,筛选重要性排名前10 的关键lncRNA:LINC01963、SNHG32、POLR2J4、WT1-AS、LINC00474、PCOTH、EGOT、LINC01565、LINC01140、LINC01558。见图1。

图1 绝经妇女骨质疏松症长链非编码RNA 重要性随机森林图

2.2 靶标基因预测及lncRNA-靶标基因调控网络构建

将关键lncRNA 整理上传至starBase V2.0 数据库,运行靶标基因预测分析,数据库共识别出LINC01140、LINC01963、PCOTH、POLR2J4、WT1-AS 这5 个lncRNA,其余lncRNA 未有相关靶标基因,将结果导入至网络构建软件Cytoscape 进行lncRNA-靶标基因调控网络构建。见图2。图中菱形节点为lncRNA,圆形节点为靶标基因。

图2 长链非编码RNA-靶标基因调控网络

2.3 PPI 网络构建

共识别出61 个节点(node),存在30 个互作联系(edge),平均节点连接度(degree)为0.98,网络富集置信度为0.0092。将结果导入至Cytoscape,以靶标基因为网络节点,互作联系为节点连线,将无互作关系节点隐去,构建靶标基因PPI 网络。见图3。

图3 蛋白质-蛋白质相互作用网络

2.4 KEGG 信号通路富集分析

靶标基因共富集于52 个KEGG 信号通路,以P<0.05进行筛选,共获得12 个差异显著的信号通路。见表1。

表1 KEGG 信号通路富集分析

2.5 GO 生物学过程富集分析

GO 生物学富集分析结果主要涉及RNA 聚合酶Ⅱ活性、DNA 导向的5’-3’RNA 聚合酶活性、5’-3’RNA 聚合酶活性、RNA 聚合酶活性、肌动蛋白结合、氧化还原酶活性、醛醇-辅酶Ⅱ的氧化还原酶活性、作用于CH-OH 供体的氧化还原酶活性、核苷酸转移酶活性、乙醇脱氢酶活性、辅酶结合、肌动蛋白纤维结合、醛酮还原酶活性,根据富集基因数量及P 值绘制GO 富集柱状图。见图4。

3 讨论

随着现代科学技术的发展,人体各种微观分子功能结构被逐步发现与认知。lncRNA 是一类长度在200 nt 以上、序列特征接近于信使RNA 但不能翻译蛋白质的遗传物质,既往被认为是基因组中的“噪声”“暗物质”,无特殊作用[17]。但近年来伴随着高通量测序技术的发展,研究者认识到lncRNA 广泛分布于遗传信息内,能从转录、转录后、表观遗传修饰等多方面进行遗传信息的调控,参与机体重要生物学过程。越来越多研究[3,18]发现,lncRNA 可能参与调控人体骨吸收-骨形成过程,在骨代谢过程发挥重要调控作用,携带重要遗传信息的lncRNA 可能是诊断及治疗PMOP 的新靶点。

机器学习算法模型目前被应用于多个领域,在研究中体现出较好的预测价值与临床意义[19]。本研究借助随机森林算法,对PMOP 患者芯片数据进行分类树建立与迭代评分,根据重要性大小进行排序,以此筛选出PMOP 关键lncRNA,进而预测分析关键lncRNA靶标基因及其调控网络、PPI、信号通路等分子机制,对lncRNA 调控PMOP 机制展开探索。

成骨细胞-破骨细胞活动是骨代谢过程的本质体现,lncRNA 可能通过信号、导向、诱饵等生物学效应模式[20]参与调控成骨细胞、破骨细胞及骨髓间充质干细胞的分化、增殖等活动,影响骨代谢平衡。研究[21]表明,LINC01140 通过抑制miR-23b 表达,减轻低密度脂蛋白诱导骨髓巨噬细胞炎症反应,骨髓巨噬细胞作为破骨细胞的前体细胞,在炎症反应刺激下可能增强破骨分化趋势,LINC01140 可能是调控破骨分化的转录阻滞物。POLR2J4 是RNA 聚合酶Ⅱ亚家族J4 型,参与转录翻译调控,与多种代谢性疾病的诊断预后密切相关[22]。LINC01963 通过靶向miR-641/TMEFF2 与负责调控细胞基础生命活动的丝裂原活化蛋白激酶信号通路相串扰,参与调控成骨、破骨细胞活动[23-24]。WT1-AS 被认为是多种肿瘤的重要调控因子,通过多途径调控细胞增殖凋亡活动[25-26]。

从富集的GO 过程来看,靶标基因主要集中于细胞层面的RNA 聚合酶、氧化还原酶等酶活性的调控,与上述lncRNA 主要功能活动相一致,通过调控成骨、破骨细胞活动,影响骨代谢平衡。KEGG 信号通路富集结果显示,除了RNA 降解、RNA 聚合酶等转录翻译相关信号通路调控外,靶标基因还富集于甘油酯代谢、半乳糖代谢、氨基酸代谢等活动。Zhao 等[27]通过脂质组学发现,PMOP 小鼠多种脂质代谢活动发生明显变化,且其脂代谢与骨代谢之间存在重要联系。半乳糖代谢与衰老密切相关,D-半乳糖通过诱导氧化应激导致衰老,抑制D-半乳糖代谢活动可改善衰老大鼠的骨代谢活动[28]。

lncRNA 对体内多个生物学过程的调控作用正逐渐被阐明,深入研究lncRNA 在不同疾病发生发展过程中发挥的作用及其分子机制有助于深化对疾病病理机制的理解,为提出更加切实有效的治疗方式提供基础。本研究借助随机森林算法筛选出PMOP 关键lncRNA 并对靶标基因及潜在分子机制进行预测探索,综合分析lncRNA 参与调控成骨细胞、破骨细胞增殖分化活动、遗传物质转录翻译、机体糖脂代谢等活动的可能。目前研究对lncRNA 在机体发挥的作用仍较少,研究手段、水平及范围较有限,希望本研究能为lncRNA 诊断治疗PMOP 提供理论依据与思路方向。

猜你喜欢

靶标骨细胞生物学
调节破骨细胞功能的相关信号分子的研究进展
谷稗的生物学特性和栽培技术
“百灵”一号超音速大机动靶标
初中生物学纠错本的建立与使用
纳米除草剂和靶标生物的相互作用
初中生物学纠错本的建立与使用
骨细胞在正畸牙移动骨重塑中作用的研究进展
复杂场景中航天器靶标的快速识别
骨细胞网络结构对骨形成和骨吸收的影响
前列腺特异性膜抗原为靶标的放射免疫治疗进展