基于数据整合策略探究肌萎缩侧索硬化症易感基因
2022-05-30杨翊研宋佳玥曾琳琳付学奇
杨翊研, 宋佳玥, 曾琳琳, 付学奇
(1. 吉林大学 校医院, 长春130012; 2. 吉林大学 生命科学学院, Edmond Fischer细胞信号传导实验室, 长春130012)
肌萎缩性侧索硬化症(amyotrophic lateral sclerosis, ALS), 又称运动神经元病, 以上下运动神经元变性为特征, 导致肌肉无力, 最终瘫痪甚至死亡. 近年来, ALS被归为神经肌肉领域, 新的影像学和神经病理学数据表明, 疾病病理中有非运动神经轴参与, 一部分患者有家族性疾病, 并且在神经元功能中有不同程度的基因突变[1], 但ALS的发病机制尚不清楚. 其发病机理的分子机制复杂, 如遗传因素、 氧化应激损伤、 神经递质运输障碍、 蛋白质折叠异常、 线粒体功能障碍、 胶质细胞炎性反应等病理生理过程在ALS过程中均有涉及[2]. 随着基因组测序技术等先进技术平台广泛开发应用, 在越来越多的ALS患者中发现新的致病基因及其突变, 为ALS的早期诊断和临床治疗提供了重要思路和靶点[3].
随着信息化的快速发展, 利用多种数据挖掘工具对医疗和临床大数据进行分析可使传统医学向精准医学转变. 近年来, 生物学相关大数据, 如基因序列分析、 蛋白质相互作用数据、 基因转录组学和蛋白表达数据等增加了疾病基因预测软件的功能, 目前已有多种致病基因预测软件, 如Endeavour[4]、 GLAD4U[5]和ProphNet[6]等, 通过大数据整合, 运用这些软件进行生物学系统分析可预测致病基因. 本文通过一系列数据库和致病基因预测软件对ALS的早期诊断进行预测, 为提高临床决策能力、 精准预防能力和快速治疗提供新的思路和方向.
1 资料与方法
1.1 数据来源
首先, 从在线人类孟德尔遗传(online Mendelian inheritance in man, OMIM)网站获取肌萎缩侧索硬化症的基因数据, 在OMIM.org上的OMIM是关于基因和遗传表型以及二者相互联系的综合信息存储库, 包含了现在已知的所有遗传病和超过15 000个基因信息, 侧重于疾病的表型及与其密切相关的致病基因信息. 同时, OMIM也连接了很多相关和互补的数据库, 为查询疾病和基因提供了便利. OMIM采用自由文本格式, 结构灵活, 以有效的方式搜寻并描述基因和基因表型之间复杂而微妙的关系. OMIM也有衍生的基因表型和遗传表型, 即病态图谱. 表现型系列的建立是为便于观察表现型的遗传异质性. 临床概要特征通过UMLS(unified medical language system)、 人类表型本体、 形态学术语元素和图像链接得到增强. 所有OMIM数据都可下载. OMIM基于专家对生物医学文献的评论综合和总结新的重要信息. 通过文献数据的整合发现, OMIM也在遗传表型的命名和分类中发挥着主导作用. 随着新测序技术的出现, 推测基因表现型关系的报告迅速增加. OMIM工作人员审查与基因相关的新闻源, 并在信息编入OMIM的过程中识别文章[7]. 通过GeneMap即可查询OMIM, 先利用GeneMap获取疾病基因定位的详细资料, 再查询OMIM明确导致特定疾病的特定基因. OMIM系统根据搜索关键词的疾病特征及表型, 整合数据库的相关信息, 从相关基因在染色体中的位置、 基因结构、 表达、 功能以及相关临床病例等信息中综合筛选出50个基因列表文件, 列于表1. 表1返回的所有数据均被证实与肌萎缩侧索硬化症有关, 排名不分先后.
表1 OMIM对肌萎缩侧索硬化症基因排序结果
续表1
1.2 方 法
文献及临床病例证明, 基因突变是很多疾病发生发展的重要因素, 因此致病基因预测方法及其准确性具有重要的科学意义. 目前, 通过已研发的多种致病基因预测软件, 整合多种数据库和文献信息, 可进行致病基因的预测. 近年来大量生物数据的积累已显著提高了疾病基因预测软件的准确性, 已普及多种致病基因预测软件, 如Endeavour、 GLAD4U和ProphNet等, 综合这些软件对数据进行生物学分析并准确预测致病基因已成为生物信息学的通用方法. 为进一步明确肌萎缩侧索硬化症的靶点, 以表1中的50个基因为基础, 用运算软件整合数据库信息, 进一步筛选密切相关的基因.
1) Endeavour软件. Endeavour软件通过跨多个基因组数据源对候选基因进行排序, 并将这种异质性信息整合到全球排名中. 首先通过查阅相关疾病文献或数据库后得到一组训练基因, 其次用一组测试基因根据已获得训练基因特征的相似度进行比对并排行, 最后整合来自各数据库的基因并进行预测和排名, 基于不同标准进行加权统计评分, 得到基因的整体优先级[8]. 将表1的结果作为训练基因, 通过Endeavour软件进行运算, 结果列于表2. 表2中对肌萎缩侧索硬化症基因融合排序前10的结果, 均被证实与该症状相关.
表2 Endeavour对肌萎缩侧索硬化症基因排序结果
2) GLAD4U软件. 基因序列自动生成工具(gene list automatically derived for you, GLAD4U)是一个新的基于网络免费基因检索和排序工具. GLAD4U利用NCBI的现有资源确保计算效率, 可为三个基因本体论(GO)术语和三个疾病术语创建基因列表的质量使用公共数据库中相应的“黄金标准”列表进行评估[5]. 表3为使用GLAD4U工具查询肌萎缩侧索硬化症基因的结果. 表3中所有基因均被证实与肌萎缩侧索硬化症相关, 根据黄金标准排名, 排名从高到低.
表3 GLAD4U对肌萎缩侧索硬化症基因排序结果
3) ProphNet软件. ProphNet软件建立在异构网络上, 先收集不同类型生物实体的数据, 将这些信息全面整合, 再整理筛选出特定类型的实体, 将它们与需要查询集的实体关系程度进行积分排序. 该方法的工作原理是通过网络整合和筛选信息, 查看已传播的查询值和实体目标集之间的相互联系[6]. ProphNet的方法较灵活, 可将相应的数据进行整理和排序, 为科研提供数据支持. 表4为使用ProphNet致病基因预测软件查询肌萎缩侧索硬化症相关基因的结果. 表4中所有基因均被证实与肌萎缩侧索硬化症相关, 排名从高到低.
表4 ProphNet对肌萎缩侧索硬化症基因排序结果
1.3 评定排名标准
分别利用Endeavour、 GLAD4U和ProphNet三种致病基因预测软件, 经数据分析, 整理筛查, 确定3组与ALS相关的基因数据, 将3组数据进行处理、 整合、 排列, 得到基因出现次数≥3的数据即为最终结果.
2 结果与讨论
将OMIM数据库与Endeavour、 GLAD4U、 ProphNet工具软件中查找到的与肌萎缩侧索硬化症高度相关的基因进行整合, 得到一个含有39个与ALS致病相关的基因列表(表5), 其出现次数均≥3次, 通过查找基因相关研究文献后进行验证分析, 结果表明这39个基因均与肌萎缩侧索硬化症密切相关. 将生物学信息与计算机软件相结合, 筛选出更精确的致病基因, 为ALS分子机制的研究提供了新方法, 并且节约了大量查阅文献的时间, 更快速锁定靶点.
表5 OMIM、 Endeavour、 GLAD4U和ProphNet综合分析肌萎缩侧索硬化症基因结果
综上, 本文通过查找OMIM数据库, 利用Endeavour、 GLAD4U、 ProphNet致病基因预测软件对数据进行整合分析和处理, 推测出与肌萎缩侧索硬化症相关的致病基因并进行了验证, 证实以上基因与肌萎缩侧索硬化症的发病及治疗均有重大联系. 其中,TARDBP、SOD1、C9orf72等基因均在ALS中起重要作用, 有望成为基因治疗靶点.
TARDBP是97%的ALS患者在患病组织中表现出共同的表型, 即TAR-DNA结合蛋白TDP-43沉积. TDP-43沉积也是tau阴性额颞叶痴呆(FTD) 的主要特征, 其显示出与ALS临床重叠[9]. 细胞内聚集超氧化物歧化酶1 (SOD1) 是人类家族性肌萎缩侧索硬化的神经病理学特征[80]. 9号染色体开放阅读框72(C9orf72)非编码区的六核苷酸重复扩增是家族性ALS的主要原因[30]. 以上基因均为肌萎缩侧索硬化症的重要发病基因, 肌萎缩侧索硬化症目前尚无有效的治愈方法, 但本文为将来运用基因治疗肌萎缩侧索硬化症提供了一定的理论支持, 通过适当的基因治疗, 可缓解甚至治愈肌萎缩侧索硬化症, 并为预防肌萎缩侧索硬化症提供了基因预测方法.