APP下载

Exercise SAGE:基于web的运动基因表达数据库

2022-02-19赵梦迪赵文革

体育科技文献通报 2022年2期
关键词:高通量测序检索

赵梦迪 ,赵文革

1 前言

随着高通量测序技术的发展和测序成本的降低,高通量测序数据不断地产生。目前已经逐渐成为生物学中重要的研究手段之一,在运动科学中也逐渐被采用。基因芯片技术是检测基因表达变化最常用的高通量测序技术,在GEO数据库中产生了大量关于人体运动相关的基因表达芯片数据,但是这些数据还没用被充分利用,合理高效地利用这些数据也成为研究目标之一。

1.1 运动过程中基因表达变化情况

运动过程中机体会根据运动状态和时间的变化产生适应性改变。例如长期的运动可以促进肌肉的生长,同时提高心肺功能。不当的运动则会产生运动损伤和运动疲劳等。如何针对这些问题从分子学角度解决还需进一步探究,关于运动背后的分子机制还有许多问题有待阐明。

目前,关于肌肉细胞如何适应运动过程的分子机制的研究不多。先前研究表明,运动会导致肌肉细胞中代谢基因的mRNA表达量发生变化[1-4],这说明在人体运动的过程中,也存在着基因的表达调控。有些基因在运动过程中迅速升高[5],而有些基因在运动的过程中则缓慢升高。但仍有很多基因在运动过程中的变化情况并不明确[5-6]。

1.2 基因表达芯片

基因芯片(Gene Chip)通常指DNA芯片,其核心的技术是把需要检测的核苷酸固定到芯片上,利用检测的样品会跟核苷酸探针杂交互补,杂交互补之后会产生荧光信号,通过检测荧光信号的强弱可以判定样品中相应探针靶标基因的数量[7]。基因芯片的广泛使用主要得益于探针高通量设计、探针合成和荧光检测等技术的发展,使得同时可以高通量的检测数以万计的探针靶标,从而可以对样本中的靶分子进行灵活准确的检测变成现实[8]。在过去的十几年中,基因芯片被应用到各个领域中,在运动人体科学中,其主要被用来检测不同的运动对基因表达的影响[9],运动过程中基因随时间的变化[10]以及老人儿童妇女、病人等特殊人体在运动中产生的基因表达变化[11-13]。

1.3 Web数据库

Web技术是互联网发展中重要的技术之一,而Web数据库指在网络中通过Web界面去访问数据库中的数据。目前的Web已经不再仅局限于提供信息,而是可以实现交互式查询及web数据库服务[14]。Web数据库就是将数据库储存大量数据的特点和Web技术的灵活方便的特点结合在一起,使得数据库系统作为Web储存数据的重要组成部分,实现了数据库与网络技术的完美组合。Web数据库的组成并不是简单的数据库和Web技术的组合,其目前已经发展完善,并成为很多网站搭建的模型。其主要由4部分组成,最底层的是储存数据的数据库(Database)、中间插件(Middle Ware)、Web服务器(Websever)和面向用户的浏览器(Browser)。工作的原理我们可以简单描述为,用户通过浏览器查询相关内容,查询的内容通过Web服务器访问数据库,最后查询到的结果通过网页的方式展现给用户,完成检索过程[15]。

2 材料和方法:

2.1 数据来源

数据来源于GEO数据库中的GSE43856[16]的骨骼肌样品数据。样品分为四组(运动前0h、运动后3h、48h、96h),每组进行8次生物学重复,芯片采用的是Illumina HT12 version 3。

2.2 数据处理

(1)为消除组间数据可能由于测序深度的不同导致的误差,将32组数据多个基因的表达量进行均一化处理。

(2)对每组的8个数据进行平均数及标准差计算。

(3)根据基因的表达量制作数据库中的相应的表文件。

2.3 网站的搭建

采用APPsever(version7.5.10)进行网站搭建,同时配置相关的数据库用户,界面网站制作工具为phpcms(version 9)。用超文本预处理器(PHP)语言构造ExerciseSAGE网页,并在Linux系统(CentOS 6.4)中运行。所有数据存储在MySQL数据库(5.1.66),标签序列储存在excel表格中,可直接下载。

3 结果与分析

3.1 ExerciseSAGE数据库系统的构建

本研究构建的运动基因表达数据库,运行环境为linux操作系统,使用Apache服务器作为Web服务器,数据存储在MySQL数据库中一个表中,采用PHP语言实现用户在数据库中的检索,最终在Web中输入检索对象并输出检索结果,展示给用户[15,17]。

图一展示了ExerciseSAGE数据库构建的框架。首先,从GEO数据库中下载得到运动前0h,运动后3h,48h,96h骨骼肌的基因表达芯片,然后数据经过处理即作为数据库中的原始数据。检索系统中主要包括,通过基因的关键词检索,或者通过基因编号、标签序列、基因表达量、染色体位置、Entrez ID编号、基因功能等进行组合查询。查询的结果主要展示的有:基因的编号、Tag序列、0h表达量、3h表达量、48h表达量、96h表达量、基因的描述、染色体及其位置信息、Entrez ID编号和Ontology注释信息。

图一 ExerciseSAGE数据库构建

3.2 利用ExerciseSAGE数据库查询相关基因在运动过程中变化情况

ExerciseSAGE数据库网站是一个使用简单方便的web数据库网站。主要由6部分组成:主页、基因检索、方法、数据下载、问题反馈。

使用者可以通过www.tsrna.org访问ExerciseSAGE数据库。主页包含对ExerciseSAGE介绍(图二)。通过对ExerciseSAGE的整体框架的了解可以方便快速地进入基因检索页面。

图二 ExerciseSAGE主页

网站查询页可以根据用户的输入查询特定的基因用以分析运动后不同时期的基因表达量。输入选项包括基因名称,标签序列,基因ID,染色体,基因本体论,基因表达量范围(图三)等。以ACTN3基因为例,查找ACTN3基因在运动前后的动态变化过程。

图三 ExerciseSAGE查询页

之前的研究证实ACTN3是运动过程中最主要的候选基因之一,这个基因的功能主要与骨骼肌的爆发力相关。通常而言,在耐力运动项目中拥有ACTN3基因的比例为50%左右,跟普通人群中的比例没有明显差别。通过检测参加奥运会中与爆发力有关的项目(如短跑、跳远等)高水平的运动员中正常ACTN3基因的携带比例达到95%,而在一些个别项目的女运动员中有100%携带[18-19]。直接可以在关键词检索中输入“ACTN3”,点击检索,页面下方出现了一条基因,即ACTN3,我们可以看到其基因编号NM_001104.1(图四),基因芯片中使用的标签序列为“TGGACTACGTGGCCTTCTCCAGTGCCCTCTATGGGGAGAGCGACCTTTGA”,以及在运动前0h、运动后3h、48h、96h分别对应的基因的表达量(reads数目)是1811、2022、1142、1336,后面依次是基因描述为“Homo sapiens actin,alpha 3(ACTN3),mRNA.”,所在染色体的位置为11号染色体6608719位置,Entrez ID编号是89,以及基因本体的注释是“A filamentous structure formed of a two-stranded helical polymer of the protein actin and associated proteins.Actin filaments are a major component of the contractile apparatus of skeletal muscle and the microfilaments of the cytoskeleton of eukaryotic”(图四)。另外,Entrez ID也设置了超链接,可以点击链接到NCBI的genbank数据库中。因此可以利用外部数据库NCBI和UCSC(图五)工具做进一步分析。

图四 ACTN3检索结果

图五 ACTN3链接到UCSC

同时根据基因组所在的位置,我们也可以链接到UCSC基因组浏览器中进一步分析此基因。此外,数据库中还包含了584条miRNA和约855条长链非编码RNA。

另外通过检索页也可以检索标签序列的表达数量。这是从表达水平上对基因搜索进行检索,可以去查询一些表达量很低或者很高的基因。还可以进行一些特征的组合检索,例如,在运动后3小时,标签序列数量大于2000,基因功能为“skeletal muscle”,在11号染色体上,检索结果图中有目标基因ACTN3(图六)。这样可以快速定位某一类特征的基因。

图六 组合检索ACTN3

4 小结及展望

运动基因表达数据库是一个收集关于运动过程中和运动后转录本分析的数据库,它在一个非常灵活的平台上构建。除了静态数据分析,我们利用SAGE数据提取了运动后不同时间点的不同转录本表达量的信息。目前正在收集更多的数据去分析关于不同运动类型、不同模式动物(大鼠、小鼠)等的动态基因表达情况,这些信息将会在下一版本的ExerciseSAGE数据库中展示。在当前版本中,转录本数据主要是以表格的方式进行呈现,不利于直观的比较,后续的版本中,我们将会增加图形化展示,同时,为了跟其他数据更好的联合分析,也会增加SAGE数据直接在UCSC基因组浏览器上的展示。ExerciseSAGE的长期科学的目标是作为一个集中的数据展示分析平台去探索发现运动过程中肌肉细胞动态的基因表达变化,以及这些变化所反映的背后的生理机制。

猜你喜欢

高通量测序检索
高通量卫星服务专用网络的应用模式探索
高通量血液透析治疗老年慢性肾衰竭对治疗有效率、Hb及ALB指标的影响研究
新一代高通量二代测序技术诊断耐药结核病的临床意义
高通量卫星通信综述
宏基因组测序辅助诊断原发性肺隐球菌
生物测序走在前
CNKI检索模式结合关键词选取在检索中的应用探讨
通过实际案例谈如何利用外文库检索提高检索效率
瑞典专利数据库的检索技巧
基因测序技术研究进展