参考序列数据库构建与数据管理探讨*

2020-11-25孙良龙

医学信息学杂志 2020年8期

郑思孙良龙李姣

(中国医学科学院/北京协和医学院医学信息研究所北京100020)

1 引言

自2003年人类基因组计划全部完成以来，相继启动国际单倍体型计划[1]、国际千人基因组计划[2]、肿瘤基因组图谱计划[3]和环境基因组计划[4]等一系列人类生命健康相关的重大科学研究计划，对基因组学研究、疾病医疗和药物研发等领域产生巨大影响，能够帮助人们从分子水平探索人类起源和疾病发生发展历程，极大地促进疾病预防、诊断和治疗。测序技术发展大大降低测序成本，序列数据呈现爆炸式增长，其以标准格式存储在计算生物学平台或数据库中。然而公共数据库中序列的多样性给研究人员带来挑战，不同实验室或不同研究项目提交的数据存在冗余。例如国际核酸序列联盟(由美国核酸序列数据库GenBank[5]、欧洲核酸数据库ENA[6]和日本DNA序列数据银行DDBJ[7]组成)中序列数据存在很多重复[8]。此外不同个体尤其是不同种族间序列也存在一定差异。因此需要建立一套完整、非冗余、注释信息丰富的核酸和蛋白质参考序列。美国国家生物信息中心(National Center for Biotechnology Information, NCBI)从2000年开始建立参考序列数据库RefSeq，为多种生物提供序列相关的数据信息及资料，10余年来一直是生物学研究领域最具有权威性的序列数据库[9-10]。RefSeq提供一组注释完整、非冗余、可作为参考标准的序列数据，涵盖基因组、转录本和蛋白质，能实现分子类型、版本管理、基因名称等多维度索引，为生物医学、功能基因组和种群多样性研究奠定基础。本文对RefSeq数据特点、产生、服务和应用等方面进行调研，为建立大型参考序列数据库提供参考。

2 参考序列数据库构建

2.1 参考序列数据特点

2.1.1 经过校正的非冗余参考序列集合自2000年首次发布3 446条人类转录物和蛋白质记录数据以来，RefSeq已发展成为涵盖97 407种生物(涵盖病毒、细胞器、原核生物、真核生物等)，28 730 283条核酸序列，157 639 958条蛋白质序列记录的数据库(RefSeq Release 97)。该数据库每天更新，可通过NCBI资源中的Gene库、Nucleotide库、BioProject库、Blast或者NCBI的图形显示访问。

2.1.2 规范化数据编码方式每条参考序列都有稳定数据编号、版本号和整数识别码，涵盖丰富的数据属性，数据模型与其他国际权威核酸序列数据库相兼容。参考序列编码方式由前缀、下划线和注释3部分组成，其中前缀标识序列分子类型，注释部分标识序列审编状态和原始序列来源等。每条参考序列都有完整数据属性，以固定格式存储在数据库中。例如每条序列都准确标注来源物种、物种分类、基因符号和编码蛋白名称、序列组成及特征等。此外Refseq为用户提供参考序列相关的生物数据库的交叉引用，确保可以随时追踪到最新研究进展。

2.2 参考序列数据产生

2.2.1 RefSeq工作流程 RefSeq是由NCBI工作人员及其合作者在对提交到国际核酸序列数据库协作体(International Nucleotide Sequence Database Collaboration, INSDC)的大量冗余序列数据进行收集、审编和注释的基础上而产生的，是对原始序列数据的持续审阅、标注和重新组织。因此RefSeq中的参考序列包含经过补充和更新的序列，也包含一部分经过验证但未经修改的原始序列。NCBI与领域内权威组织开展合作，采用几种不同方法来产生参考序列，具体包括审编通道(Curation Pipeline)，注释通道(Annotation Pipeline)和数据提取通道(GenBank Extraction Pipeline)，见图1。

图1 RefSeq工作流程[11]

2.2.2 开放领域合作 RefSeq积极与领域权威组织开展合作，获取序列、命名法、注释等相关生物学资源。例如数据库中人类参考序列的命名规则是由HUGO基因命名委员会(HUGO Gene Nomenclature Committee, HGNC)提供的。对于外部合作者构建并提交的参考序列，NCBI工作人员会对这些序列进行格式调整或检测明显错误(如注释的CDS区不能编码相应的蛋白)，但不会对其中的注释信息进行额外审编或修改。如果后续验证或实际使用过程中发现这些参考序列存在问题，NCBI会将这些错误信息告知提交者，在数据库的后续版本中进行更新。RefSeq数据库提供网站反馈窗口，可用于启动或修改合作协议。

2.2.3 审编通道通过审核序列比对状态、文献、质量评估检测以及外部合作者提交的数据资源等来产生核酸和蛋白质参考序列。由审编通道产生的序列称为已知参考序列(Known RefSeq)，用NM_,NR_或NP_作为序列前缀标识符。使用规范化的数据审编能极大提高数据利用率[12]。RefSeq中来源于病毒、线粒体、脊椎动物和部分无脊椎动物的参考序列是经过NCBI工作人员审编；而大部分来自细菌、植物和真菌的参考序列数据是由外部合作者审编并提交；还有些序列未进入审编状态。RefSeq在每条参考序列编号的注释部分标明序列审编状态。序列审编流程包括以下几个步骤：首先，结合自动化序列比对和外部合作者提供的信息，初步定义基因和相关序列。其次，评估数据质量并筛选最佳序列，评估过程包括分析命名方法、序列相似性、基因组定位和潜在的克隆错误等。对于通过质量评估的序列，自动分配RefSeq序列编号并标识序列审编状态。最后，开展进一步审编，增加序列相关文献、名称、别名、基因ID以及与其他数据库的交叉链接等关于序列特征的注释信息来产生完整的参考序列，同时进一步更新审编状态。对于没有通过质量评估的序列数据，由NCBI工作人员和外部合作者共同审核来解决数据冲突。因为审编过程中的歧义必须在参考序列数据生成之前解决。该审编过程将提供更详细的序列信息(如去除污染物、扩展UTR区、参考最新文献信息修正序列错误、确定可变剪切位点)和注释信息(增加参考文献、丰富基因和蛋白功能描述、增加成熟蛋白产物等注释特征)。

2.2.4 注释通道采用NCBI的自动化序列注释流程产生参考序列，该过程涵盖将序列比对到基因组，基于序列相似性产生转录本或蛋白产物名称，筛选最优注释模型等。由注释通道产生的序列称为模型化的参考序列(Model RefSeq)，用XM_,XR_或XP_作为序列前缀标识符。对于真核生物基因组注释，NCBI采用一系列计算工具，见表1，建立包含基因组序列输入、基因组序列遮盖处理、审编过的参考基因组序列比对、蛋白和转录本序列比对、基因预测、小RNA注释和筛选最优模型7个模块的分析框架[13]，见图2。最终产生的注释信息包括编码区、保守区、小RNA、变异、基因和蛋白质产物名称等。

图2 真核生物基因组注释流程[13]

表1 真核生物基因组注释相关的预测工具及资源

2.2.5 数据提取通道直接从INSDC提取完整、注释过的原始序列，经过去重、格式修改、验证、增加交叉引用等构建参考序列。提取的序列数据类型可分为4大类：染色体、微生物基因组、小的完整基因组和靶标基因位点。直接来源于INSDC的cDNA或者EST序列也称为已知的参考序列(Known RefSeq)，用NM_,NR_和NP_作为前缀标识符。

2.3 参考序列数据获取与维护

2.3.1 数据获取 RefSeq数据库支持多样化数据检索、查询与获取方式，数据可开放获取，用户使用时不需要认证。(1)基于Entrez检索系统的序列数据查询。支持多种关键词序列数据检索，包括记录名称、相关文献ID、记录ID、带注释的染色体和碱基位置和属性等；支持通过检索结果页的分类导航辅助筛选检索结果；支持构建精细化的检索式并提供可视化的检索式构建工具。(2)基于BLAST的检索查询。支持基于记录号、序列片段的相似性检索。(3)图形化界面检索。检索系统支持用户友好的图形交互界面，支持通过基因组数据浏览器、序列浏览器和基因记录中的图形图像来查看参考序列不同的功能元素注释[16]。(4)FTP下载。

2.3.2 数据维护 RefSeq数据库有完善的管理和维护体系，便于数据汇交、存储与共享。首先，参考序列数据库为用户和项目合作者开放数据构建和使用的反馈窗口。其次，RefSeq数据库处于不断更新状态，更新过程中会保留原有数据条目，便于后续查询和使用。最后，RefSeq数据库具有完善的数据共享机制，项目组参考序列数据与国际上其他权威序列数据库保持同步和更新，不同数据库之间建立相互连接。

2.4 数据应用

RefSeq数据库构建为生物医学、功能基因组学和生物多样性研究奠定基础，但序列注释信息在某些方面与其他数据库还存在差异，需要进行持续更新和完善[17-18]。对于基因组注释、基因识别、特征描述、突变和多态性分析、表达研究和比较分析等，RefSeq中的序列可作为稳定的参考。例如RefSeq中的转录本参考序列对于突变位点的功能预测具有重要作用[18]。此外在实验生物学研究中可以使用RefSeq中的参考序列进行引物设计等[19-20]。

3 大型参考序列数据库建设思考

3.1 概述

近几年我国医疗行业、科研机构及产业界开始开展不同规模的队列研究。随着我国启动基因组数据资源体系与开放共享平台建设，我国人群序列数据汇聚与有效整合，有助于参考基因序列数据库的构建，支撑我国生命科学的发展[21]。RefSeq数据库构建和管理可以为国家大型参考序列数据库构建提供参考。

3.2 构建精细化参考序列，促进我国精准医学发展

通过分析基因组学和蛋白质组学等来测定疾病患者遗传学信息，将其用于指导疾病的预防、诊断和治疗，是精准医学在临床上最直接的应用[22]。这些组学分析技术得以开展的重要基础是一个精细化参考序列的构建。因为不同人种遗传背景存在差异，例如单核苷酸多态性位点及频率差异。RefSeq通过整理、审编和注释核酸序列数据联盟中的原始序列数据，综合考虑不同层面数据，建立信息全面、稳定、非冗余的参考序列。我国是个地域辽阔、人口众多的多民族国家，不同地区、民族之间的基因表型和频率分布往往不同[23]。因此需要通过多中心合作、增加样本人群数量、扩大少数民族在样本人群中的比重等方式来优化采样方法，结合可靠、准确的测序工具及平台，构建符合我国人群遗传特征的精细化的参考序列数据库，促进精准医学发展。

3.3 规范数据处理流程，确保数据质量

我国生物组学数据产量约占全球40%，是数据产出大国。但是不同机构在组学数据采集、生成和分析过程中采用的方法存在差异，导致获取的数据质量参差不齐，甚至包含许多错误数据，极大影响数据解读和有效利用[24-25]。可以参考RefSeq构建一套规范化、涵盖数据审编和注释通道的序列数据处理流程。对于提交的原始序列数据，需要通过质量控制、计算学分析和人工审编才能进入正式使用。处于不同审编阶段的序列数据都加上明确的审编状态标识并附有详细数据来源信息。此外应建立一套完整的数据质量评估标准来发现审编过程中的问题数据，确保数据冲突在参考序列数据生成之前得以解决。例如对于高GC含量、复杂度低和重复序列较多的区域，不同样本之间差异较大，需要建立尽可能涵盖样本差异化的参考序列。

3.4 实现数据统一管理，完善数据服务

RefSeq数据库通过各个模块(如数据提取、存储和浏览平台)的相互协作来实现数据统一管理，通过Entrez检索、FTP、BLAST对比等方式提供数据开放接口，便于科研工作者使用数据。考虑到组学序列数据的复杂多样性，在建立大型参考序列数据资源时需要完善的数据服务平台。首先，对于接收的序列数据，综合不同的测序平台、实验环境等，将数据以统一格式收录到数据仓储中。其次，构建一个数据索引库，为用户提供检索查询、FTP下载、API下载等数据获取方式，确保可以随时追踪到参考序列信息及序列fasta格式的下载等。

4 结语

构建参考序列数据库RefSeq包括具有稳定注释、非冗余基因组、转录本和蛋白质参考序列数据，通过规范的数据处理流程和管理方式为数据质量提供保障。RefSeq为人类基因组功能注解提供基础，为突变分析、基因表达和多态性发现等方向的研究提供参考，对加快推进生物医学和疾病生物学研究具有重要意义。通过分析参考序列数据库构建和管理方式可以为大型参考序列数据库组织和运作提供参考。