人类基因组数据标准化研究
2024-12-31任程许俊王萍萍丁国徽
关键词:人类基因组数据,标准体系,数据管理,共享利用,标准化
DOI编码:10.3969/j.issn.1002-5944.2024.013.006
0 引言
随着高通量测序技术和信息技术的发展,基因检测成本降低、时间缩短,基因组数据正在以PB(1PB=1 024 TB)到EB(1 EB=1 024 PB)的数量级累进,而目前全球每年产生的基因组学数据已接近EB级别[1]。由此,人类进入基因大数据时代,尤其是在精准医疗研究领域,如何通过人工智能、大数据等技术推进数据的管理、汇聚、分析、流通、共享,释放和挖掘数据价值,以及数据安全和隐私保护等问题,实现基因组数据的管理和安全利用,成为目前面临的挑战。
标准化作为经济和社会发展的重要基础和支撑,开展人类基因组数据标准化研究是将标准化手段引入基因组数据的全生命周期管理中,运用标准化手段厘清各个环节的问题以及数据质量的作用和影响,规范数据处理过程,提高人类基因组数据的准确性、可用性和安全性,对推动人类基因组数据相关产业标准化、规范化发展具有重要意义。
1 人类基因组数据相关政策法规
在生物产业方面,《“十四五”生物经济发展规划》提出推动基因检测、生物遗传等先进技术与疾病预防深度融合,开展重大疾病早期筛查,为个体化治疗提供精准解决方案和决策支持[2];《中华人民共和国生物安全法》提出制定和完善生物安全领域相关标准的要求。
在数据管理方面,《中华人民共和国人类遗传资源管理条例》第十三条提出加快标准化、规范化的人类遗传资源保藏基础平台和人类遗传资源大数据建设,为开展相关研究开发活动提供支撑;《科学数据管理办法》规定了科学数据采集、汇交与保存,共享与利用,保密与安全等方面的要求。
在数据安全方面,《中华人民共和国数据安全法》则鼓励数据的开发利用和流动,要求行业组织制定数据安全行为规范和团体标准,积极参与数据安全相关国际规则和标准的制定。《中华人民共和国个人信息保护法》明确了生物信息属于敏感个人信息的范畴,要求推进制定个人信息保护具体规则、标准的工作。《贯彻实施〈国家标准化发展纲要〉行动计划(2024—2025年)》中要求在集成电路、半导体材料、生物技术等关键领域强化关键技术领域标准攻关;加快研制物联网、大数据、云计算等新兴技术与传统产业融合相关标准,健全标准体系。
2 人类基因组数据应用面临的问题
基因组数据包括生物体基因中的分子序列等信息,还包括每个基因的功能、控制基因表达的调节元素以及不同基因和蛋白质之间的相互作用,与人类的遗传、健康、表型和血缘关系密切相连[3],具有唯一性和稳定性的特点。基因组数据已经被广泛应用于科学研究、医疗服务、法律与取证和直接面向消费者服务[3],例如全基因组关联研究、药物基因组学、个性化医疗、身份检测、亲子鉴定等。消费级服务机构通过对基因检测结果的解读也可提供营养健康服务、运动能力评估、遗传缺陷分析、溯源分析等服务。
基因组数据不仅是个人敏感信息,还是人类遗传资源信息,与国家安全相关,使得基因组数据的管理和使用更具挑战性。随着基因组数据的重要性及其呈指数级的数量积累,国内外已经在国家层面实现了对基因数据的统一管理。20世纪80年代,以美国、英国、日本为代表的发达国家已经建立了基因数据存储平台,并逐渐形成了垄断全球生物医学大数据的国际三大生物信息数据中心[4]。我国于2016年依托中国科学院北京基因组研究所建立了国家基因组科学数据中心,旨在面向我国人口健康和社会可持续发展的重大战略需求,建立生命与健康大数据汇交存储、安全管理、开放共享与整合挖掘研究体系,研发大数据前沿交叉与转化应用的新方法和新技术,建成支撑我国生命科学发展、国际领先的基因组科学数据中心[5]。
由于基因组数据的敏感特性,国家层面已实现对基因组科学数据的严格管理,然而,基因组数据应用领域广泛、近年来消费性服务机构的激增,导致数据存储分散、集成困难、数据处理质量堪忧[6],缺乏有效的挖掘技术和安全保护技术,有效管理和共享利用基因组数据资源还面临诸多挑战[4]。
3 人类基因组数据标准化现状
目前,人类基因组数据的研究涉及多个领域的标准化技术组织(见表1)。全国生化检测标准化技术委员会(SAC/TC 387)、全国生物样本标准化技术委员会(SAC/TC 559)制定的标准侧重于生物技术方面,发布了国家标准8项,涵盖生物样本质量、测序方法、基因芯片、数据格式等内容;全国医用临床检验实验室和体外诊断系统标准化技术委员会(SAC/TC 136)制定的国家标准《人全基因组高通量测序数据质量评价方法》(20230028-T-464)正在征求意见。全国刑事技术标准化技术委员会(SAC/TC 179)聚焦法庭科学场景下基因组数据的应用,发布了4项国家标准、1项行业标准,涉及数据库建设、数据结构、亲子鉴定等内容。
在信息技术方面,全国信息技术标准化技术委员会生物特征识别分技术委员会(SAC/TC 28/SC37)于2018年成立基因组识别工作组,发布DNA数据交换格式、高通量测序基因分型系统相关的国家标准2项;随着我国对生物信息安全的重视以及法律法规的完善,全国信息安全标准化技术委员会(SAC/TC 260)发布基因识别数据安全要求、健康医疗数据安全国家标准2项。
从标准的数量及发布渠道来看,目前人类基因组数据相关的标准还是以国家标准为主。已发布的行业标准和地方标准数量较少,包括DB32 /T 4007—2021《肿瘤高通量基因测序技术规范》、DB4403/T 126—2020《基因身份证技术规程》、DB51/ T 2989 —2023《四川省健康医疗大数据应用指南》等。随着行业应用对基因组数据管理、流通、共享需求的增加,近几年团体标准数量呈上升趋势。通过全国团体标准信息平台进行查询,目前已发布的相关团体标准如表2所示。
国际标准化组织ISO/TC 215健康信息学委员会于2019年成立了基因组信息学委员会分会(SC1),负责开展用于组学(包括但不限于基因组学、物质体学和蛋白质组学)的计算数据、信息和知识(包括相应的表示和元数据)的标准化工作,以支持人类健康和临床研究,已发布国际标准12项,在研2项,主要涵盖标记语言、质量控制、可靠性评估、临床数据报告和共享等内容。
目前,国内外标准化技术组织已制定多项基因组数据的标准,从数据的采集到共享应用均有覆盖。ISO标准重点关注临床基因组数据,我国在基因组数据的采集阶段发布的标准较多,且近几年侧重数据的分析、应用、安全等方向。
总体而言,我国人类基因组数据标准化研究处于起步阶段,尽管有些标准化技术组织制定了基因组数据的相关标准,但主要是基于各自的总体行业领域需求出发制定标准,缺乏针对基因组数据与信息技术融合的标准。随着大数据、区块链、人工智能等新一代信息技术在基因组数据应用领域的持续深耕,基因组数据具有了“大数据”的特征,体量大、汇总杂、分析难,基因组产品、服务层出不穷,亟需基因组数据标准体系的宏观认识和顶层设计,为各个重点领域建设提供指导和建议。
4 人类基因组数据标准体系构建
4.1 总体框架
围绕人类基因组数据全生命周期活动过程,结合我国基因组数据管理和应用的业务需求,构建了人类基因组数据标准体系框架(见图1),包括基础标准、数据标准、数据技术标准、管理标准、安全标准和数据应用标准等研究内容。
4.2 基础标准
基础标准定义了人类基因组数据标准的基础性、通用性标准,为其他标准提供支持和总体指导,包括术语定义、分类分级、标准化指南标准。术语定义主要规范生物信息、信息技术等领域涉及的通用术语、专用术语等内容;分类分级主要是明确人类基因组数据的类别和安全等级;标准化指南主要是指导如何构建和利用人类基因组数据标准的指导性文件,规定了人类基因组数据标准体系各项标准的应用领域、使用场景和方法。
4.3 数据标准
数据标准主要规定了人类基因组数据的描述规则和要求,服务数据的存储、检索和共享,包括元数据、数据代码、数据格式、数据质量标准。元数据规定了人类基因组数据的描述方法,以提高不同平台之间的语义互操作性;数据代码规定了人类基因组数据的唯一标识符;数据格式规定了人类基因组数据的格式和结构;数据质量规定了满足人类基因组数据应用准确性、完整性、可用性的数据指标要求。
4.4 数据技术标准
数据技术标准包括数据采集、数据存储、变异分析、数据处理、数据汇交、数据共享、数据交换、数据建模标准。数据采集规定了人类基因组数据的测序方法、生物样本质量等内容;数据存储规定了数据在存储介质中的存储需求、方法和技术;变异分析规定了对人类基因组数据进行基因注释、关联性分析、变异解读的方法和要求;数据处理规定了人类基因组数据预处理、标准化处理的要求和数据质量控制原则;数据汇交规定了人类基因组数据汇交的内容及流程;数据共享规定了人类基因组数据的开放共享程度、流程、方式等内容;数据交换规定了不同数据平台之间以及不同环节之间数据交互的格式与通信协议;数据建模规定了人类基因组数据的抽象组织结构,确定数据库中数据范围、组织形式等。
4.5 管理标准
管理标准包括数据管理、平台管理和项目管理标准。数据管理规定了对人类基因组数据生命周期处理活动、数据交接的管理;平台管理规定了人类基因组数据平台运营环境,包括各种软硬件设施管理;项目管理规定了立项、实施、验收、运维管理等内容。
4.6 数据应用标准
数据应用标准涵盖利用人类基因组数据进行身份检测、谱系分析、亲子鉴定、医疗健康以及其他未列出的应用场景使用的标准。身份检测规定了对个人身份鉴定的技术标准;谱系分析规定了用于确定家族各成员相互关系的标准;亲子鉴定规定了用于确定是否具有亲子关系的标准;医疗健康规定了在医疗健康领域基因检测产品、服务标准以及基因关联性分析等技术标准。
4.7 安全标准
安全标准包括通用安全、数据脱敏、隐私保护和数据使用安全标准。通用安全规定了使用人类基因组数据的系统或平台的物理安全、系统安全、网络安全的保护措施;数据脱敏规定了数据脱敏的技术和测试方法;隐私保护标准规定了对数据主体的隐私信息和敏感信息的保护措施;数据使用安全规定了不同应用场景下的数据访问控制机制。
5 结语
人类基因组数据具有敏感属性及“大数据”特征,需要标准在顶层和各个应用领域提供指导和建议,以进一步促进和规范人类基因组数据创新应用,激发数据要素价值。本文围绕人类基因组数据应用面临的问题,分析和探讨了人类基因组数据标准化现状和需求,建立了包含基础标准、数据标准、数据技术标准、管理标准、安全标准和数据应用标准的人类基因组数据标准体系,为人类基因组数据的有效管理和共享利用提供了重要的基础支撑。
作者简介
任程,硕士研究生,工程师,主要从事标准化研究工作。
许俊,硕士研究生,高级工程师,主要从事标准化研究工作。
王萍萍,硕士研究生,工程师,主要从事标准化研究工作。
丁国徽,通信作者,博士研究生,研究员,主要从事生物信息学、生物医学数据安全研究工作。
(责任编辑:袁文静)