基于专病队列的重大疾病临床样本生命组学数据库建设

2017-03-21，

中华医学图书情报杂志 2017年6期

，

2016年，国家重点研发计划“精准医学研究”重点专项队列已完成立项的重大疾病专病队列研究包括：高血压、心血管、脑血管、呼吸系统、代谢性疾病、乳腺癌、食管癌、宫颈癌以及罕见病等。按照专病队列研究的要求，各队列所建立的生物样本和数据必须进行共享，数据须及时提交精准医学大数据平台统一管理。

在这个背景下，建立临床样本生命组学数据协作网络和基于队列的重大疾病临床样本生命组学数据库就显得至关重要，起到承前启后的作用。

1 临床样本生命组学数据利用现状分析

1.1 eMERGE平台

美国eMERGE平台(Electronic Medical Records and Genomics Network)是由全美范围内重要的临床医学、生物组学及医学信息学等领域的机构联合研发的协作网络平台[1]。该系统与电子病历的临床表型信息和生物组学信息进行深度融合，产生了重要的科学研究成果，成为国际临床样本生命组学数据平台的典范。截止到2016年4月，通过eMERGE项目积累的引文次数高达1.2万余次[2]。

eMERGE之所以能够产生被广泛关注的研究成果，主要依赖其完善的协作机制、强大的信息技术的支撑、持续的经费支持等。同时，eMERGE项目为各参与单位及产业界提供的大量技术服务及开放共享数据资源，保证了数据共享的积极性、平台的长效运行以及持续的科研创新能力。

1.2 我国疾病队列研究现状

从地域分布上看，我国专病队列研究与美国面临的问题相似。主要表现在专项支持的课题地域覆盖广、参与医疗及科研机构多、涉及的信息系统多以及医学数据类型复杂多样(涵盖临床表型、生化检测、影像资料、系谱和遗传检测等)，这些问题对数据共享和协作机制建立提出了重大挑战[3]。笔者2016年末调研对中国医学科学院下属机构如基础医学研究所等采集的专病队列结果见表1。

表1 重大疾病专病队列调研情况汇总

结果显示，我国重大疾病队列研究令人堪忧。在信息系统建设、数据存储及管理、数据标准化、互操作性接口、术语管理等方面，各课题组的技术水平参差不齐，数据质量问题较为突出，且数据的采集、存储、处理、交换与共享的管理在技术上尚无统一的标准。如何发挥各疾病队列在精准医学研究中的核心支撑作用，研究机构产生的海量临床及组学数据如何融合、开放、共享、并为国家精准医学大数据平台提供数据支撑，是我国精准医学大数据资源整合、存储和利用研究的关键。

2 重大疾病临床样本生命组学数据库建设要求

为了有效解决临床样本及生命组学数据协作共享机制不健全，数据标准及术语缺失，隐私保护及数据安全机制不完善，数据质控体系未建立，多组学数据融合、检索及分析技术欠缺等问题。根据“精准医学研究”重点专项2017年度项目申报指南中3.1.1(简称“指南”)的要求，应建立全国范围重大疾病临床数据协作网络；系统和规模化地收集包括临床表型信息在内的完备的和标准化的临床样本元数据，及其相关基因组、蛋白组、代谢组等生命组学信息，促进临床样本向大数据资源的转化、整合、管理及共享；建立国际级、标准化、可共享和第三方的生物样本多层次生命组学数据库。

3 重大疾病临床样本及生命组学数据库重点建设内容

分析“指南”的要求，笔者认为标准规范建设、生物样本多层次生命组学数据库研发、重大疾病临床样本数据协作网络平台的建设是重大疾病临床亲本及生命组学数据库重点建设的核心内容。涉及关键技术包括：数据质量控制与安全隐私保护技术、临床信息与生命组学数据融合类技术、分布式数据采集-存储-检索-利用技术。重大疾病临床样本生命组学数据协作网络及数据库的建立，不仅为协作单位科研提供支撑，更重要的是为国家精准医疗大数据平台提供临床表型及生命组学数据服务。重点建设内容如图1所示。

图1重大疾病临床样本生命组学数据库建设内容划分

3.1 重大疾病临床信息与组学信息整合标准研究

截止到2016年底，国家卫生计生委已成功制定了电子病历等 277 项卫生信息标准，但国内尚缺乏一套解决不同临床与组学数据及其信息系统之间的数据协作流程、安全管理规范与标准。

借鉴 HL7、SNOMED CT、FHIR、ICD等国际标准，构建符合中国人群疾病队列特点的精准医学数据协作网络的协作模式以及信息处理、管理、安全、隐私、伦理等标准规范体系。规范临床信息与组学信息的收集、存储、共享、应用、管理的全过程，为实现不同疾病队列临床与组学信息在平台上的存储、对接与映射提供标准规范。具体包括：临床表型数据共享标准、临床影像数据共享标准、基因组数据共享标准、代谢组数据共享标准、转录组数据共享标准、蛋白质组数据共享标准、微生物组数据共享标准、表观遗传数据共享标准以及疾病与组学数据关联的结构标准，此外还包括临床数据格式转化、组学数据格式转化、信息脱敏自动化处理、数据安全与加密的技术标准[4]。

3.2 重大疾病临床信息与组学信息融合技术研究

针对临床信息结构化与非结构化并存、疾病表型多样、组学信息数量大、粒度差异大、不同疾病检索需求差别大等特点，分别利用自然语言处理、统计学习、人工智能与数据挖掘技术对临床表型数据进行分析处理，利用基因组学、转录组学最新技术对临床组学数据分析处理，对临床表型数据和组学数据进行PheWAS(Phenome-wide association study)融合计算分析，建立组学-表型相关性网络并实现功能解释，为复杂疾病诊断和治疗等新方法的研究提供帮助和指导[5]。融合技术流程见图2。

图2 重大疾病队列临床信息与生命组学数据融合流程图

3.2.1 中文电子病历处理技术

主要内容如下：研究针对中文电子病历自然语言的预处理方法，如拼写错误、缩写不规范等；基于隐马尔科夫和维特比算法的中文病历词性标注技术、基于词典和词频统计的命名实体识别技术(Named Entity Recognition，NER)、基于中文医学语言的分词方法；研究中文电子病历的上下文句法分析技术，识别否定、时序、实体词作用关系等上下文句法特征；基于概率语言模型、词嵌入的语义分析方法，将中文电子病历中的句子与文档向量化，并蕴含语义信息，在此基础上，运用机器学习方法，挖掘潜在的病理特征。

3.2.2 临床表型本体数据的整合及映射

一是整合多个生物医学本体构建临床表型本体数据库，例如CMeSH(Chinese Medical Subject Headings)，CHPO(Chinese Human Phenotype Ontology)，NHGRI GWAS CATALOG，药物数据库，诊断编码，手术操作编码等[6]。

二是建立机器学习模型将结构化和非结构化的医学数据映射到临床表型本体，基于标准化表型进行计算分析。

三是针对电子病历数据的高维稀疏性、异质性、不完整性、高噪声等特点，研究并应用独热表示、基于句子级别的分布式表示、深度神经网络表示等自然语言处理技术处理分析标准化表型数据，并应用于表型的相关性研究、疾病的并发症分析、病人的分群与识别分析、不同种疾病的预测等工作。

3.2.3 优化组学数据处理流程

一是研究疾病基因组的数据分析流程，优化基于GATK流程的国际通用基因组测序分析软件。具体包括：进行基因组生物序列比对，实现数据质量重校验，基于单倍体的变异检测，以及检测质量评估。

二是研究疾病转录组的数据分析流程，优化基于TopHat-Cufflinks方法的国际通用测序序列基因组、转录组的分析工具。具体流程包括：利用TopHat/bowtie的比对结果及参考基因组构建转录本，对两个或多个转录本集合中转录本相似情况的进行比较，根据构建的转录本与已知数据库中的转录本的相对位置定义一系列分类[7]。

3.2.4 组学-表型融合分析

组学-表型的融合分析(PheWAS)是将组学数据产生的分子标记，如变异、基因表达丰度、代谢物丰度、蛋白质丰度/修饰等，与人体的临床表型进行相关性分析。具体包括：基因组变异-表型相关性分析、基因表达-表型相关性分析、蛋白质-表型相关性分析、代谢物-表型相关性分析。

3.3 临床和组学数据分布式收集、存储、检索、服务关键技术的研究

研究海量医疗元数据语义关联索引组织策略及分布式查询过程中的数据协调调度方法，实现多队列临床样本生命组学数据分布式收集、存储、检索、服务关键技术突破，提供多模态多粒度检索与计算服务。

3.3.1 临床样本生命组学信息收集与存储

由于临床样本与生命组学数据本身呈现多源、异构的性质。同时，每个疾病队列采集数据时的标准与规范不同，在临床样本生命组学信息采集及存储过程中，需采用下列方式：

第一，构建多源异构临床样本与生命组学的通用数据模型(Common Data Model，CDM)。研究基于完备性和冗余性的检验方法，解决 CDM 的可扩展问题。这是数据收集、存储和检索的数据基础，是从不同疾病队列的数据标准向国家精准医疗大数据平台的数据标准转化与映射的关键。

第二，采用前置机技术从不同医院/队列抽取数据，构建原始数据存储库，以分布式数据库存储获取的数据。

3.3.2 海量医疗元数据语义关联索引组织的策略研究

3.3.2.1 构建医疗临床专业语料库和业务模型

通过 SNOMED CT、ICD10、药典库、诊断库形成临床专业语料库，建立临床病历分词的语料基础，构建非结构化分析引擎，实现采用机器学习的方法训练专业语料，通过分词技术及词频统计，对电子病历、检查报告等文字性的源数据进行分析，按词频高低列出在专业语料库未收录的新专业名词，并进行收录，形成符合医疗实际专业语料库，为数据索引存储和查询提供语义关联的基础。同时，利用3.2节融合技术的成果物，并结合临床业务流程，构建业务模型。

3.3.2.2 研究基于语义关联的Solr/ElasticSearch 技术索引组织策略

采用开源的Solr/ElasticSearch技术实现多模态多粒度医疗元数据格式的定义、快速上传和高效索引构建；同时，为了实现在多模态多粒度索引数据上的同步检索，及考虑到各类型数据之间的语义关系，拟利用专业语料库构建各类型索引数据的语义关联网络，并存储于传统关系型数据库中，从而有效提高系统面向语义、支持复杂查询的资源发现能力[8]。

3.3.3 多模态多粒度检索与计算服务

由于临床与组学数据存在逻辑关联性、多模态(指视频、图像、文本等多格式)及多粒度(指时间、疗程、地理位置等多维度)的特点，如何对不同队列数据库进行多模态多粒度检索与计算成为难题。拟采用 Hadoop 技术创建一个多模态多粒度检索与计算服务平台，将用户查询指令转化成一个基于CDM、海量医疗元数据语义关联索引结构、可解释的全局关系查询逻辑表达式，利用关系代数等价变换算法来实现[9]。同时，设计多模态检索策略及多粒度(包括时间、疗程、地理位置等维度)索引，当用户提交的检索需求包含多种模态、多粒度数据的需求约束时，对多种模态数据进行相似性匹配，从构建的多粒度索引中进行检索，并在融合各单项相似性后获得最终的查询-结果相似性，最后得到查询结果排序列表[10]。

3.4 重大疾病临床样本数据协作网络平台及数据库构建

从软件工程的角度，设计并建设重大疾病临床样本生命组学协作网络平台及数据库软硬件支撑环境。系统收集脑血管病、冠心病、糖尿病、食管癌等十几种重大疾病临床样本及其相关组学信息，在标准规范的指导下，利用临床信息及组学信息融合技术以及临床及组学信息分布式收集、存储、检索、服务等关键信息技术，实现临床表型数据、样本元数据和组学数据三位一体的融合与关联，平台总体架构见图3。

图3 重大疾病临床样本生命组学数据协作网络平台总体架构

重大疾病临床样本数据协作网络平台建设需要有一种能够解决分布式、异构与跨平台的方案来满足各协作医疗机构临床与组学数据采集、存储、处理以及利用的要求，同时还要保证各机构内部系统的安全及业务独立性。因此，平台基于SOA(Service Oriented Architecture)架构进行设计，从下到上划分为基础设施环境、大数据中心、支撑系统、示范应用及服务对象五部分。利用分布式数据库实现临床与组学数据的存储加工、关联、汇总，数据存储支持 PB 级。采用中心交换ESB(Enterprise Service Bus)与可定制前置机方式实现各协作单位信息资源采集、整合及共享。

重大疾病临床样本生命组学数据库的设计涵盖临床信息库、电子病历库、组学信息库、人口信息库、队列信息库、语义信息库、行业与社会信息库等众多资源库，其中临床信息库包括病人信息、家族信息、病人治疗史、治疗结果、病人随访、药物反馈、治疗反馈、情况发生、治疗措施、临床观测表、补充记录等；电子病历库包括患者基本信息、医嘱信息、用药信息、诊疗信息等；组学库包括数据来源信息、基因变异信息、遗传模式信息、注释解读信息、数据存储信息等；队列信息库包括治疗位置信息、治疗方式信息、治疗剂量信息等；语义信息库包括语义条目列表、语义条目实体、语义条目关联、药物相关语义、队列相关语义等信息[11]；行业与社会信息库包括宏观经济、地理信息、保险等信息资源。

4 结语

国内针对临床和组学相结合的疾病队列研究刚刚起步，队列之间及其与数据需求单位间并无统一的协作模式与机制，临床与组学信息标准与规范不一致导致数据难以共享，数据量日益增长且缺乏深度融合导致检索与利用困难。因此，亟待建立全国范围的重大疾病临床样本数据协作网络平台，在此过程中，逐步建立国家级、标准化、可共享和第三方的临床样本多层次生命组学数据库，对标国外类似数据库，推动国家精准医疗技术快速突破。本文针对重大疾病临床样本生命组学数据库建设的关键内容进行了概要阐述，希望对同行从业人员有所帮助。当然，协作网络及数据库建设包括的内容非常广泛，临床及组学数据质控、清洗、结构化，患者隐私保护和安全防护等内容都需要重点关注。