面向临床应用的结核病多维大数据平台建设
2020-07-03万振崔菲菲通信作者
万振,崔菲菲(通信作者)
天津市海河医院信息科 (天津 300350)
结核病是全球由单一病原体感染导致患者死亡的第十大原因[1]。据世界卫生组织估算,目前全球有17亿人感染结核菌,活动性结核患者数量达1 300万[2]。我国的估算结核病新发患者数量为88.9万,估算结核病发病率为63/10万,在30个结核病高负担国家中估算结核病发病率排第28位[3]。全球因结核病死亡人数约157万,病死率为17/10万,我国因结核病死亡人数为3.7万,病死率为2.6/10万(在30个结核病高负担国家中排第29位)[4-5]。同时,结核病患者的耐药情况不容乐观,据世界卫生组织估算,2017年全球利福平耐药结核病患者数量约56万,其中耐多药结核病约占82%。高发病率、高耐药率以及结核/艾滋病双重感染是我国结核病的重要特征,因此,提高结核病的预防、准确诊断及精准治疗水平,对结核病管理及人类健康非常必要。
1 结核病多维大数据平台建设的意义
结核病发病率高,患病群体范围广,已严重影响人类的健康[6]。相较于其他传染性疾病,结核病的特点在影像学上表现为多分布、多形态;在基因组学上表现为多耐药性突变;在临床上表现为疗程长、多复发等。结核病多维大数据平台建设集成多家医疗机构、数据联盟及互联网公共资源的结核病影像、全基因组及诊疗文本数据,综合利用专业的人工标注、机器学习技术和统计分析技术,对数据资源进行结构化处理和功能标注,建立多维度结核病样本库;运用大数据及人工智能技术,构建结核病诊断与治疗预测模型库,可为结核病的诊断、治疗及病理机制研究提供辅助决策支持。
2 主要研究(及开发)的内容
2.1 构建多维结核病数据资源库
结核病数据资源库根据访问与使用人员的不同划分为不同的层级,不同层级的结核病数据资源可供不同的单位和人员进行查询、检索、统计及大数据分析。在基因数据资源库建设方面,系统将建立结核分枝杆菌的基因数据库,并根据临床知识及临床诊疗规范,建立结构化数据采集转换标准方案,保证后续递增入库数据的全面。
2.2 结核病大数据分析与临床结构化方案
在完整全面的结核病数据资源库的基础上,围绕结核病辅助诊断、结核病治疗方案精准推荐等核心内容定位,采用大数据分析技术、人工智能应用技术,建设结核病数据资源库深度分析与挖掘业务应用方案(包括对患者的特征分析、结核病与其他因素的关联分析、结核病诊疗流程节点及诊疗标准研究、诊疗知识库建设、现有基础数据及后续递增入库数据的结构化方案、影像标注方法、基因测序范畴及应用等),充分结合结核病临床实际需要,考虑结核病数据的可用分析点,发现结核病内存数据的规律,保证数据质量。
2.3 提供全面的数据服务
建立结核病数据资源库的最终目的是基于结核病数据资源库的数据为医院医师、政府机构等提供服务;在结核病数据资源库的基础上,针对结核病预防、诊断、治疗的社会化需求,为医院及其他卫生行业设计架构;针对不同层级的人员需求及数据的安全保密要求,提供不同层级的服务,充分发挥大数据自身的价值。
3 系统流程的分析
系统基于结核病基础数据(包含患者的基础信息、病史、临床表现)、手术信息、医嘱信息、影像学检查信息、诊断结论信息、用药信息、实验室化验信息、细菌学检查信息、随访信息、用药信息等,构成全面的结核病数据资源基础数据源,通过对接、导入、抓取及相应的数据清洗、加工等处理,形成结核病数据资源库;基于结核病数据资源库,为临床提供统计分析挖掘和数据分析挖掘服务,辅助进行结核病的诊断及治疗方案推荐。结核病数据资源库及在其上实现的数据统计分析和挖掘功能可以通过一定的手段对外提供数据服务,且与相应的数据抽取技术机制均采用统一的数据管理,见图1。
图1 系统流程的分析
4 数据源及数据获取方式
4.1 数据汇集
数据汇集的主要功能是通过技术手段,从各类基础数据源中获取相应的结核病数据资源库的基础数据,通过移动数据进行清洗、加工、处理等,形成平台的结核病数据资源库。
结核病数据资源库的主要组成部分是以个体病例为索引,包含诊断、化验、治疗以及随访的全部数据,其中既有结构化的数据,也有患者的影像、基因测序等非结构化数据。数据资源库将根据业务的具体要求,建立完整、全息、多维的结核病数据信息库。
数据资源完整性不仅指时间上的完整(包含诊断、化验、治疗、随访等各个业务环节),还指内容上的完整(包括结构化患者的基本信息、诊断信息及影像、基因测序等信息)。
结核病数据资源库是多维的,不仅包含了时间维度(可以保证患者数据时间链的完整,同时可以保证其他数据的时间序列化),还包含了针对结核病防治业务特点及结核病数据资源库的结核病病种维度、治疗效果维度、患者特征维度(如患者职业、性别、年龄等)。
4.2 数据源及数据获取方式
目前,结核病数据资源库的基础数据源主要包括以下几个方面。(1)海河医院数据:天津市海河医院是全国结核病防治重点医院,属于天津市战备医院,结核病防治工作及相应的结核病数据占全市的70%以上,因此,海河医院现有的数据是本平台结核病数据资源库非常重要的数据来源;海河医院有多个信息化应用系统,包括医院信息系统(hospital information system,HIS)、实验室(检验科)信息系统(laboratory information system,LIS)、影像归档和通信系统(picture archiving and communication systems,PACS)、电子病历(electronic medical record,EMR)、手麻、体检等多个存有科研相关电子医疗信息的子系统,虽然患者电子数据完整,但数据存在多个数据库,数据库间结构存在差异,数据整合难度较大;为了解决这个问题,基础数据的获取过程见图2。(2)其他医院数据:由于结核病的诊断、治疗有自身的一些共性,虽然不同医院的信息化应用以及数据结构有所不同,但就结核病而言,整体上基本是相同的,因此,其他医院的基础数据获取可通过具体的分析后,指定相应的数据获取方案。(3)联盟数据:全国结核病医院联盟主要由结核病医院、结防机构、科研院所、高校、企业及相关领域专家组成,现有83家会员单位,包括53家事业单位及30家企业单位;联盟数据包含了全国各地的结核病患者诊断及治疗的有关数据;该数据通过互联网抓取的方式来获取;截至目前,联盟数据中心已有200万条结核病患者的诊疗信息,各类用药、治疗等记录达到上亿条(注意,参与联盟的各医院具有联盟数据的使用权限)。
图2 基础数据的获取过程
5 数据处理
数据处理,首先是采用一定的技术方法从各类数据源获取有关的基础数据,其次是根据结核病数据资源库的特点,形成各有关部分的数据[7]。处理方式如下:(1)标识化处理,由于基础数据质量不一,需要对有些数据字段进行补充等处理,形成以患者标识信息为索引的数据局信息链[8-9];(2)序列化,形成按时间序列的数据链;(3)汇总,由颗粒度小的数据汇总成颗粒度大的数据,供统计分析及挖掘使用;(4)代码转换,基于结核病数据资源库的标准定义,对同样的数据采用相应的编码。
基础数据需经过一定的数据处理,根据不同的功能形成各个数据组成部分,供不同的人员使用。结核病数据资源库主要有以下功能:(1)提供原始的基础数据,即对各种数据来源的基础数据进行处理后,使其具备数据完备性并符合相关技术要求;(2)数据统计,本系统的数据统计分析通常无需明细数据,只需要在基础数据的基础上进行一定的汇总等处理;(3)数据分析挖掘及人工智能应用部分,针对大数据统计分析人工智能应用,由于处理的数据规模大,会采用与传统数据统计分析不同的技术手段,即采用大数据技术架构;(4)数据交换,结核病数据资源库的实现需要继承外部的有关数据,且需要为外部的系统提供数据服务。
6 展望
该数据平台可为各医疗机构、政府机关等单位提供数据分析报告(主要包含定期的结核病发病情况),该报告是通过对数据的加工处理,为相关机构和人员提供宏观及微观层面的结核病数据信息;相关机构和人员可以详细掌控结核病发病、蔓延、防控等有关情况;医师可通过经过处理的数据获取相关的数据及针对具体病例的辅助诊断和治疗方案的推荐,且医师可以查询具体患者的结核病诊断、治疗、随访等有关信息及平台发布的各类分析报告等信息。本系统的用户既可能是互联网用户,也可能是卫生行业用户,因此,为了保证系统访问的高效性、安全性,需要在互联网及专网上均放置数据,且针对不同的数据服务群体,部分数据需要一定的加密处理。
综上所述,结核病多维大数据平台根据临床的需要,结合结核病的临床诊疗规范及医师经验,构建包含全面文本病历信息、随访信息、医学影像数据在内的全息、多维结核病数据库,可确保数据全面、准确、标准、可用,为临床提供基础数据支持;采用数据集成、导入、人工采集等多种方式,从不同的来源和渠道获取相应的结核病基础数据,按照结核病诊断、治疗、预防等特点,通过数据处理,建设结核病完整、全面、层级化的数据资源库,可为结核病的辅助诊断、精准治疗及预防等提供有质量保证的基础数据[10];并以此为基础进行大数据分析,可辅助结核病的诊断及治疗方案推荐。