健康医疗大数据技术研究及应用前瞻
2018-09-28陈悦曹可建
陈悦 曹可建
一、健康医疗大数据概述
随着物联网、移动互联网、云计算、大数据等新兴信息技术的迅猛发展和普及应用,行业应用系统规模迅速扩大,产生的数据呈现前所未有的爆发式增长态势。2016年6月21日,国务院办公厅发布《国务院办公厅关于促进和规范健康医疗大数据应用发展的指导意见》。部署通过“互联网+健康医疗”探索服务新模式、培育发展新业态,努力建设人民满意的医疗卫生事业,为打造健康中国提供有力支撑。意见中指出要坚持以人为本、创新驱动,规范有序、安全可控,开放融合、共建共享的原则,以保障全体人民健康为出发点,大力推动政府健康医疗信息系统和公众健康医疗数据互联融合、开放共享,积极营造促进健康医疗大数据安全规范、创新应用的发展环境。
健康医疗大数据是指与健康医疗相关,满足大数据基本特征的数据集合,是国家重要的基础性战略资源,正快速发展为新一代信息技术和新型健康医疗服务业态。健康医疗大数据通常可以划分为以下几个方面:以电子健康档案、电子病历、医学影像、检验检查等为主的健康医疗服务数据;基因序列、蛋白质组等生物医学数据;新型农村合作医疗、城镇职工基本医疗保险、城镇居民基本医疗保险等医疗保险数据;药物临床试验、药物筛查、基本药物集中采购、医疗机构药品与疫苗电子监管等医药研发与管理数据;疾病监测、突发公共卫生事件监测、传染病报告等公共卫生数据;患者行为表现、保健品购买记录、健身信息等行为与情绪数据;卫生资源与医疗服务调查、计划生育统计等统计数据;居民婚姻、家庭、计划生育登记等人口管理数据;与人类健康密切相关的空气污染物和气候状况等环境数据。
二、国内外发展现状
2009年,Google比美国疾病控制与预防中心提前1~ 2周预测到了甲型H1N1流感爆发,此事件震惊了医学界和计算机领域的科学家。2012年联合国发布《大数据促进发展:挑战与机遇》白皮书,以推动各国政府机构、重大行业对大数据技术的研究和应用。自2012年开始,美、英、加、澳、日、韩等发达国家相继发布一系列大数据技术研究和发展计划,大力推进大数据研究和应用。2012年美国国立卫生研究院(National Institutes of Health,NIH)成立了大数据转化知识联盟(Big Data to Knowledge,BD2K),该组织关注生物医学研究领域的大数据及其科学整合和最大化。2013年5月英国牛津大学成立了首个综合运用大数据技术的医药卫生科研中心-李嘉诚卫生信息与发现中心。澳大利亚研究基金会(Australian Research Council,ARC)通过卓越研究中心项目对大数据研究进行资助,包括在墨尔本大学投入2000万美元进行数学和统计领域大数据、大模型、新见解卓越研究中心建设,用于开展包括健康在内的社会问题新数据模型研究;资助生物信息学卓越研究中心,研究领域包括生物大数据及其应用。目前不仅欧美国家针对健康医疗大数据推出相应指导文件和建立机构开展研究,包括日本、韩国在内的亚洲国家也相应发布相关大数据战略。
与国外部分发达国家相比,我国大数据发展起步较晚。2015年我国出台《促进大数据发展行动纲要》,提出要构建包括电子健康档案、电子病历的健康医疗服务大数据,建设覆盖公共卫生、医疗服务、医疗保障、药品供应、计划生育和综合管理业务的健康医疗管理和服务大数据应用体系,开展健康医疗大数据创新应用研究。2016年4月国家卫生和计划生育委员会规划司从慧民服务工程、业务协同工程、业务监管工程、平台基础建设工程4个方面分列3级平台必备70项功能,绝大多数均涉及健康医疗大数据应用,健康医疗大数据将成为“十三五”人口健康信息化建设的核心工作。
目前国内外针对健康医疗大数据的研究广泛而多领域,包括生物医学、计算机科学、数学等领域,大数据的应用是医疗健康信息化智能化的最新趋势。而目前国内外还无人对医疗数据形成、医疗数据采集、医疗数据存储、医疗数据传输交互与发布、医疗数据分析到可视化等领域进行系统而全面的综述性研究。因此为了促进我国健康医疗大数据技术的发展,迫切需要系统且全面地综述健康医疗大数据的发展状况,多视角总结最新健康医疗大数据研究技术与学术成果,深度分析健康医疗大数据各种应用场景的技术成熟度及产业化现状,对具有发展潜力的应用场景及其支撑技术提出建议,为促进我国医疗健康大数据的发展提供有力而系统化参考与指导意见。
三、健康医疗大数据技术特征
医疗大数据具有多态性、不完整性、时效性、冗余性、隐私性等特征。
(1)多态性:医疗数据的表达格式包括文本型、数字型和图像型。文本型数据包括人口特征、医嘱、药物使用、临床症状描述等数据;数字型数据包括检验科的生理数据、生化数据、生命体征数据等;图像型数据包括医院中的各种影像学检查如B超、CT、MRI、X光等图像资料。在文本型数据中,数据的表达很难标准化,对病例状态的描述具有主观性,没有统一的标准和要求,甚至对临床数据的解释都是使用非结构化的语言。多态性是医学数据区别于其他领域数据的最根本和最显著的特性。这种特性也在一定程度上加大了医疗数据的分析难度和速度。
(2)不完整性:医疗数据的搜集和处理过程存在脱节,医疗数据库对疾病信息的反映有限。同时,人工记录的数据会存在数据的偏差与残缺,数据的表达、记录有主观上的不确定性。同一种疾病并不可能全面由医学数据反映出来,因此疾病的临床治疗方案并不能通过对数据的分析和挖掘而得出。另外,从长期来看,随着治疗手段和技术手段的发展,新类型的医疗数据被创造出来,数据挖掘的对象的维度是在不停的增长的。
(3)时效性:病人的就诊、疾病的发病过程在时间上有一个进度,医学检测的波形信号(比如说心电、脑电)和图像信号(MRI, CT等)属于时间函数,具有时效性。例如心电信号检测中,短时的心电无法检出某些阵发性信号,而只能通过长期监测的方式实现心脏状态的监测。
(4)冗余性:医疗数据中存在大量的相同或类似信息被记录下来。比如常见疾病的描述信息,与病理特征无关的检查信息。
(5)隐私性:在对医疗数据的数据挖掘中,不可避免的会涉及到患者的隐私信息,这些隐私信息的泄露会对患者的生活造成不良的影响。特别是在移动健康和医疗服务的体系中,将医疗数据和移动健康监测甚至一些网络行为、社交信息整合到一起的时候,医疗数据的隐私泄露带来的危害将更加严重。大数据分析中隐私保护要注意两个方面:其一,用户身份、姓名、地址和疾病等敏感信息的保密;其二,经分析后所得的私人信息的保密。
四、应用前景
医疗健康大数据应用广泛,行业治理、临床科研、公共卫生、管理决策、便民惠民以及产业发展是当前我国健康医疗大数据的六大核心应用。主要表现在疾病预防、临床辅助决策、科学研究、医疗评价、健康管理、个性化治疗、医保支付等多个方面,然而就国内目前的情况来看,医疗健康大数据仍处于探索阶段,在疾病预防、临床决策等方面还有很长的路要走。
行业治理聚焦于体制改革评估、医院管理和医保控费;临床科研方面以临床决策支持最为热门,另外还包括药物研发、精准医疗等方面;公共卫生则在多元化数据检测的基础上,构建重大突发事件预警和应急响应体系,同时探索开展个性化健康管理服务。在应用开发方面,IT 巨头和数据驱动型创新企业各有特点,除此之外,拥有丰富资源的政府和医疗机构也開始扮演重要的角色。
医疗行业的传统数据应用具有重要的参考价值,必须明确的是大数据的发展是建立在已有的技术基础、数据积累之上的拓展。新的信息分析技术和通讯技术为传统的医疗网络应用和数据分析带来了新的思路。