大数据解码“生死簿”
2018-08-01尤蕾
尤蕾
在一个个黑色“箱子”里,存储的是数据,但这一组组数据拼接起来,就是有血有肉的人。你可以说,这些海量数据就是组成生命的密码。在这个万物相生相克的世界里,有矛就有盾,有锁就有钥匙,生命历程亦不例外。一直以来,人们不遗余力地在破解着生命的密码簿。
在偌大的展厅里、巨大的屏幕上,演绎着每一个人必经的生命之路,从新生到垂暮。在这里,你看到的不仅仅是向死而生的自然规律,还有未来人类的健康愿景,专属的生命密码簿将伴随一生,为自己的健康做主。
眺望了美好的未来,回到现实,不得不承认,医疗健康行业面临着巨大挑战,人口老龄化对医疗资源的迫切需求、急剧升高的医疗支出、医疗资源的配置不均、医务人员的巨大缺口……然而,互联网浪潮裹挟着大数据时代而来,比较优势显而易见:医疗健康机构采用大数据可以有效地帮助医生进行更准确的临床诊断;更精确地预测治疗方案的成本与疗效;整合病人基因信息进行个性化治疗;分析人口健康数据预测疾病暴发等。利用大数据技术还能有效减少医疗成本,麦肯锡全球研究院预计使用大数据分析技术每年为美国节省3000亿美元开支。
东部中心先行者
2016年6月,国务院办公厅印发《关于促进和规范健康医疗大数据应用发展的指导意见》(以下简称《指导意见》),《指导意见》提出,健康医疗大数据是国家重要的基础性战略资源,要大力推动政府健康医疗信息系统和公众健康医疗数据互联融合、开放共享,消除信息孤岛,积极营造促进健康医疗大数据安全规范、创新应用的发展环境,通过“互联网+健康医疗”探索服务新模式、培育发展新业态,努力建设人民满意的医疗卫生事业,为打造健康中国、全面建成小康社会和实现中华民族伟大复兴的中国梦提供有力支撑。
为推动国家健康医疗大数据应用发展,国家卫生健康委员会(以下均称国家卫健委)启动国家健康医疗大数据中心暨产业园试点项目建设,确定了国家健康医疗大数据中心建设总体布局,指定福建省、江苏省及福州、厦门、南京、常州为健康医疗大数据中心与产业园建设国家试点工程第一批试点省市,山东、安徽、贵州三个省将成为第二批试点省份。
同年,南京市江北新区被江苏省卫计委(今江苏省卫健委)选为“国家健康医疗大数据中心与产业园建设国家试点工程第一批试点”项目试点建设场地,扬子国资投资集团负责承接整体产业园建设运营,杰若创信息科技有限公司(以下简称杰若创)作为技术执行方受托承接国家健康医疗大数据(东部)中心”的建设、管理及运营等工作。10月,“国家健康医疗大数据(东部)中心”(以下均称南京中心)正式揭牌启动,大数据中心将作为全国建立的首个健康医疗大数据中心,从公共卫生、临床诊疗、多组学基因三大方向出发,构建统一权威、互联互通的人口健康医疗信息平台,并培育“互联网+健康医疗”新业态。
作为第一批“国家健康医疗大数据中心”的技术团队,杰若创参与整合江苏省8000万人口的健康医疗档案和电子病历,以及存储全省174家三级医院的影像资料,未来将逐步覆盖至华东地区3亿人群。目前,南京中心囊括了存储中心、应用中心和展示中心三部分,据杰若创执行董事刘健介绍,存储数据量已经达到52PB(petabyte,较高级存储单位),配置2340 TFLOPS的超算设备,可提供达到国家4级安全要求的7×24小时服务,“这一规模在国际上也是领先的”。2018年5月26日,杰若创与世界排名第一的存储技术提供方戴尔易安信DELLE MC共同成立了“杰若创-戴尔易安信技术创新联合实验室”并揭牌。
动辄百万PB的数据存储,注定了传统的IT框架已经无法适用于中心的日常运维。为此,杰若创设计搭建了兼顾数据安全与产业化应用,能够同时满足多类型复杂业务部署实施的现代化基础设施架构,并从健康医疗领域行业的数据特点出发,结合最新计算机平台服务技术,研发出适用于多组学数据应用、临床诊疗数据和公共卫生数据管理等各种复杂应用场景的公共服务平台,有效配置与利用资源,动态有效地处理数据在存储设备间、计算设备间、存储与计算设备间的流动问题,避免数据坟场的出现。
正如刘健在接受《小康》记者采访时所述,如何让数据变得有价值才是更为关键的一步。在医疗大数据的深层挖掘及分析上,杰若创开展研发基于基因组大数据的数据挖掘与机器学习的解决方案,开创性地进行多组学数据挖掘的基础技术研发工作,让健康医疗大数据真正有效地“活”起来。
搭建一个“共享平台”,是目前杰若创为国内众多生物信息公司起步与发展提供的服务内容之一。“我们还是要挖掘出數据的价值,在一个标准下建立数据之间的关系,把数据整理成一个有用的形式。否则,标准不一样,大家用起来也会不方便。”刘健表示。
同时,杰若创也承接了“百万人群全基因组测序计划”,负责全亚洲第一通量的基因测序公共平台的数据处理、为大量生信企业提供各项差异性需求的解决方案。据了解,南京中心已购置50台基因检测设备,引进多家一流的基因测序企业入驻,包括诺禾致源、云健康基因、世和基因等一流的基因测序企业,年测序能力达40万—50万人次。
大数据应用逐渐释放红利
健康医疗大数据涵盖人的全生命周期,既包括个人健康,又涉及医药服务、疾病防控、健康保障和食品安全、养生保健等多方面数据的汇聚和聚合。健康医疗大数据是国家重要的基础性战略资源,是健康中国建设的重要支撑。
“目前整体医疗大数据市场应用度较高地集中在数据挖掘、机器深度学习领域,大数据分析为许多医学难题的解决提供了新途径,改变了一些疾病诊断方式。疾病的风险管理和医学影像是最热门的两大应用场景。”刘健表示,大数据可以挖掘出大量以往的相似疾病案例,通过分析这些诊断数据,对疑难杂症进行快速判别。此外,还可以利用图像处理技术,将数据建模成为一个虚拟实体,通过设置不同的参数,模拟观察各类手术或者药物对患者机能造成的影响,从而在诊疗之前就对诊疗后疾病可能的走势做出预测,为获取疾病诊治方法提供了手段。
显然,大数据应用现在已然开始在逐渐释放红利。时任国家卫计委副主任金小桃曾对此表示,大数据不断增强“自主健康”服务体验,让健康数据“多跑路”,让人民群众“少跑腿”。从现在已有的实践看,互联网健康咨询、网上预约分诊、移动支付和检查检验结果查询、随访跟踪等应用,都给老百姓带来更加便捷的应用服务,患者可在网上完成预约挂号、远程候诊,并通过智能终端实现诊间支付、报告查询,较好地解决了排长队、花很长时间才能完成就诊过程等问题。
随着健康医疗大数据的应用与发展,大数据技术与健康医疗服务深度融合应用,使得大医院、大医生的知识和能力通过数字化的手段传递到基层、偏远和欠发达地区,促进分级诊疗制度的有效落实。同时,通过分级诊療平台和协同平台以及区域影像中心、区域心电中心、区域病理中心、区域检验中心、区域远程中心的建立,有效提升了基层医疗机构的服务能力。运用“互联网+”和健康医疗大数据的支撑,方便患者获得优质、高效、便捷的服务。
事实上,人们现在感知最为深刻的远程会诊、预约挂号、移动支付等现代化就诊服务仅仅是大数据应用的小小“一角”。 一个不可忽视的现实问题是,毕竟,健康医疗大数据的应用还处于起步阶段,它在医院系统化管理、辅助诊疗、虚拟助理、健康管理、药物挖掘等领域均有涉足,但市场成熟度依然较低,未来应用还需时日。
“通过大数据分析应用,推动覆盖全生命周期的预防、治疗、康复和健康管理的一体化健康服务,这是未来健康服务管理的新趋势。”中国工程院院士李兰娟介绍,按照规划,我国将建立覆盖13亿人的电子健康档案,这将是世界上独一无二、最大规模的健康大数据。该电子健康档案将记录从出生到临终全生命周期的大数据,让人们进行自我健康管理的同时,还可以更好地找到疾病的相关性及规律,并进行精准治疗。此外,在各级卫生与健康数据中心及集成平台的支撑下,人们在家中通过网络就能完成健康咨询,利用移动APP、可穿戴设备等物联网设备进行数据的连续监测与共享,并通过数据分析辅助医疗诊断。据了解,目前,我国已经有借助手机和云端的糖尿病管理平台和高血压病管理平台,专家可以实时分析个体的血糖波动、药物疗效等情况,给出诊断及用药建议,这就意味着依靠大数据在健康管理领域迈出了重要一步。
大数据在未来不仅能够将医生从繁重的工作中解放出来,让他们减轻重复性劳动而专攻疑难杂症突破医学难题,还能够在检测药品不良反应方面展露锋芒。上市后,药品不良反应监测分为主动监测和被动检测。被动检测依赖于医生、患者、制药公司提供的不良反应报告,而主动监测则侧重医疗数据的挖掘技术,利用文本挖掘、数据挖掘技术从EHR、EMR、社交网络、搜索引擎中发现潜在药品导致不良反应事件。据刘健介绍,当药物使用与不良反应存在低频率的因果关系时,一般的数据挖掘算法将难以分辨因果关系和偶然事件,基于预认知决策模型(RPD model)设计了多种算法用以发现药品不良反应中的低频因果关系。
此外,卫生部门还将依托于大数据,完善传染病、疫情等预警机制,创新慢性病管理模式,促进慢病诊治更科学化、精准化。
寻找分享性与安全性的平衡点
与其他大数据显著不同的是,健康医疗大数据采自每一个人,涉及到了人们最隐私的部分。在健康医疗大数据蓬勃发展的同时,安全性问题显得尤为重要,在个人隐私面前,还是要“踩刹车”,谨慎慢行。
美国在2016年—2017年间曾经发生数起健康医疗数据泄漏事件。暗网黑客组织TDO三次非法入侵并公布了18万份患者病历;在暗网上有超过50万份儿童病历可供下载,病历中包含了儿童及其父母的姓名、社会保险号、电话和住址;超过91.8万份老年人个人健康数据被泄露;Denton心脏医疗集团备份了7年电子病历数据的未加密硬盘被盗,包括从2009年到2016年间患者姓名、出生日期、住址、电话、驾照号码、医生姓名、保险、诊所账号、病历信息、检验结果以及用药信息等数据……
在大数据时代,如何保护信息安全与个人隐私?
“数据的安全性,永远不是一个点的问题。”刘健介绍道,保护隐私,从数据采集时就应该考虑这个问题,可以说这是一个系统工程。就南京中心而言,随着大数据的建立,安全防护工作就在同步进行。目前南京中心已经建成四级保护等级,是江苏省第二个认证的四级保护,第一个是国家电网调度中心。杰若创首席执行官管晓寅补充道,从数据使用的角度看,在科研或产业应用上,可能并不需要知道个人的信息,而是寻求更高层面上的规律,“通过我们这个平台对数据进行管理,比如对外提供一些接口或算法,保证产业化用户只获取他们需要的规律,而非个人信息”。
诚如刘健所言,分享性与安全性本身就是一对矛盾。在解决安全性问题上,南京中心采取了数据分级保护,这就意味着,原始数据肯定不会被拿出去用,而是进行数据“脱敏”。这与国家卫健委的要求高度一致,金小桃也特别强调,做好个人隐私数据的 “脱敏”、“去标识化”,才能就某一种疾病进行大数据的挖掘分析,在应用和研究时只能看到群体差异化特征,阻止对个体化信息的开发使用。另外,南京中心还追求“最小化”原则,通俗解释即能不给出去的就不给出去,可以在这个平台上进行分析,客户获得的是分析结果,而原始数据始终留在中心。
在企业探索数据安全的模式的同时,大数据安全也引起了国家卫健委的高度重视。在《人口健康信息管理办法(试行)》的基础上,依据《中华人民共和国网络安全法》,国家卫健委正编制《健康医疗大数据安全管理办法》。一方面要推进网络可信体系建设,包括强化健康医疗数字身份管理,建设全国统一标识的医疗卫生人员和医疗卫生机构可信医学数字身份、电子实名认证等。另一方面是加强健康医疗数据安全保障,开展大数据平台及服务商的可靠性、可控性和安全性评测,以及应用的安全性评测和风险评估。
值得注意的另一个问题则是,数据采集范围广、维度高、类型种类繁多、持续、快速增长的海量数据、不同格式数据、丰富多元化的语义数据等医疗大数据特性,都对于数据的统一存储、管理、分析应用上存在众多需要挑战突破的方向。
在刘健看来,目前大数据收集也因种种现实因素遭到掣肘。在一些小医院,数据就存在医生的电脑中,当数据满了就会被删掉。相对而言,大医院有自己的终端,数据都得到了较为完整的存储,但是医院信息化系统过多,相互之间难以打通,这就导致数据无法得到有效整合。“我们的目标之一就是把分散在不同系统里的零散信息收集起来,一种方式是直连医院,另一种是把医院现有的存量数据直接传输至中心,未来的增量想数据逐渐传到中心。”刘健说。
对于数据收集后的下一步,管晓寅补充道,数据的管理整合可能对更深层次的挖掘会更重要。南京中心的工作就是将各方数据放在一处,使得更多用户能够挖掘它的价值,能够产业化,恰恰,这也是难度比较大的地方。
当下的医疗数据大环境正值初始化成长的阶段,未来医疗健康大数据的深度挖掘应用一定会成为国家与社会重点发展的战略目标,任重道远,未来可期。
大数据医疗健康企业实力榜
微医:大数据驱动的四大业务平台
微医在今年2月发布了基于大数据驱动的“微医云、微医疗、微医药、微医险”四大业务平台。微医云是微医面向全行业搭建的智能医疗云平台。过去7年间,微医通过连接全国2400多家医院,实现了全国最大规模的“医院窗口云化”。 以微医云为技术驱动,微医打造了面向亿万家庭和千万机构的新型医疗服务体系“微医疗”。该体系由“基地、网点、终端”三层服务体系组成,为用户提供“线上+线下、全科+专科”的医疗服务。随着“基地、网点、终端”的规模化落地,全新的“家庭医疗”服务模式逐渐成型。而微医药板块则以处方共享平台为依托,规模化连接医院信息系统、零售药店药品流通配送系统和医保结算系统,实现医疗、医保、医药多方的医疗信息共享应用。
春雨医生:坚持“互联网+医疗”之路
2011年春雨医生正式创立时,就推出了一款APP——春雨掌上医生。主要是以自诊和在线问诊为核心,进而铺开其他相关的医疗功能和服务,比如APP已接入春雨医疗平台的几款家用医疗器械,可检测用户运动、睡眠、心律、体温等数据。截至2016年底春雨医生已经覆盖了儿科、皮肤科等17个常见科室,吸引超过50万公立医院执业医师入驻平台,累计服务患者超过2亿人次,积累了数亿条健康信息。
华大基因:“生命科学+大数据”剑指精准医疗
华大基因与英特尔、阿里云三方跨界合作,搭建了基于BGI Online的精准医疗开放云平台,旨在为公众提供更精准、高效的医疗健康服务和更为个性化的优质诊疗体验,华大基因也将在此基础上构建基因组学的数据中心和分析平台。迄今,华大基因已经完成了超过260万例无创产前基因检测、140万例新生儿耳聋基因检测、255万例宫颈癌HPV病毒等基因检测等,为数千万家庭带去了可及、平价的精准医学服务,也积累了海量的数据。随着人工智能、生命科學和大数据的融合,生命大数据将会使医学领域有一个巨大飞跃,也使得“精准医疗”变为可能。