医疗大数据:一切可能的开始
2017-11-23袁斯来
袁斯来
在医疗抢救中,有“黄金一小时”的说法。一个脑卒中(中风)患者如果治疗及时,可能在五个小时完全恢复,不留任何后遗症。一旦患者送进医院大门,医生就开始了与死神的赛跑。可惜在短暂的黄金抢救时间里,医生影像诊断会占据大量时间。
“从发病到治疗的时间是缺血性脑卒中诊疗的一个瓶颈,影像诊断是诊疗的一个重要部分,也是消耗时间的一个因素。如果真的能用AI做脑卒中的快速识别和诊断,能为治疗节约宝贵的时间,那就太好了。”首都医科大学附属北京天坛医院神经放射科教授马军告诉《第一财经周刊》。
马军医生的这一愿望,是医疗大数据应用的终极场景之一。大数据作为“国家重要的基础性战略资源”已经与古老的医疗行业越来越深地交融和相互影响,每一点微小的突破,都可能带给医生新的惊喜和可能。
三十年前,一个医学院毕业生听到“digital”一词时,可能还认为是某种检查,但是现在,很少有医生会对这个词感到陌生。病历结构化处理、PACS改造、远程会诊甚至AI辅助诊疗都越来越频繁地出现在他们的日常工作中,而数据是驱动这些发展最重要的“燃料”。
2016年,麦肯锡发布了《医疗行业的大数据革命》报告,称大数据将节省12%至17%的医疗成本,美国一年的医疗开支是2.6万亿美元,相当于能省下3000亿至4500亿美元。
相比美国,中国拥有更庞大的诊疗人口,在国内,2016年总诊疗人次达到了79.3亿。显然,即使以美国的数据参考,医疗大数据也是一个巨大的蓝海市场。这应该是激励众多创业公司投身和坚守的最大愿景,也是资本敢于下注的基本逻辑。
但涉及人类生命健康的医疗大数据之“大”之“重”,超出常人想象,比如一次全面的基因测序,产生的个人数据可能达到300GB,一幅磁共振影像会包含5万像素值,而医疗数据往往涉及个人“重要隐私”以及数据的法律权属问题,这些显然是其他领域都无法比拟的。所以,这一行业的掘金者,已经意识到这是一条未知和变数重重的漫长之路。他们往往更低调更谨慎地向前推进,一点一滴地提升国内医疗行业的效率,从细部开始渗透影响医院及医生的想法。
从专业的角度看,医疗大数据和其他行业数据管理一样,不外乎四大关键步骤:抽取、清洗、存储及分析,这构成了行业的基本产业链条。目前,国内创业公司大都集中在“抽取、清洗及分析”等环节上。
人工智能与医疗大数据公司零氪科技即是由数据“抽取”和“清洗”切入这一行业的。
其实,国内的医院一直在努力做信息化的工作。2000年后,电子病历(EMR)逐渐普及,现在大型三甲医院的病历已经实现了电子化,一个重症病人从入院起,病历、拍片、处方、手术都有电子记录。
但是,这些无纸化的信息大部分是五花八门的形式,可能是无格式文件(flat、file)、CSV、表格、纯文本等等,必须将这些数据“结构化”,成為计算机可以读懂的信息,这即是业内所谓的数据“清洗”。
以往,医生通常会找自己的学生帮忙在表格中录入数据,但这是个劳神费力的工作,很多是重复性劳动,并且难以保证数据质量的稳定性。也有些医生会聘请外部的医疗团队CRO帮忙做结构化处理,但费用高昂,一个病人的结构化成本就能达到5000美元。
医院显然愿意找创业公司充当这样的“劳力”,这也成了零氪科技打入这一行业的机会。零氪科技主攻肿瘤大数据,为医院做病历结构化处理。在零氪科技的创始人张天泽看来,肿瘤是未知大于已知的疾病,无论是药物研发还是临床研究,都有很高的天花板。而且肿瘤诊疗市场规模巨大,“重大疾病的钱基本上都在肿瘤 上”。
但真正做起来,张天泽才体会到医疗数据清洗的难度。比如每个医院之间话语的体系可能不同,湖南湘雅医院和北京协和针对同一种疾病,有完全不同的表述。“肺癌的病历书写表达在不同医院都有不同的说法,有的是肺癌,有的是肺上叶恶性肿瘤,有的是肺CA。甚至很多信息点会现地方也不一样,化疗的方案有些是在出院记录里,有些是在病程里,把这些指标归一化是个劳动密集型的活。”零氪科技CTO罗立刚对《第一财经周刊》描述。
这实际上考验的是创业公司对于医疗的理解。与其他行业不同在于,医疗数据的清洗必须以医学训练和临床经验为基础,这也是创业公司难以越过的门槛。
中日友好医院的远程医疗中心主任卢清君当时在挑选数据处理技术的供应企业时,很多公司提供了解决方案,但当他给出了40份实际的病历资料要求这些投标公司完成数据处理任务之后,有半数公司主动放弃了竞标。
卢清君称,在选择技术合作团队时,临床医师很看重团队是否对医疗领域有足够的理解。
但即使创业公司有一定的行业基础,医生的指导仍然必不可少。“医疗大数据是医生创建的,因此一定是临床医生才有能力开发大数据的价值。例如肺癌的研究中,发现一个肺部小结节,需要诊断它究竟是良性的还是恶性的,数据指标如何建立关联关系,这些是探索医学规律,不是企业能做的。但是企业可以提供技术手段,双方联合开发才有可行性。”卢清君说。
很多时候,创业公司是在不断学习中,一步步完善自己的产品。河南省肿瘤医院的医生,会定期和零氪科技碰头,更新学界的研究动态。如为了检索和管理方便,他们会让零氪科技单独加入一个主刀医生和第一助手的信息点,作为检索手术的关键词。“不是它定好标准,是我们定标准。他们要和临床一线医生交流,完善并优化数据模型。这些模型是永久的,可以复用。”河南省肿瘤医院的副院长李印对《第一财经周刊》说。经过几年的积累,现在零氪科技已经能在5分钟内完成一本病例的录入,而传统的人工录入需要耗费五六个小时。
目前,零氪科技已经与包括中日友好医院、四川大学华西医院、中南大学湘雅医院等500家医院展开合作,日处理病案数据45万页,其肿瘤数据库涵盖50余种肿瘤病种。
另一家名叫“医号线”的医疗服务公司则主要切入慢病领域,创始人王智瑶一开始也和合伙人评估过做肿瘤数据的可能性,但他们发现,“肿瘤研究涉及的数据库非常复杂。整个肿瘤疾病发展的过程很难结构化,文本越复杂、治疗过程越长,数据越多,词库也就越多。”王智瑶对《第一财经周刊》表示,“对于我们这样的初创公司来说不是最好的切入领域。”
她选择了如糖尿病、高血压这样的慢性疾病数据库入手。这些疾病大多与生活方式相关,病程有相对清晰的发展模式,比如饮食或者运动因素的影响,所以用机器做大批量学习和长期监测相对容易。而且很多慢性病之间有重叠,比如高血压的患者有时也会患有糖尿病,在做结构化处理时,很容易复用。
与医院合作,数据的获取一般有两个途径,一个是直接对接医院的数据库,如医院信息系统(Hospital Information System,HIS)或电子病历系统(Electronic Medical Record,EMR),一个是沉到科室,从医生手中获取病历数据,由医生自行走院方的审批流程。
前者对于资源有限的创业公司难度很大。当前各家医院使用的都是不同厂商的HIS系统,不能互通。创业公司要去适应各个医院的HIS系统,还涉及各个系统的接口费。即使有钱,开放HIS接口对医院而言也是极端慎重的决策,一般的公司很难搞定。
医号线和做云端数据库及电子病历的“博识医疗云”都选择从医生端入手。如果医生有个人研究需要,可以找到医号线,提供数据让医号线做好结构化。“我们时常讲医疗大数据,仅仅是数量多吗?还是覆盖范围广?”王智瑶说,“如果全国9000家医院用了我们的系统,但我們只切入了一个科室,没法持续自然地获取数据。如果是自己找人长期人工录入,这种非自然产生的数据可能没有代表性。”
博识医疗云则向医生推荐了一套自己的电子病历系统。当医生使用这个产品时,数据自然而然沉淀下来。“我们先把大科室做透了,农村包围城市,最后反而能获取到医院资源。”博识医疗云CEO郭宇岚说。
对自己的电子病历系统,博识医疗云花了很多功夫搭建底层架构,让自己的产品能更好地在不同科室间复用。“如果一个个科室访谈,需要几个月才能做出东西,但现在几个小时就可以,因为我们搭建好了临床逻辑和规则,不同医生、不同科室都适合,边际成本低。”郭宇岚说。
目前,医号线已经在400多家三甲医院里拥有3000多医生个人用户,而博识医疗云覆盖全国400多家三甲医院的肿瘤、血液、骨科、神经内科、神经外科等2700个临床科室,有2万多名临床医生用户。
医疗大数据除了院内临床数据外,其实还有“院外随访”数据这一重要源头。病人离开医院后的情况,医生很难有长期的跟踪和了解。而随访对于整个诊疗过程有很重要的作用。“随访和临床数据是自洽数据,如果放在一起,分析的效果可能五倍于分析独立数据。”张天泽说。
零氪科技为此建立了专门的随访团队,跟踪病人做愈后观察,整个就诊过程就形成了一条完整的闭环。“我们实际上提供的是完整的解决方案,医生要做的是把病例规整好,剩下的事我们就帮着他干了。”罗立刚说。
医号线同样也有随访产品,患者可以远程通过微信填写,也能到医院复查时由医生填写。这些数据和临床数据汇总,形成了完整的数据库。目前医号线系统内患者数量63万余人,持续随访患者37万余人,随访超过一年患者19万余人,平均每个医生纳入患者近160名,随访管理患者90余名,比传统的临床研究及患者随访方式提高了60%的效率。
如前文所述,医疗行业对个人隐私和数据安全更加敏感,在进入产业链时,创业公司的每一步都必须小心翼翼。“医疗大数据属于国家基础性战略资源,受国家委托,医院对大数据有管理责任。创业公司若是需要使用数据,就必须要经过严格的审批程序,并与医院签署合作协议。换句话说,医院是替国家掌管仓库钥匙的人。”卢清君说。
零氪科技在创业之初,曾用比较粗糙的办法做数据脱敏,他们会在每一份病历病人的信息部分蒙上小纸条,再拍照存档,现在他们使用机器学习,让程序识别隐私信息,再批量处理。
人工智能影像公司“推想科技”则干脆把服务器搬到医院的机房,保证数据不出医院大门。医院的IT系统放在自己封闭的私有云上,如果推想科技想要提取信息,得先拿到医院的许可。“这是为了医院,但也是保护我们自己。医院和创业公司合作的大前提是数据不能有病人的敏感和个人信息,所以必须放在医院内部的系统内完成。”推想科技的CEO陈宽对《第一财经周刊》 说。
完成了数据的结构化处理,创业公司实际上还希望帮助医院做数据的整合。
公立医院除了有针对全院的HIS系统,还会有针对病历的EMR系统,影像则会使用专门的影像归档和通信系统(Picture Archiving and Communication Systems,PACS)系统。各种数据散落在医院不同科室和设备提供商的工作站中。这也是医院一直储存着海量数据,却被称为是“信息孤岛”的原因。
一些新兴的科室如眼科和齿科,近年不断引进新的设备和影像技术,但原有的PACS往往还来不及适配,医生仪器供应商提供的独立工作站,被孤立在PACS形态外。一家医院60台眼部影像设备中,可能有40台都各自为政,而有些检查的数据量极大,如光学相干断层成像术(OCT)动辄有上千張眼底的图像,如果没有联网,医生只能一次次进入系统调用,没法直接在自己的电脑上查看和分析。
但对于一家创业公司来说,要打入一家公立医院,对其人脉、技术及营销都是巨大的考验。“这是个很讲究信任和圈子的行业,一个圈外人,很难让医生接受。”陈宽说。
医疗影像公司“海纳医信”已经在医疗影像的行业做了十多年,虽然它能提供全院和各科室的PACS,但目前也只能替换一些医院瘫痪掉的PACS,很少有医院主动引进它的产品替代现有的系统。“进入医院肯定很难。原来的PACS能进去是有理由的,它们很多在医疗领域做了很多年,和医院及专家关系都不错,除非宕机了医院才能换PACS。医院每天需要处理的病人很多,能凑合用就行。”海纳医信的创始人崔彤哲告诉《第一财经周刊》。
海纳医信PACS的第一个大客户是首都医科大学附属北京安贞医院。当时正好安贞医院320排CT投入使用,一下子数据量激增,旧有的PACS很难负荷,最后不得不寻找外力,用海纳医信的PACS换掉了旧有的系统。“医学影像发展需要进步,很多时候原有软件有很大限制。而国外的系统很多时候没法根据我们的需要改进。”首都医科大学附属北京安贞医院介入诊疗科主任黄连军对《第一财经周刊》说。
“我们CT图像是动态的,图像数据量很大,十个大夫同时看一个病人的片子时,可能就会卡住,要么速度就特别慢,要么就发生故障。而且我们需要原始资料不能失真。有时候压缩原始诊断图像,质量打折,我就没法做诊断了。又要保证速度,又要保证质量是很难的。”黄连军说。显然是创业公司的技术优势让他们有了入门的机会。
不过,至少在政策层面,公立医院会变得越来越开放。2016年,国务院办公厅发布了《关于促进和规范健康医疗大数据应用发展的指导意见》,这份业内人士称为“47号文”的文件让他们看到了更多的希望。
除了数据的抽取和清洗,全球的医疗大数据公司多少都怀着一个人工智能辅助诊断的梦想。
推想科技入行之初就把自己定位为“人工智能影像”公司。实际上,创始人陈宽是彻底的“外行”。他2015年回国时,公司没有产品,本人也不是医科背景出身,而且他想推的“人工智能辅助读片”这个概念对很多医生来说还很陌生。
一开始,陈宽四处碰壁,直到在全国跑了30多家医院的影像科,最终找到愿意尝试的四川省人民医院,才算打开了局面。陈宽和合伙人从深圳搬到成都去,泡在客户四川省人民医院放射科,和医生朝夕相处,医生工作时就搬着板凳在旁边观察和学习,医生吃饭时就跟着请教,用陈宽的话讲,“火锅店都吃遍了”。
陈宽发现,肺部是影像科医生读片最多的部位,占到了总量的一小半,其中医生大部分时间都在找肺部的小结节。足足磨了大半年,他们才慢慢找准切入行业的路径。一旦完成了最初案例,“有了口碑,互相之间会相互宣传,一瞬间都会知道的。”陈宽说。目前推想科技已经和包括北京协和医院放射科在内的全国多家公立医院展开合作。
其实,在个人层面,医生早就开始接触院外的新技术。天坛医院的马军一直对人工智能感兴趣,他曾经约过多家创业公司,想要一起开发产品。他会到各个公司实地考察,看看有多少人做研发,并且仔细研究创始人的简历。“今后角色可能转换为贯穿病人治疗链适中的角色,从疾病的诊断、到病人治疗方案的选择,到病人的预后,为临床医生提供解决方案。”马军说。他与推想科技的一个合作项目,据称已经能够在1000例影像中识别出900例脑部肿瘤,平均一例只需要3秒钟。
零氪科技也在最近发布了“AI-肺结节智能诊断系统”。这套系统使用了影像科医生标注的胸部CT数据,加上深度学习和强化学习,能自动识别出CT影像中的结节,据零氪科技介绍,识别率超过了90%。而且,这个系统还能计算出结节的特征,帮助医生撰写诊疗报告和诊断。
客观地看,不管是国内还是国外,医疗大数据行业还处在一个很初级的阶段。2013年,一份针对美国和加拿大333家医疗机构及10家其他机构的调查显示,医疗机构累积的数据量比2011年增长了85%。然而,这些数据并没有得到充分利用,有77%的医疗健康行政人员对所在机构数据管理方面的能力评价为“C”,仅有34%的医疗健康行政人员能从电子健康记录(EHR)中获取数据用来帮助病人。一切可能才刚刚开始。