医疗大数据蕴藏机遇
2022-05-14
2021年11月30日,工信部印发《“十四五”大数据产业发展规划》,不仅树立了“到2025年底,大数据产业测算规模突破3万亿元”的增长目标,还提出建设数据要素价值体系、现代化大数据产业体系等方面的新目标,其中建设目标之一,便是要培育大数据交易市场。
回头来看,医疗大数据行业的发展起点可追溯至7年前国家卫计委制定的“46312”工程,其根本目的,是要规范化医疗数据的基础设施,将“大量的医疗数据”转化为可用的“医疗大数据”。当时借着政策浪潮,一大批以“医疗大数据”为标签的新一代医疗IT企业冒出头,他们的目的有两个,一是要帮助医院建立大数据分析的基础措施,二是要挖掘大数据的潜在价值,开发适用于特定场景的医疗大数据应用。
经过数年的发展,这批伴随政策而生的大数据企业已经走到了上市前后,动脉橙数据库数据统计显示,2014-2016年成立的948家信息化相关公司,已有24家走到了C轮及其以上轮次。
新的资金仍在不断注入这一赛道。仅计算2021年前10个月,医疗大数据赛道已经发生过10次融资,有8次融资超过亿级。上下游每一个环节都蕴藏机遇。
上游:基础设施建设
医疗大数据的本质是对医疗数据的整理再利用,普通医院因其数据存储量有限,通常将机房建在院内,建设模式自建机房为主。省级区域数据中心需要将各地数据进行汇总,通常会租用具体场地或租用云服务进行存储。
2021年国家卫生健康委统计信息中心发布的《全民健康信息化调查报告》数据中显示,医院信息化中,我国98.8%的三级医院及96.1%的二级医院均有建设数据中心机房,区域医疗信息化中,所有省级卫生健康委均拥有数据与中心机房,82.3%的市级数据中心拥有机房。可以说,我国医疗大数据的“骨架”已经建得八九不离十。
但大数据基础设施建设这一端的市场尚未进入红海。
三个重要路径可供选择。其一,由于数据存储量将随时间的推移不断积累,机房所需的物理面积必然随之增加,因此,已经拥有数据中心的机构仍存在扩容的需求。
其二,存量市场仍需时间消耗。从数据来看,县级医院(二级或二级以上)的数组中心建设基本成型,但仅59.0%的县卫健委拥有自己的数据中心。医院方面,排除二级三级医院外,仍有24.5%的医院没有数据中心。从无到有再到扩容,数据中心建设仍存在一定未被攫取的市场。
其三,云租赁或成市场新增量。《全民健康信息化调查报告》数据显示,参与统计的医院超9成数据中心为自建,不到1成上云,但在区域卫健委之中,省级有近6成上云,市级有近4成上云,县级也有近2成上云。
国家卫生健康委统计信息中心信息技术处副处长徐向东曾表示:国家卫生健康委统计信息中心将新一代数据中心的结构劃分为三个层面,一是基础层面,要支持云数据中心建设,这属于IaaS层;二是支撑层面,包括业务中台、数据中台等概念;三是应用层,更多的是原有应用的整合,以及新应用的产生。
简而言之,未来的数据中心建设方向将由物理空间机房转移至虚拟空间云端,以应对日益增长的数据存储压力。但更为重要的是,医疗数据存储的价值在于未来的潜在应用,从这个角度来谈,租赁云将获存在难以估量的市场空间。
中游:大数据平台
建立数据中心是为了将数据完整、全面的存储起来,但存储只是工具,数据挖掘与最终应用,才是信息化建设的最终目的。为此,医院必须突破数据质量和数据挖掘两大桎梏。
20多年医疗IT的野蛮生长在推动医院进行数字化转型的同时,也落下了不少顽疾。从宏观上分析,医疗数据的痛点大致包含信息化厂家和系统繁多,数据孤岛现象严重,数据治理难度高;数据标准化程度低,医院管理者数据治理效率低;临床科研压力大,科研成果产出效率低三个方面。
再是数据挖掘。传统的数据挖掘主要整合医院HIS、LIS、PACS、RIS、病理等常见信息系统的数据,进而建成电子病历系统、临床数据中心(CDR)、电子用药记录(eMAR)等常见数据库,但在实际之中,这些数据库难以满足研究人员多元的需求。
所谓医疗大数据平台,可以看作是围绕医疗大数据利用的全过程而提供的服务,包括数据采集、整合、处理、建模分析、展现等。根据医院需求与结构建立搭建的医疗大数据平台包含了SSD存储技术,融合Hadoop平台,Oracle、Sybase等数据仓库及MPP、Map Reduce等并行处理数据库技术。医院可以借助于平台的引擎与模型对存储的数据进行规模化处理,这个过程中解决的是国内医院信息孤岛的问题与数据标准化程度低的问题。在平台的基础上,建设方可以根据医院提出的需求直接调用数据建成专病数据库,这里解决的医院科研投入大、效率低的问题。
由于医疗大数据平台本身的技术融合特性,现目前没有明确的统计数据显示各医院大数据平台的部署情况,但《全民健康信息化调查报告》对医院信息平台的基本功能统计可以推测,各医院医疗大数据处理能力参差不齐,但有超过一半医院对部分功能进行了部署。要弥补各个部分的短板(通常分散于各个不同的业务系统),部分医院开始寻求一步到位的解决方案,直接购置医疗大数据平台。
据医疗大数据企业柯林布瑞测算,院内大数据平台建设单个项目合同金额为500-800万元,部分大项目单个合同金额超过1500万元,整个市场规模超过200亿元。值得注意的是,部分院内大数据平台的招标金额可以高至2000-3000万元。这是因为,医院在构建平台的同时也会要求部署一定应用,进一步增加了平台搭建方的价值。
下游:医疗大数据的应用
若能通过一只“无形的手”,对患者、医生、医疗费用支付方、政策制定者的数据进行收集、规划、分享,再将其用于精准医疗、疾病预测、医保控费等医疗服务,数据的价值难以衡量。
目前医院使用率最高的数据是临床数据,约有21.9%三级医院基于此类数据展开应用研发,企业介入此类数据的空间也非常高,譬如影像类的AI辅助诊断,文本类基于知识图训练的CDSS,都已经广泛在医院开展应用;RWS方面,监管部门已经将真实世界证据纳入审批证据。
医院的运营数据可有效协作医院、区域卫生、公共卫生做出决策。譬如,DRG支付便是基于医院运行设立的激励机制,而医院大屏则是医院基于大数据进行的自我优化。
健康数据是最大,最具潜力的数据,也是当下应用最为有限的领域,通过健康数据开发应用的医院不足10%。分析其原因,物联网等设备虽然加强了医院对于患者健康数据的收集,但将健康数据和临床数据联系在一起的研究较少,因此健康数据缺乏说服力。好在作为全球最大的慢病管理市场,“互联网+慢病管理”的兴起正在重塑这一赛道的价值。在这个时间节点上,新进入的是百度、京东、阿里等互联网巨头。
总的来说,数据虽是整个医疗大数据链条中最有价值的一部分,但单从应用建设来看,其价值并没有得到充分挖掘。但从另一个角度来思考,尚未被充分应用的健康、科研大数据,有着门槛,也有着难以估计的庞大市场空间。
融合:大数据平台与数据中台
尽管从医疗大数据的使用流程来看,其价值挖掘遵循存储、治理、应用三个流程,但在实际应用之中,治理、应用可以单独存在,也可以组合起来直接服务主体。值得注意的是,做应用的企业后续不一定做平台,但做平台的企业,正在纷纷涌向应用。
从信息科的角度来看,医疗大数据平台能够保证平台提供商应用的有效开发,便于医生进行科研探索。但对于医院内的其他厂商而言,这些数据依然是不透明的、不共享的,这意味着开发商在处理应用时,仍然会出现数据重新清洗的问题。
种种症结之下,“数据中台”这一概念开始由金融、电商转入医疗信息化,作为处理老问题的新方法。
数据中台是一套可持续“让企业的数据用起来”的机制,一种战略选择和组织形式,是依据企业特有的业务模式和组织架构,通过有形的产品和实施方法论支撑,构建一套持续不断把数据变成资产并服务于业务的机制。这一概念最初由阿里巴巴提出应用于电商,并应其效用逐渐在这一领域中成为标配。
尽管拥有大数据平台,但医院需要做科研时,仍需要找到相应的IT厂商,告诉厂商需要什么数据,让厂商来帮忙跑。而若将数据的管理权交至信息科,厂商需要什么数据,信息科就开什么接口,给什么数据,这样下来,一是降低了重复清洗的成本,二是解决了接口不互通导致的数据孤岛问题,三是提高了医疗应用的开发效率。
医疗信息化赛道的制胜关键在于把握政策发展的未来路径。目前,医院采购数据中台的客单价大致在1000万左右,整个市场正处于初期。但从医疗信息化的发展来看,随着医院的评级逐渐到达国家标准,再往上走,中台的应用便愈发重要。低等级的评级仅注重数据质量的整体合格,但高等级的评级,以及现在要求的数据上报,都在要求医院将数据质量这一环节拎出来评审,进行更为精细化的管理。
医疗机构之外的角色:保险公司与药械企业
要将临床数据进行价值的最大化挖掘,一方面可以帮助医生优化临床路径,选择更好的治疗方式,另一方面则可推动医院与药械、保险企业的合作,开发新的药械、推动商业保险对于医保外疾病的覆盖。
发病率居高不下的肿瘤是医院与药械合作的重点方向。如今,临床上对于以精准医疗为代表的创新的药物和治疗方案需求迫切,然而现实是精准医疗导致传统研究越来越难做,新药的研发成本不断升高,上市审批也依旧缓慢,导致了当前患者用药贵和用药难的问题。种种问题推动AI大数据公司介入其中,在药械企与医院之间起到了连接的作用。
为药企、保险公司提供ToB的服务,医疗大数据企业提供的单个药厂采购数字化分析报告可达400万元/年,单个保险公司采购数字化分析报告可达1000万元/年,粗略计算,背后蕴藏的是一个近1000亿元/年的市场。
探讨:医疗大数据的隐私、安全与归属权
尽管蕴藏了丰厚的价值,但医疗大数据的开拓之路并非一帆风顺。众多场合下,医疗大数据甚至可视作一个敏感词。
数据安全与网络安全是医疗大数据面临的首要挑战。医疗大数据与生俱来的价值往往引得各路人马垂涎,《等级保护2.0》推动了数据安全的建设,但信息安全是入侵者与防御者之间的博弈,没有绝对的安全,只有不断迭代的防御措施。
网络安全亦是医院需要建设的重点。曾有知名医院采用信息上云后被攻击,掀起了业内对于云存储的不信任。
但从技术的发展角度来看,任何一种方式均有其局限性,需在探索中成长,相比于畏惧,相关部门更应建立良好的危机响应机制,防患于未然,帮助技术良性发展。
其次是隐私与归属权问题。相比于上个问题,这一问题的技术门槛较低,主要需要管理者建立防护机制,使用者提高保护意识。
在具体的患者诊疗档案中,常常都会以该患者的姓名、证件号码等基本信息作为唯一标识,然而,这些信息同样也归属于应被保护的内容。所以,准确的做法应该是在不影响信息正确性的前提下,对信息进行匿名保护。
同时,不同的信息,在隐私保护中的价值并不一样。所以,如果对所有医疗信息一概而论,都选取高级别的保护手段,则会对实际应用的效率产生影响,还会造成资源的浪费。所以,医院应构建对照完善的数据分级制度,对于不同类别的个人信息和数据选取不同的保护措施。
最后是归属权问题。目前的法律体系尚不能很好的解释和界定健康医疗数据的权属问题,特别是医疗数据的所有权。实践中,存在医疗大数据的所有权到底属于患者个人还是医院的争议。
有观点认为,医疗大数据反映的是个人的健康状况,理应属于患者个人;有观点认为,医疗大数据是由医院采集、录入才能产生的,存储和保存也在医疗机构,理应属于医疗机构;还有观点认为,医疗数据的所有权在于患者个人、控制权在于医院、管理权在于政府,第三方机构需借助政府支持和医院配合方能对其进行商业化开发和利用。
实际應用中,医疗大数据的权属基本在医院方。医疗数据权属的模糊性,一方面掣肘着健康医疗数据的授权使用,另一方面也给患者的个人信息权保护提出难题并埋下了隐患。
三个问题的叠加,造成了目前医疗大数据行业基础快建设而慢应用的现状。国家健康医疗大数据北方中心已建成多年,但出于安全的考虑,仅能在国家卫健委授权下调用数据。
不过,《“十四五”大数据产业发展规划》提到的大数据交易市场建设必将推动交易基础设施的完善。如此看来,数据基础建设的终局必为应用,一旦越过了关键关卡,医疗大数据或将在五年内迎来一个新的时代。