信息化建设中医疗大数据现状
2015-03-22,
,
随着信息技术的发展,大数据成为新时代的代言词,并被给予“未来新石油”的评价。对大数据的开发利用已成为国际竞争及国家整体实力的重要体现,世界各国先后制定和实施了大数据相关的战略计划,在医疗卫生领域大数据的研究应用也逐渐增多。
1 大数据在国内外的发展现状
1.1 国外现状
美国是大数据发展的引领者,2013年5月,奥巴马政府宣布了“大数据的研究和发展计划”,希望利用大数据在生物医药、科研教学、环境保护、工程技术、国土安全等领域实现突破。2012年7月,英国商业创新技能部成立数据战略委员会,2013年即投资1.89亿英镑,其建成的英国国民医疗服务系统(National Health Service)拥有庞大而完备的英国医疗数据,被英国社会誉为20世纪最伟大的成就[1]。2013年6月,日本安倍内阁正式宣布了新IT战略,即“创建最尖端IT国家宣言”,将大数据应用于新医疗技术开发、社会化媒体等智能技术开发、传统产业IT创新等公共领域。同年,韩国数据库研究院与韩国国名健康保险公司公司合作完成了国名健康数据认证(DQC-V)和国民健康数据管理认证(DQC-M)两个系统的建设工作,凭借该数据库,可以对1.3亿条全体国民医疗信息进行管理[2]。此外,德国、法国、欧洲多国也展开了大数据建设。
1.2 国内现状
2013年,我国发改委与中科院启动了“基础研究大数据服务平台应用示范项目”;2014年《政府工作报告》明确提出,设立新兴产业创业创新平台,在大数据等方面赶超先进,引领未来产业发展;2015年第十二届全国人民代表大会提出“互联网+”,进一步推进大数据的发展。我国正处于医疗改革,卫生信息化建设的关键时期,2015年3月国家卫生计生委网络安全和信息化工作组全体会议明确提出将积极推进健康医疗大数据应用示范,研究制定促进健康医疗大数据应用的指导意见,健全完善国家卫生计生统计制度,推动健康医疗大数据依法有序安全开放。可见,医疗大数据的“春天”已经来临,卫生信息化进程将加快。
2 医疗大数据的特点
大数据通常是指所涉及的资料容量规模巨大到无法通过目前主流软件工具,在合理时间内达到撷取、管理、处理并整理成为人类所能解读的信息,具有容量大、多样性、速度快、价值高的特点。医疗大数据由大数据衍生而来,是指在一切与健康相关的活动中产生的所有与生命健康和医疗相关的数据。除了拥有大数据的特点外,还具有以下5个特点。
2.1 数据的多维性
在整个医疗行为中,虽然各种数据的记录都以患者为中心,但不同数据使用者(如医生、护士、医技)所需信息不一、要求不一,我们不可能针对不同对象分别采取不同的格式记录患者信息,只有依靠需求者自己摘取,导致医疗数据具有多维度的特点。
2.2 医学术语的复杂性
医学中常见一词多义、多词一义现象,并且随着医学发展,医学术语更新快速,各术语集不断更新版本,再加上医院信息系统不同、标准不统一等原因,导致医学术语复杂,数据获取困难,在我国中医药大数据发展方面尤为明显。
2.3 数据不完整性
大量医疗数据来源于医务人员人工记录,搜集者和处理者往往不同,导致数据记录出现偏差和残缺;而随访丢失,许多数据的表达不确定,造成了医疗大数据的不完整性。
2.4 数据的时序性
病人初次就诊、治疗、复查,疾病的发生、发展、治愈或死亡,医学检测的波形、图像都是时间函数,各数据产生都具有一定的时序性。
2.5 数据的冗余性
我国信息化建设尚未完成,信息孤岛、烟囱还普遍存在,一人在不同医疗机构就诊会产生相同医疗数据,同一医疗机构也存储大量重复、无关紧要的信息。
3 医疗大数据的来源
3.1 医疗服务方
医疗服务方主要指开展疾病诊断、治疗活动的卫生机构(图1)。这些机构各信息系统产生的数据由医务人员以医学专业方式所记录,是最原始的临床记录,包括记录不完整或错误的数据,都具有价值,都可能隐藏了有待发掘和利用的重要医学信息。除此之外,还有医院运营产生的数据。
图1 医疗服务机构数据来源
3.2 医疗保险方
医疗保险大数据主要来源于医疗保险部门和商业保险公司。我国基本医疗(新农合、城镇居民、城镇职工)保险参保人数超过13亿,覆盖率在95%以上[3],各商业健康保险随着人们健康意识的增强购买率也增加。患者在就医过程中将产生大量的费用信息、报销信息,使医疗保险部门和商业保险公司积累了大量病种、费用等数据。
3.3 卫生行政方
各医疗机构通过统计直报系统上报的疾病、手术、医院业务、卫生人力等数据形成卫生资源与卫生服务利用、疾病报告与监测、卫生人力资源等大型数据资源库[4]。例如基本药物监测评价管理系统、国家传染病与突发公共卫生网络直报系统、国家卫生监督信息系统、妇幼保健业务信息系统都积累了大量医疗数据;国家正在建立的人口健康数据中心和各区域卫生服务平台也是医疗大数据来源之一;卫生行政部门基于大量人群的医学研究和疾病监测大数据,如各种全国性抽样调查、全国营养和健康调查、出生缺陷监测研究、传染病及肿瘤登记报告数据等也是医疗大数据。
3.4 医药和医疗器械生产和流通方
药物及器械的研发是一个数据密集产生的过程,很多中小型企业产生的数据都会在TB量及以上;药品流通和销售环节也会产生大量产品流通和消费者购买行为数据。
3.5 互联网
首先,各大网站中关于疾病、健康、寻医、购药等搜索内容,健康网站的访问、在线咨询等产生的大量音视频、图片、文本数据;其次,各商业公司开发的移动医疗产品,便携式生理设备产生的血压、心跳、血糖、呼吸、睡眠、体育锻炼等数据;最后,各种网站的网络挂号、网售药品器材、网售健康服务等产生的数据。
3.6 生命科学研究
在生命科学研究领域,生物信息大数据是关于生物标本和基因测序的信息,一个基因组序列文件大小约为750MB,人类基因测序一次,产生的数据就可高达600G[5]。随着生物信息学的发展,生命科学已经成为大数据科学。
4 大数据在医疗卫生领域的应用
4.1 药品研发
大数据可以应用于药品研发的每一个阶段。药品研发前,利用大数据对患者乃至大众的行为和情绪进行测量,挖掘患者症状特点、行为习惯、喜好等,找到符合患者症状的药品和服务,针对性地调整和优化药品[6];研发成功后,通过大数据分析公众疾病药品需求趋势,利用大数据确定最优的投入产出比,从而实现最优资源组合和节约成本。药品上市前,通过大数据扩大样本数和采样分布范围,分析药物副作用以及药品不良反应,克服传统临床试验和副作用报告分析中样本数小、采样分布受限等因素的影响,使结果更具有说服力,有利于缩短药品上市时间,降低企业成本;药品上市后,通过整合上市后各研究阶段可获得的所有数据,全面把握上市药品的安全性、有效性和经济性,为临床合理用药提供更有价值的参考。医药公司还可以通过大数据技术优化物流信息平台,提高管理效率。
4.2 疾病诊疗
通过大数据挖掘分析建立临床决策支持系统和用药、医嘱的自动报错系统;利用大数据全面分析患者特征数据和诊疗数据,比较多种干预措施的有效性,可以找到针对特定患者的最佳治疗途径[7];对大量电子病历中的数字化信息进行分析处理,发现最有效的临床路径以及单病种等。利用互联网、云计算等技术来打破点对点的传统医疗,构建灵活性强、数据全面、决策迅速、关联能力强远程医疗服务体系,减少病人的住院时间,实现医疗资源的最优配置,有效缓解当前医疗资源紧张、看病难、看病贵的情况。大数据对循证医学也有着巨大的作用,利用大数据技术分析个人数据集,为循证医学提供最坚实的证据,发现小样本无法发现的细微差别,为医生提供最新的证据,指导临床实践[8]。
4.3 医疗保险
利用医疗保险大数据,建立定价环节的自动化系统模型,改进费用补偿方式和降低医疗成本;通过对大量数据分析,确定病人健康保险优惠计划的补偿额度,更加有效地利用医疗资源,改进医疗成本管理;利用软件识别出高度使用医疗保险患者,分析某个社区或卫生系统的医疗成本趋势,使医疗服务提供者针对某类患者或某类疾病状态制定成本控制策略,降低再入院率和控制成本,改善患者生活质量。医疗保险部门根据医疗大数据的分析,发现哪些医疗机构存在骗保、套用保险资金等不法行为,商业保险公司和社会保险之间可以共享数据,形成互补的合作模式。成都市就利用大数据建立了智能辅助审核系统对住院治疗费用单据进行审核,能筛出疑似过度医疗行为,初步判断治疗、用药是否符合“临床规则”。
4.4 智能决策
传统决策模式以人的意志为主导,容易偏倚,通过大数据分析可实现智能客观决策。卫生管理部门可整合各部门上报的数据,加强宏观管理,优化卫生资源配置,为制定公共卫生政策和评估医疗政策的有效性提供准确依据。随着医疗规模的扩增,各类信息系统的应用,医疗数据爆炸性增长,各医疗机构可通过大数据分析技术找到医院医疗质量不足的环节和医疗资源分配不合理的地方,对医疗质量和效益指标进行精确计算,监控医疗行为过程中的各环节,提高过程质量管理、监控,实现终末的质量评价,并进行医生绩效分析、成本核算和控制、供应链分析、市场数据挖掘等。
4.5 个人健康管理
个性化医疗中的移动医疗产品,如可穿戴设备、APP应用等可实时收集使用者的血糖、血压、呼吸、心跳等数据,及时分析并反馈给使用者,干预用户的行为,改善身体状况,特别是针对慢性病患者和老年人进行实时监控,有效减少突发意外。生命科学研究中也可以利用基因测序完成个人健康的精确治疗,例如乔布斯就在患胰腺癌以后通过基因测序,找出DNA中有缺陷的片段。
5 挑战与思考
大数据时代,我们的思维方式也发生了重大的转变。首先,分析与某事物相关的所有数据,而不是依靠分析少量的数据样本;其次,乐于接受数据的纷繁复杂,而不再追求精确性;最后,关注的焦点发生了转变,不再探求难以捉摸的因果关系,转而关注事物的相关关系[9]。因此,我们要更快速地处理数据,从而有效地利用大数据。
5.1 数据整合
医疗数据包含大量的结构化、非结构化、半结构化数据,传统的方法只分析结构化数据,已经不能满足需求。而且这些数据以不同形式散布于不同系统和平台中,数据结构千差万别。因此必须解决数据的异构性、质量问题,进行有效的整合[10]。
5.2 数据存储
不断膨胀的医疗数据中混杂着大量异构数据,目前的存储架构已经无法满足大数据应用的需求。其中,最大的挑战就是建立一个可以存储和实时处理的数据平台,并且能够随着医疗系统的升级而满足数据模式的更新,具备水平扩展能力[11]。
5.3 数据共享
我国已经开始建立一些数据共享中心,例如国家人口与健康科学数据共享平台,对基础医学、临床医学、公共卫生、中医药学、药学、人口与生殖健康方面的数据进行共享,但目前并不成熟。一是平台内数据共享范围有限,二是平台之不同区域间的数据不能共享。此外,大量医药厂商、医学研究成果等数据并没有纳入共享体系。因此,在我国开展医学大数据研究数据共享还言之尚早。
5.4 人才缺乏
人才是核心竞争力,HIS需要数据库、统计、数据分析技术方面的人才,同时还需要对医疗卫生以及管理需求有比较深的了解。医务人员必须提高对医院信息化建设的认识,支持医院信息化建设,才能有效利用医疗大数据。
5.5 隐私保护
医疗个人数据是一种极具特殊性及敏感性的个人数据,其使用面临一系列法律和伦理问题,因此大数据环境中如何保护个人隐私将是一个亟需解决的问题。网络信息平台的应用以及网上问医的推广,使隐私保护的难度上升,除通过技术手段在数据使用和传递过程中保护隐私外,法规制度也重要。
6 结语
大数据作为一种新的技术进入医疗,必然会对医疗卫生领域产生巨大的影响和推动,同时会出现一系列技术、应用方面问题。依靠技术、政策、资金同时推进,才能构造完整的大数据应用技术,希望本文能够给研究医疗大数据的学者提供一些参考。