大数据在医疗卫生中的应用前景
2015-01-30张爱迪
王 潇,张爱迪,严 谨
大数据在医疗卫生中的应用前景
王 潇,张爱迪,严 谨
大数据是近年来的一个技术热点,随着卫生信息化建设进程的不断加快,医疗卫生领域也进入了 “大数据时代”。本文对最近几年国内外大数据相关的研究成果进行回顾和总结,概述了大数据的定义、研究意义,并介绍了大数据在医疗卫生领域中的应用前景及面临的主要挑战,以期为进一步研究提供参考。
大数据;医疗卫生;应用前景
王潇,张爱迪,严谨 .大数据在医疗卫生中的应用前景 [J].中国全科医学,2015,18(1):113-115. [www.chinagp.net]
Wang X,Zhang AD,Yan J.Application prospects of big data in healthcare[J].Chinese General Practice,2015,18 (1):113-115.
近年来,大数据引起了产业界、科技界和 政 府 部 门的高度 关注。2008年《Nature》出版专刊 “Big Data”[1],2011年 《Science》也推出关于数据处理的专刊 “Dealing with data”[2],2012年 3月奥巴马宣布美国政府投资 2亿美元启动“大数据研究和发展计划”[3]。美国政府认为大数据是 “未来的新石油”,必将给未来的科技与经济发展带来深远的影响,并将“大数据研究”上升为国家意志。同样,医疗卫生领域也迎来了自己的“大数据时代”,其中重要的发展包括在药物研发中使用基因数据,临床实验数据的共享,电子病历系统 (EMRs)的广泛使用以及医疗保险、患者登记和社会媒体中的数据使用等[4]。人们越来越关注大数据在医疗卫生领域的诊疗、科研、管理和教学等方面的作用。本文将从大数据的定义和意义、在医疗领域的应用前景、现状及面临的挑战等方面,对大数据进行综述。
1 大数据
1.1 大数据的定义 目前,对于大数据的定义尚未达成共识。李国杰等[3]认为大数据是指无法在可容忍的时间内用传统IT技术和软硬件工具对其进行感知、获取、管理、处理和服务的数据集合。孟小峰等[5]则认为,不同的定义基本是对大数据特征的阐述和归纳,即认为大数据满足3个V的特点:规模性 (volume)、多样性 (variety)和高速性 (velocity)[6]。也有一些学者提出将价值性 (value)作为第四个V[7]。因此工程师们必须改进处理数据的工具,这导致了新的处理技术的诞生,例如 MapReduce和开源Hadoop平台。大数据也是一次思维上的变革,主要包括:要全体数据不要抽样,要效率不要绝对精确,要相关不要因果[8]。
1.2 大数据的意义 大数据的核心意义是预测。谷歌对美国人每天频繁检索的搜索词条进行数据挖掘,基于其中45个检索词组合的一个数学模型可以准确预测流感,其预测结果与官方数据的相关性达到97%[8-9]。Farecast公司开发出了一个机票价格预测系统,其票价预测准确度超过75%[9]。
大数据已经成为一种新型战略资源,其潜在价值和增长速度正在改变着人类的工作、生活和思维方式[10]。但是大数据并不能主宰一切,大数据能够发现 “是什么”,而不能说明 “为什么”;大数据能够发现大趋势和规律,而不能发生颠覆性的创新;大数据能够提供贴切的服务,而不能创造新需求[9]。
2 大数据在医疗卫生中的应用前景
大数据已经被成功地应用于天文学(斯隆数字巡天望远镜数据)、零售行业(沃尔玛巨量的交易量)、搜索引擎 (谷歌的个人定制搜索)等领域[11],而在医疗领域中的应用却远远落后。本文就大数据在疾病预防、疾病诊疗、医药研发和评价3个方面的应用前景进行论述。
2.1 疾病预防方面 大数据可以使研究者比之前任何时候都更加了解健康及其影响因素。据估计,只有 10%~15%的健康影响因素已被医疗服务提供者所测定,剩下的85%~90%的影响因素,包括健康行为、遗传因素、自然和社会经济环境等均未被测定[12]。大数据可以将传统的健康数据 (如医疗记录、家族史等)与其他来源的个人数据 (如收入、教育、饮食习惯、娱乐方式等)联系起来,利用大数据技术对健康危险因素进行比对关联分析。通过对不同区域、人群进行评估,遴选健康相关危险因素,制作健康监测评估图谱和知识库,并提出有针对性的干预计划,以促进居民健康水平的提高[13]。利用大数据将临床信息和医疗系统外的数据来源结合,可以显著提高医疗和健康服务。而且,利用这种基于社会和医疗数据、直接针对最适宜人群的方式实施的干预措施将会更加直接、有效。
大数据还可以连续整合和分析公共卫生数据,提高疾病预报和预警能力,防止疫情爆发。在甲型H1N1流感全球航空传播与早期预警研究中,常超一等[14]结合各地的航空可达性,整合多种来源的数据,从多角度、多层次、全方位开展分析,对甲型 H1N1流感的流行病学特征、空间分布以及航空旅行扩散进行了探索性的分析、估计和预测。纽约西奈山医疗中心采用了一种预测模型,能够有效地针对高风险患者,将其30 d内再入院率从30%降到12%,且急诊就诊率(3个月以上)也降低了63%[15]。
目前,一些装置利用大数据将疾病的监测也提升到了一个新的等级。例如,Asthmapolis公司研发了一种追踪器,能够记录哮喘患者吸入器的使用,将信息传输到中央数据库,用来了解个人、团体和人群的流行趋势。这些数据还会与疾病预防控制中心的哮喘危险因素数据结合,用以帮助患者制定个性化的预防、治疗计 划[16]。
2.2 疾病诊疗方面 大数据可以帮助医生为患者提供高质量、有效而低成本的治疗方式。安大略理工大学的卡罗琳·麦格雷戈博士和其研究队伍与IBM合作,采用软件来监测处理即时的患者信息,实施对早产儿的病情诊断,在明显感染症状出现的24 h之前,系统就能监测到早产儿身体发出的感染信号[8]。凯萨医疗机构研发 出一 种新 的信 息系 统 (Health Connect),用来确保医疗设施的数据交换和促进电子健康档案系统 (EHRs)的使用。据估计,这个系统能改善心血管疾病的治疗效果,并且节省大约10亿美元的医疗资源[16]。
大数据对循证医学也有着巨大的作用。将个人数据集加入大数据算法能为循证医学提供最坚实的证据,发现小样本无法发现的细微差别,为医生提供最新的证据,指导临床实践。纪念斯隆-凯特琳癌症中心和沃森超级计算机合作,利用60万份医疗证据,150万条患者记录以及肿瘤研究领域中42种医疗杂志和临床试验的200万页文本数据,研发出一种治疗决策工具。利用大数据,沃森可以现场为医疗工作者提供治疗建议,与沃森一起工作的护士,有约90%采纳了其建议[17]。
此外,大数据的分析能力还能将系统生物学数据 (如基因、蛋白质、生物小分子的相关数据)和电子健康病历数据结合,使基因测序、个性化药物及个人健康管理等个性化医疗变成临床实践[18]。例如,韩国生物医学中心就计划运行国家DNA管理系统,将DNA和患者医疗数据结合,为患者提供个性化的诊断和治疗[19]。
2.3 医药研发和评价方面 利用大数据改善治疗措施的同时,也能提高制药公司研发的效率、促进其研发出能够获得更好疗效的个性化药物。医药机构在新药研发阶段,能够通过大数据,分析公众的药品需求趋势,确定更为有效率的投入产出比,合理配置资源[13]。此外,研究者也能够以一种整体的方式,评估来自基因组学、蛋白质组学、代谢组学与临床试验等数据,从而更快、更准确地研究个性化的治疗方法[20]。
大数据还能够缩短药物的上市时间,增加其临床试验的成功率。例如在中药上市后,可以利用大数据整合上市后各研究阶段可获得的所有数据 (包括Ⅳ期临床试验数据、被动监测数据、主动监测数据、医疗数据和文献数据等),进行多角度、多层次、全方位的分析,更有利于全面把握所上市中药的安全性、有效性和经济性,从而为临床合理用药提供更有价值的参考[21]。美国食品与药品管理局也计划使用大数据方法,通过综合和追踪包括科研人员和消费者、出版物、制造、广告、药房、和促销支出等多种来源的数据,调查药品核准标示外的市场销售[4]。
3 面临的挑战
3.1 技术方面的挑战 传统意义上的数据分析主要针对结构化数据展开,且已经形成了一整套行之有效的分析体系,这一套处理流程在处理相对较少的结构化数据时极为高效。但是随着大数据时代的到来,半结构化和非结构化数据量迅猛增长,给传统的分析技术带来了巨大的冲击和挑战。此外,一些国家的医疗系统已经通过政府和其他机构,准许使用医疗系统中的患者数据。例如,丹麦的政府准许研究者获取1970年到现在患者的匿名数据(包括健康指标和住院数据)[4]。为了形成对疾病或患患者群的整体观,连续收集同一数据 (纵向数据)和结合多种类型的数据 (如不同患者的EMRs、社会人口学资料、医保数据等)都是非常必要的。而数据的广泛存在性使得数据越来越多地以不同的形式,散布于不同的系统和平台中。医疗大数据除了大数据所具有的“4V”特征外,还具有多态性、不完整性、时间性及冗余性等特征[22]。为了便于进行数据分析,需要解决数据的异构性、数据的质量问题,各方面产生的大数据有待进行有效的整合。
3.2 隐私和权利保护 医学数据不可避免地会涉及患者的隐私问题,包括病情、个人信息甚至基因、蛋白数据等,一旦泄露,可能会使患者的日常生活遭到不可预料的侵扰。美国医学会的医学伦理原则指出,只有医生或为患者提供咨询、治疗、诊断等服务的专业人员,才能使用患者机密的医疗信息,其他人必须要在获得患者明确的同意后才可使用。但研究者都认为这种方法既费时又会增加成本,甚至在基于人口学资料进行分组时,不同分组的数据来源会基于患者的倾向,影响研究结果。目前,一些专家认为在将数据加入到大数据库之前,通过电脑程序将患者能够被识别的信息从医疗记录中去除可以克服这个问 题[12,17]。然而,由 于 缺乏识 别 信息,其他数据将无法和研究样本整合,不能进行某类人群大范围的研究。而且去识别化过程本身需要处理可识别的信息,可能使患者信息在没有经过知晓、同意和授权的情况下被其他人使用[23]。此外,在现在的法律框架下,与去识别信息有关的研究也不受人体试验研究相关规定约束、不受政府隐私法规的保护,类似基因信息等一些数据也很难做到合适的去识别 化[12]。
4 展望
大数据时代无疑会对医疗卫生领域产生巨大影响和推动,它可以揭露健康的影响因素,将最适合的治疗方式提供给个人或群体;能够促进新的发现,优化治疗结果和削减开支。大数据也会通过数据的开放,将医疗信息直接传递给患者,从而改变目前将患者的记录储存在医疗机构,置患者于被动位置的模式。可以预见在不久的将来,患者也会越来越多地参与到自己的健康管理中,并在其中占主导地位。然而大数据研究是一个近几年来新兴的、正在快速发展的技术,尤其是在医疗行业的应用,将会面临更多的挑战。为了实现大数据的价值,医疗行业需要提高数据的标准化和互用性,促进信息的共享,建立有效的数据管理方式,改进分析技术和方法,培 养数据分 析专业人 才[12]。总 之,要解决医疗大数据问题仍有很长的路要走,期望本文的介绍能给研究医疗大数据方面的同行学者提供一些参考。
[1]Lunch C.Big data:How do your data grouw?[J].Nature,2008,455(7209):28-29.
[2]Kum HC,Ahalt S,Carsey TM.Dealing with data: governments records[J]. Science,2011,332(6035):1263.
[3]LiGJ,Cheng XQ.Research status and scientific thinking of big data[J].Bulletin of the Chinese Academy of Sciences,2012,27 (6):647-657.(in Chinese)李国杰,程学旗 .大数据研究:未来科技及经济社会发展的重大战略领域——大数据的研究现状与科学思考 [J].中国科学院院刊,2012,27(6):647-657.
[4]Szlezak N,Evers M,Wang J,et al.The role of big data and advanced analytics in drug discovery, development, and commercialization [J]. Clin Pharmacol Ther,2014,95(5):492-495.
[5]Meng XF,Ci X.Big data management:concepts,techniques and challenges[J]. Journal of Computer Research and Development,2013,50(1):146-169.(in Chinese)孟小峰,慈祥.大数据管理:概念、技术与挑战 [J].计算机研究与发展,2013,50(1):146-169.
[6]Bryant R,Katz R H,Lazowska E D.Big-Data Computing: Creating Revolutionary Breakthroughs in Commerce[J].Science and Society.2008,(8):1-15
[7]Barwick H.The“four Vs”of Big Data. Implementing Information Infrastructure Symposium[EB/OL].[2012-10-02]. http://www.computerworld.com.au/article/ 396198/iiis_four_vs_big_data.
[8]Schonberger MV,Cukier K.大数据时代[M].盛杨燕,周涛,译.浙江:浙江人民出版社,2013:9.
[9] Chen H,Deng B.Enlightenment and exploration of big data [J]. China Information Security,2013,35(7):48-49.(in Chinese)陈晖,邓赟.大数据的启示与探讨[J].信息安全与通信保密,2013,35(7):48 -49.
[10]Manyika,James,et al.Big data:The next frontier for innovation,competition.and productivity [R ]. Technical report, McKinsey Global Institute,2011.
[11]Murdoch TB,Detsky AS.The inevitable application of big data to health care[J]. JAMA,2013,309(13):1351-1352.
[12]EL-EMAM,Khaled,et al.A Policy Forum on the Use of Big Data in Health Care.Bipartisan Policy Center.[2013-12- 3] .http://bipartisanpolicy.org/ library/research/policy-forum-use-big -data-health-care.
[13]Zhou GH,Xin Y,Zhang YJ,et al. Study on big data′s applications in medical and health field[J].Chinese Journal of Health Informatics and Management,2013,10(4):296-304.(in Chinese)周光华,辛英,张雅洁,等.医疗卫生领域大数据应用探讨 [J].中国卫生信息管理杂志,2013,10(4):296-304.
[14]Chang CY,Cao CX,Wang Q,et al.The novel H1N1 influenza a global airline transmission and early warning without travel containments [J]. Chinese Science Bulletin,2010,61(12):1128-1133. (in Chinese)常超一,曹春香,王桥,等.H1N1甲型流感全球航空传播与早期预警研究[J].科学通报,2010,61(12):1128 -1133.
[15]Karen Minich-Pourshadi.Predictive Modeling Options to Cut Preventable Admissions.Health Leaders Media.[2012-4-13].http:// www.healthleadersmedia.com/print/MAG -278902/Predictive-Modeling-Options-to-Cut-Preventable-Admissions.
[16]Groves P,Kayyali B,Knott D,et al. The′big data′revolution in healthcare. McKinsey Quarterly[2013-1-15]. http://www. payerfusion. com/wp -content/uploads/2014/02/The_big_data _revolution_in_healthcare-1.pdf.
[17]Ward JC.Oncology Reimbursement in the Era of Personalized Medicine and Big Data [J].Journal of Oncology Practice,2014,10(2):83-86.
[18]Xu DQ,Yang HQ.The application of big data healthcare personalized service[J]. Chinese Journal of Health Informatics and Management,2013,10(4):301-304. (in Chinese)许德泉,杨慧清 .大数据在医疗个性化服务中的应用 [J].中国卫生信息管理杂志,2013,10(4):301-304.
[19]Jee K,Kim GH.Potentiality of big data in the medical sector:focus on how to reshape the healthcare system[J].Healthc Inform Res,2013,19(2):79-85.
[20]Deyati A,Younesi E,Hofmann-Apitius M,et al.Challenges and opportunities for oncology biomarker discovery[J].Drug Discov Today,2013,18(13-14):614 -624.
[21]王永炎,谢雁鸣,王志飞.大数据时代中药上市后数据的整合与应用 [J].中国中药杂志,2013,59(18):2917-2918.
[22]Gao HS,Sang ZQ.Big data lifecycle and governance in medical industry [J]. Journal of Medical Informatics,2013(9):7-11.(in Chinese)高汉松,桑梓勤 .医疗行业大数据生命周期及治理 [J].医学信息学杂志,2013,35(9):7-11.
[23]Rothstein MA.Is deidentification sufficient to protect health privacy in research?[J]. Am J Bioeth,2010,10(9):3-11.
Application Prospects of Big Data In Healthcare
WANG Xiao,ZHANG Ai-di,YAN Jin.Nursing School Of Central South University,Changsha 410013,China
Big data is a technical hot point recently.With the rapid development of hygienic information construction,medical health field has already entered into"big data era".This article reviews related research results at home and abroad lately and summarizes the definition and research significance of big data and finally introduces the application prospect and main challenges of the big data in hopes of providing useful references for further research.
Big data;Healthcare;Application prospects
R 197
B
10.3969/j.issn.1007-9572.2015.01.028
2014-06-23;
2014-09-27)
(本文编辑:王凤微)
410013湖南省长沙市,中南大学护理学院 (王潇,张爱迪);中南大学湘雅三医院护理部 (严谨)
严谨,410013湖南省长沙市,中南大学湘雅三医院护理部;
E-mail:yanjin0163@163.com