基于大数据研究的医学数据可视化*
2017-01-20黄子杰刘志臻俞向梅陈桂芬张钘铭
许 茜 黄子杰 蔡 晶 刘志臻 俞向梅 陈桂芬 陈 林 葛 亮 张钘铭
·综述·
基于大数据研究的医学数据可视化*
许 茜1,2黄子杰2△蔡 晶1,2刘志臻1,2俞向梅1,2陈桂芬2,3陈 林2,3葛 亮2,4张钘铭2,5
数据可视化是指利用数据分析和开发工具发现大数据中的隐藏信息与内在规律,并将研究结果采用图形图像形式进行表达的处理过程[1]。数据可视化的目的主要是借助于直观易懂的图形化手段,清晰有效地传达与沟通信息,从而实现对复杂数据集的深入洞察。随着电子计算机的普及应用、跨区域的网络连接,现代医学数据呈爆发式增长,而且数据格式多种多样,已然超出了传统统计图表的表现能力,需要借助数据可视化来展示,是大数据挖掘的必然发展趋势。
数据可视化的发展历史
数据可视化领域的起源,可以追溯到20世纪50年代计算机图形学的早期。回溯数据可视化的发展过程,大体可以分为以下三个阶段[2-3]:
1.第一阶段:科学可视化。1987年,由布鲁斯·麦考梅克、托马斯·德房蒂和玛克辛·布朗共同编写的美国国家科学基金会报告《Visualization in Scientific Computing》(科学计算的可视化),强调了新的基于计算机的可视化技术方法的必要性,引发并促进了可视化这一新的研究领域的发展。
2.第二阶段:信息可视化。随着计算机运算能力的迅速提升,人们建立了规模越来越大、复杂程度越来越高的数值模型,并将保存的文本、数值以及多媒体资料进行整合,从而造就了形形色色体积庞大的各种类型的信息集。20世纪90年代初期,一个新的被称为“信息可视化”的研究领域诞生了。在许多应用领域,信息可视化可以对异质性数据集(既有数据形式,也有文本、图形、图像等其他形式)的抽象分析结果提供形象化的阅读与理解支持。1995年,IEEE Information Visualization(国际信息可视化组织)正式创立,标志着信息可视化作为独立的学科被正式确立。
3.第三阶段:数据可视化。21世纪,面对愈来愈庞大复杂的数据库,人们发现仅仅依靠数据分析技术并不能让公众充分理解数据处理结果的正确含义,因此借助于信息可视化的概念,提出了数据可视化。数据可视化指的是利用图形、图像处理、计算机视觉以及用户界面,通过表达、建模以及对立体、表面、属性以及动画的显示,对数据分析结果加以可视化解释。与科学可视化、信息可视化方法相比,纯粹建立在大数据挖掘结果之上的数据可视化,其所涵盖的技术方法不仅广泛而且复杂。
2001年,爱德华·塔夫特的经典著作《The Visual Display of Quantitative Information》(定量信息的可视化展示)首次提出了数据可视化的目的是让读者能快速获取真实而丰富的信息;优秀的图表形式,是对有用数据的完美表达。目前,数据可视化已经提出了许多技术方法,可以根据可视化原理的不同划分为基于几何的技术、面向像素的技术、基于图标的技术、基于层次的技术、基于图像的技术和分布式技术等等[4]。
数据可视化在医学领域的应用现状
可视化的理论与实践自20世纪70年代传入中国,到2000年开始了蓬勃发展。近10年来,医学领域引入了数据可视化研究。
1.数据可视化在医学领域应用情况
随着数据可视化在各学科领域的良好发展,医学领域对其研究和探讨也日益增多。首先表现在临床医学研究方面。面对临床数据量的增长,许多有用的临床信息以零散的无序的方式存在于异构临床信息系统中。临床医疗数据的可视化,向临床医生和健康提供者展现以患者为中心的数据组织模式、方法以及可视化分析技术,可以实现临床信息数据的直观展现;以医疗事件时间轴为次序,将临床事件及相关数据、报告进行可视化,有利于医疗机构进行医疗质量控制,实现大数据环境下的医疗质量精细化管理[4]。医学数据可视化的具体应用,目前主要涉及医院管理系统、医疗保险管理平台、医疗过程中海量数据挖掘与展示、医学经济学实时监控等等[5]。其次在基础医学研究中,大数据可视化技术也一次次震撼了人们的想象。如科学家通过功能性核磁共振和听读实验,对许多常用词汇在大脑中的反应区进行了定位,发现了很多词汇之间有趣的关联,通过可视化建模手段,将其绘制成了动态地图:semantic maps(语义地图)[6]。实际上,医学科学的方方面面,从日常医疗行为到宏观卫生管理,从调查与实验中收集的研究数据到汇集多机构多源头的超大数据仓库,均可利用数据可视化的技术手段,获得富有价值的直观知识[7-9]。
2.医学数据可视化研究的不足
目前,医学数据可视化研究的不足主要体现在三个方面:①应用范围有待拓展。尽管近10年来相关研究有上升趋势,但相对于其他领域的热烈响应,医学领域对数据可视化的反应稍显平淡,在中文科技期刊数据库(维普)中按检索条件:“任意字段=医学可视化”(1989-2015年)共检索到不足4000条记录。②行业特征不够鲜明。数据可视化涉及多学科知识,是典型的交叉学科。目前医学领域数据可视化的研究主要来自计算机专业的软件应用,尚缺乏医学行业本身对数据可视化在本学科的应用研究和深入参与[10],未能充分突显医学的专业特征。③理论体系急需完善。可视化研究本身的发展不过半个多世纪,尤其是数据可视化,发展时间更短,尚未形成完整的理论体系[11]。图形、动画、色彩、结构、路径等元素对数据可视化结果的阅读与理解至关重要,但是目前尚未有学者从人群心理特点出发,深入研究人类图形认知特征,更缺乏对数据可视化所必须依从的原则、方法、评价手段的研究。因此,医学数据可视化也缺乏完善的理论指导。
3.数据可视化的错误使用
数据可视化目前尚缺乏完善的理论指导,难免出现一些错误使用的现象。常见的误用如:①比例失当。如坐标轴的错误裁剪,可造成差异的放大或缩小,引起视觉误差,误导人们对数据的理解;在展示数据的相对数如率、百分比等数值时,人们往往注意率、百分比本身的大小,却忽略了不同的率所来源的基数大小是否一致。②文图不配。数据可视化包含的数据信息容量大,缺乏必要的解释文句而单纯依靠标题常常容易造成对数据内容的描述不足,或过度概括,引出不必要的误读。③繁复难懂。片面追求外形、色彩和构图的美感,简单问题复杂化或复杂问题过于艺术化,导致过多非核心信息的展示,引起阅读者的疑惑。因此,医学领域的数据可视化还需要和医学知识相结合,从专业知识角度进一步审视数据可视化正确与否,避免数据可视化的错误使用[12]。
医学数据可视化研究是必然发展趋势
1.数据可视化突破了传统统计图的局限性
近半个世纪以来,医学领域采用传统的统计图形式表达相关数据,如直方图、折线图、饼图等。这些传统的统计图简单直观,在展示数据时取得了较好的效果。但是随着数据量的增大,这些传统统计图的局限性越来越突出了。传统统计图的局限性主要表现在:①表现力不足,不能表达数值-文字-图形交错的非常规数据集,多种异质性数据没有对应的统计图来表现。②信息量有限。传统统计图构建的一般都是平面二维的图形,无法承载同时带有时间-空间的多维的数据信息。③新颖性欠缺,偏离与人们视听阅读的喜好。研究表明,彩色图形、声音、空间方位、触觉识别等综合的感知,更容易吸引人们的注意力,并且有利于人们对该事物的记忆和理解[13-14]。
数据可视化是传统统计图的升级,它的优势体现在:①花样繁多,没有固定模式,可以一事一图、多事一图、一事多图等。②信息密集,可视化不仅展示了复杂分析的直观性结果,而且能够传递丰富的相关知识,帮助读者深入了解问题的来龙去脉。③多元交互。摆脱了传统统计图的二维限制后,数据可视化能够在多维空间立体层面展示数据,不仅具有更好的表现力,而且能够展示多个变量之间的交互作用,提高读者的理解程度。如王微等[15]利用可视化地图形式,展现了新疆地区结核病空间分布特征及其影响因素;郝世超[16]等构建了中国东中西部老年人的健康期望寿命的年龄序列左右对称条形图,在传统图表的基础上进行了美化改造,使得有限的版面内展现出更为丰富的数据信息。
2.数据可视化适应了医学大数据的时代要求
医学数据涵盖医疗工作的各个方面,包括了结构化和非结构化的各种数据类型。大致来说,可以分为临床数据(有数值型资料、定性或半定量资料、文本资料等)、卫生经济学数据(人均/次均诊疗费用、医疗纠纷费用等)、生理病理药理研究科研数据、医患关系中双方的个人行为和情感数据等[17-18]。如此复杂的数据类型、庞大的数据记录,其内在规律已经不能用单纯的统计分析技术加以解决,必须在数据挖掘的基础上应用数据可视化的理念和技术辅助进行深入的解读。如有研究者对大量、变化、即时、多维的移动医疗数据(运动健身软件中的数据、用户身体健康指标数据)进行可视化设计分析,在精准表达信息的基础上使得用户体验不断提升[19]。
3.计算机技术进步提升了医学数据可视化的实现程度
数据可视化将一大堆密密麻麻的数字或非数字的信息转成直观形式,其实是对知识的一种压缩[20]。与立体建模之类的特殊技术方法相比,数据可视化所涵盖的技术方法要广泛得多[21-22]。数据可视化的核心价值不在于获得海量的数据,也不仅仅是对海量数据的简单描述而是通过数据挖掘等方式对其展开专业的、系统的分析来实现数据的“增值”。数据可视化将整合数据管理、数据挖掘、数据展示多学科知识,实现对大数据的整合、存储、挖掘、检索、决策生成,发现医学领域内在的规律性,从而跨越传统的数据处理,达到精准医学、精准管理的目的。
综上所述,医学大数据的分析、挖掘、有效管理和利用是使其体现出巨大科学与产业价值的关键,现拥有的大数据处理技术是否能够充分分析、挖掘数据蕴藏的价值,应对共享医疗数据后数据集中爆发局面是现今面临的挑战[23]。基于大数据挖掘的医学数据可视化研究和探索,就是将大数据管理的理念和思路引入医学领域,实现医学领域数据管理的新发展。
[1]陆少珍,张贵,张瑞秋,等.从用户研究到产品概念设计的数据可视化研究.新技术新工艺,2015,(2):102-105.
[2]张浩,郭灿.数据可视化技术应用趋势与分类研究.软件导刊,2012,11(5):169-172.
[3]高玥.大数据时代背景下的数据可视化概念研究.电子技术与软件工程,2014,(19):216-216.
[4]郑西川.实践临床数据可视化.中国医院院长,2014,19:72-73.
[5]Santos M,Eriksson H.Making quality registers supporting improvements:a systematic review of the data visualization in 5 quality registries.QualManag Health Care,2014,23(2):119-28.
[6]Alexander GH,Wendy AH,Thomas LG,et al.Natural speech reveals the semantic maps that tile human cerebral cortex.Nature,2016,532(7600):453-458.
[7]齐晨虹,高生鹏.医院信息数据挖掘及数据可视化.中国科技信息,2014(22):115-116.
[8]房强.基于数据可视化的农民工异地医疗分析系统.信息技术,2014(7):136-139.
[9]Chaim TM,Schaufelberger MS,Ferreira LK,et al.Volume reduction of the corpus callosum and its relationship with deficits in interhemispheric transfer of information in recent-onset psychosis.Psychiatry Research:Neuroimaging,2010,(184):1-9.
[10]邹北骥.大数据分析及其在医疗领域中的应用.计算机教育,2014,7:24-29.
[11]蔡佳慧,张涛,宗文红.医疗大数据面临的挑战及思考.中国卫生信息管理杂志,2013,4:292-295.
[12]张振,周毅,杜守洪,等.医疗大数据及其面临的机遇与挑战.医学信息学杂志,2014,6:2-8.
[13]王光荣.发展心理学研究的两种范式--皮亚杰与维果茨基认知发展理论比较研究.华中师范大学学报(人文社会科学版),2014,53(5):164-169.
[14]姚强,张耀光,徐玲,等.国家卫生服务调查学术贡献和影响力定量研究.中国卫生信息管理杂志,2014,3:199-205.
[15]王微,靳圆圆,王泽,等.新疆地区结核病空间分布特征及其影响因素研究.中国卫生统计,2016,8(33):672-674.
[16]郝世超,符健,周鼒,等.中国老年人健康期望寿命及其影响因素研究.中国卫生统计,2016,6(33):408-411.
[17]李静丽,马霞,甄天民,等.基本公共卫生服务文献计量分析.医学信息学杂志,2014,35(5):47-50.
[18]Lee S,Kim E,Monsen KA.Public health nurse perceptions of Omaha System data visualization.Int J Med Inform,2015,S1386-5056(15):30017-30024.
[19]胡安妮,许懋琦.移动医疗数据可视化研究.设计,2016(5):138-139.
[20]李田丁,王莉.浅谈大数据时代的数据挖掘和数据可视化.图书情报导刊,2016,1(1):100-104.
[21]罗旭,刘友江.医疗大数据研究现状及其临床应用.医学信息学杂志,2015,5:10-14.
[22]孙品一,周峰.探讨大数据时代下的数据可视化.设计,2016(7):136-137.
[23]Fan J,Han F,Liu H.Challenges of Big Data analysis.NatlSci Rev,2014,1(2):293-314.
(责任编辑:刘 壮)
福建省自然科学基金面上项目(2016J01665)
1.福建中医药大学中西医结合学院统计生物医学教研室(350122)
2.福建中医药大学医学大数据研究室
3.福建中医药大学人文与管理学院计算机科学与信息管理教研室
4.福建中医药大学人文与管理学院管理学教研室
5.福建中医药大学人文与管理学院心理学教研室
△通信作者:黄子杰,E-mail:2015003@fjtcm.edu.cn