国内外医疗数据可视化研究的现状分析与展望*
2021-07-05刘春鹤李艳君赵玉虹
刘春鹤 张 晗 惠 文 李艳君 赵玉虹**,,4
(1.中国医科大学医学信息学院,沈阳110122;2.四川大学华西医院图书信息中心,成都610041;3.中国医科大学附属盛京医院教务部,沈阳110004;4.中国医科大学附属盛京医院临床研究中心,沈阳110004)
随着“互联网+医疗”的快速发展,健康医疗行业产生的数据量呈爆发式增长,近年来全球许多国家都在极力推进医疗信息化的发展,医疗数据的分析和应用对提高医疗效率和医疗效果发挥着巨大的作用,因此当务之急是有效组织和利用医疗数据,使其成为行业的有力“助推器”[1]。美国McKinsey公司的一项报告显示:医疗行业数据的应用每年可为美国医疗卫生机构节省大约3000亿美元的支出[2]。我国国务院发布的《“健康中国2030”规划纲要》中明确提出要“推进医疗健康大数据开放共享、深度挖掘和广泛应用”[3]。当前健康医疗相关的数据体量庞大、分布分散、复杂多变;健康数据分析、决策支持、科普等方面对医疗信息可视化都有着巨大的需求[4,5]。而现实情况是,即使在发达国家也只有不到15%的人能够凭借自身知识基础和健康认知力理解复杂的健康数据集所表达信息[6]。人们亟需去开发和使用有力的手段来处理当前海量的医疗数据。
“一图胜千言”,数据可视化是有效提高数据应用效率的手段之一。它是利用人眼的感知能力对数据进行交互的可视化表达,以增强认知的技术[7]。数据可视化作为一种媒介将晦涩的原始数据与数据用户连接起来,对原始数据有效整合、反馈,有力地促进了信息的传递与交流。
近年来,越来越多的学者将注意力聚焦到数据可视化领域,在CNKI数据库中“可视化”主题的文献多达近25万篇,由这些文献所属学科分布图(图1)可见,可视化研究在情报学、地理学、建筑学、自动化等诸多领域已有大量的文献,相比之下医学相关学科,如临床医学、医学教育与医学边缘学科、生物学、外科学等学科占比非常少,总和不到5%。从图2可知Web of Science中可视化主题的文献属于医学相关领域的有20%左右(其中放射医学核医学医学影像领域7%、外科学4%、神经科学4%等)。这一现象反映出两个问题:一是相比其他学科的数据,医疗数据作为大数据时代重要的信息组成部分,其可视化研究的程度还有极大的发展空间;二是国内外医疗卫生领域可视化研究的侧重程度明显不同。
图1 中国知网可视化主题文献学科分布情况Fig.1 Visualization Topic Document Distribution in CNKI
图2 Web of Science可视化主题文献分布Fig.2 Visualization Topic Document Distribution in Web of Science
为了系统地对国内外相关研究主要内容、集中趋势和特点进行挖掘和对比,本文采用知识图谱的方法对国内外医疗数据可视化研究进行分析。知识图谱 (Knowledge Mapping/Knowledge Graph)能够从结构化的、半结构化的或非结构化的数据源中抽取实体及实体间的关系,并以图谱的形式呈现;它能够同时被人和机器所理解,为使用者提供从关系分析问题的能力[8]。知识图谱已被广泛应用于众多领域的知识挖掘,应用技术相对稳定和成熟。目前国内应用知识图谱分析医疗数据可视化领域发展情况的研究很少,尚未见同类文献报道。健康医疗领域数据可视化研究对推进医学知识传递、成果交流、技术优化等方面尤为重要。本文旨在揭示国内外医疗数据可视化研究的发展规律及特点,希望能够通过国内外相关研究的对比,促进二者之间互通有无、取长补短,丰富医疗数据可视化研究的视角,为国内外医疗数据可视化研究的发展提供参考,进而促进数据时代医疗卫生事业的全面发展。
1 研究方法
1.1 数据来源
外文文献数据:选取了文献质量高、在业界具有较高影响力、科睿唯安旗下科学信息研究所出版的Web of Science核心数据库(WOS)。检索时间为 2020年 4月 2日,检索策略:以“visualization”为主题查询Article类型的文献,并从中选取了医药卫生、生物医学相关学科的文献,时间跨度为2010—2019年。
中文文献数据:检索CNKI、维普网、万方数据三个中文全文型数据库中2010—2019年的文献,具体策略:在CNKI的学术期刊库中选择“医药卫生科技”分类,在“主题”字段检索“可视化”;在万方期刊数据库中选取“医药卫生”分类,在“主题”字段检索“可视化”;在维普期刊服务平台中选择“医药卫生”分类,在“题名或关键词”字段检索“可视化”。最后对三个数据库来源的文献进行合并、去重、清洗。
经过文献检索、清洗,共收集到相关外文文献32401篇、中文文献4058篇。
1.2 研究工具与方法
本文使用了美国Drexel University陈超美教授开发的Java应用程序CiteSpace(5.6.R4版本)做文献分析。CiteSpace是一种渐进式知识领域可视化工具,它基于Price的“科学前沿理论”,结合共引分析和引证分析,创建出由“知识基础”映射到“研究前沿”的理论模型[9,10]。它能够分析科学文献中的趋势和模式[11]。
设置文献处理时间窗切片为1年,主题元素来源于Title和Author Keywords(DE)两个字段,网络节点类型选择Keyword。为了使中英文数据库中提取的节点样本兼顾代表性和可比性,筛选阈值选择了g-index,k=25。在时间切片内,节点连接之间运用Cosine算法计算网络节点的关联强度。最后对每个切片和合并后的网络使用Pathfinder算法进行裁剪,其作用是简化网络并突出其重要的结构特征,使结果具备更高的可读性[6]。另外,通过人工编辑 project中的 alias文件,对数据进行二次清洗,在项目运行时对节点中存在大量的同义词近义词实施了合并处理。
2 研究结果
2.1 中外医疗数据可视化研究的文献分布
图3展示了2010—2019十年间国内外医疗数据可视化文献的发表情况。从累计发文数量看,外文相关文献的数量一直处于上升趋势;中文相关文献发表数除了2015年有小幅降低以外,总体上也呈现逐年增加的态势。年发文量是一个研究主题所受科研关注度的一个重要指标,国内外持续上升的年发文量表明了科研人员对于医疗数据可视化研究的关注程度在逐渐提高,该主题一直是国际科学研究的焦点之一。而2015年之后年国内文献增长幅度有明显提高,也说明了我国有越来越多的学者将目光投向医疗数据可视化领域的研究和探索。
图3 中外医疗数据可视化研究文献分布情况Fig.3 Distribution of Chinese and Foreign Medical Data Visualization Research Literature
另外,观察WOS中的文献国家分布情况(图4),来自美国的科研论文比例最高,约占35%;其次是德国,约占12%;有大约11%的论文是来自中国(PEOPLESR CHINA)学者。一方面可见国内医疗数据可视化的研究成果总数已经在相关国际学术领域占据了举足轻重的位置,另一方面,结合国家人口和科研人员的数量来考虑,我国在该领域的研究还有极大的发展空间。
图4 2010—2019年WOS医疗数据可视化研究文献国家分布情况(TOP20)Fig.4 2010-2019 WOS Medical Data Visualization Research Literature National Distribution(TOP20)
2.2 中外医疗数据可视化研究的主题聚类情况
使用CiteSpace能够实现提取节点的共现分析,通过共现次数来测度节点之间的亲疏关系,进一步绘制聚类图谱和时区图谱。本文以Keyword作为节点,选择Log-likelihood Ratio算法对网络进行聚类,所得图5、图6分别是国内、图外医疗数据可视化研究的主题聚类图谱,其中图5的Q值为0.8721,图6的 Q值为0.8394,属于高模块化值,证明生成的两个主题共现网络结构显著;图5的 S值为 0.4914,图6的 S值为0.7719,证明国内主题共现网络的轮廓量度表现一般,类间分离程度不是十分明显但也在合理范围之内,国外主题共现网络的轮廓量度表现较好,聚类间分类程度相对明显,生成的聚类结果较为合理。两组图谱中有相当一部分主题具有极高的相似性,如#8 Spatio-temporal Data Fusion和#0时空扫描、#16 Wall Shear Stress和#12壁面剪应力/#13生物力学、#9 Bibliometric Analysis和#11社会网络分析/#19共词分析等。这些相似的聚类结果一方面证实了本文方法的科学性,对于不同数据集的处理结果具有较好的集中趋势,另一方面也展示了国内外医疗数据可视化研究领域的一些共性热点。
图5 国内医疗数据可视化文献研究主题聚类图Fig.5 Chinese Medical Data Visualization Literature Research Topic Cluster Map
图6 国外医疗数据可视化文献研究主题聚类图Fig.6 Foreign Medical Data Visualization Literature Research Topic Cluster Map
从图5可知,这十年国内的医疗数据可视化研究的主题主要集中于如下几个方面:时空数据分析(#0)、人体生理病理组织结构的成像(#1、#7、#8、#18)、可视化软件和技术开发(#4、#9、#16)、计算机可视化辅助治疗(#10、#14、#20等)、生物力学(#12、#13)、文献计量学研究(#11、#19)、交叉学科应用(#5、#2、#17)、中医学相关的可视化(#6)。国外的医疗数据可视化研究的主题比较具体(图6),主要集中于:人体生理组织的可视化(#3、#4、#5)、时空数据可视化(#8)、生物信息学(#0、#12、#22)、计算机辅助诊断(#6、#15、#18)、计算机辅助治疗(#7、#11、#17、#21)、生物力学(#16)、文献计量学(#9)。相对于国内的可视化相关研究而言,国外研究主题的粒度更加细化,专业也更加深入。除了上述二者相似的研究主题之外,国内研究也有其独有的关注焦点,比如中医学治疗方法的可视化研究(#6)、可视化工具软件的开发和探索(#4、#9、#16)。
2.3 中外医疗数据可视化研究主题的时间分布情况
时间线图能够展示研究主题在时间维度上的演变情况,图7、图8分别是国内、国外医疗数据可视化研究文献主题分布的时间线图。图中每一条横线代表一个聚类主题,线上各节点分别表示聚类中的若干个重要主题,每个主题概念对应图顶端的年份代表该主题首次提出的时间,节点大小表示主题出现总频次的高低,节点之间的弧形连线代表所连两主题之间存在共现关系,即在同一项研究中作为相关主题出现。
图7 国内医疗数据可视化研究主题时间分布图Fig.7 Timeline of Domestic Medical Data Visualization Research Topics
图8 国外医疗数据可视化研究主题时间分布图Fig.8 Timeline of Foreign Medical Data Visualization Research Topics
由图7可见,2010年以来国内医疗数据可视化研究的分支非常多元化。国内医疗数据可视化研究中一些内涵较广泛的概念,如“三维重建”“三维可视化”“可视化技术”等主题贯穿这一时段的始终,与后续的众多主题之间都有交集。深入剖析文献发现有关“三维重建”和“三维可视化”的研究绝大多数是基于传统影像技术如CT、磁共振的成像结果,通过某些特定的仪器或计算机算法实现研究对象的三维模型呈现。我国的“虚拟中国人计划”起始于21世纪初,此后涌现出大量关于构建人体生理病理组织三维可视化模型的研究。经过十余年的探索,2010年之后的三维可视化研究已从之前的技术实现研究逐渐转变为成果应用研究,如三维可视化模型结合传统解剖学在基础医学教学中的推广[12,13]、三维病理组织还原可视化辅助临床诊断治疗[14]、各种对具体部位的可视化辅助诊断治疗研究等。具体部位疾病的可视化辅助治疗研究主要集中于骨关节、心脑血管、肝、肾部位等,其他部位疾病的相关研究文献并不突出。另外“生物力学”的相关研究可以说是可视化应用在生物性能上的延伸,应用最多的就是眼科临床中使用可视化角膜生物力学分析仪分析活体角膜的生物力学特性[15,16]。
2010—2019 年这一时间段的初期就表现突出的主题还有“文献计量学”,其中“共现分析”“聚类分析”“知识图谱”“热点研究”“社会网络分析”都属于其相关研究范畴,此类研究方法能够基于相关文献集中分析某一领域的研究特征和规律,分析结果往往是通过可视化图表来展示。因其具有不受学科限制的特点,所以被广泛应用于诸多领域,医疗卫生领域也是其应用的主要学科之一。如基于医学某专题的文献,利用其主题、机构、作者等信息建立关系网络,挖掘该专题的内在联系及隐含信息,或某一研究对象的发展演化过程。这一类主题伴随着社会网络分析软件不断开发和应用,有了长足的发展,如Citespace(2011年)、Pajek(2012年)、Histcite(2013年)、Vosviewer(2015年)等都有大量的应用研究。
时空数据研究在医疗数据可视化领域也占据了一席之地。其中大部分是对疾病时空聚集性(2017年)及地理信息系统(2011年)的研究,广泛应用于展示流行性疾病的一般特征分布、时间聚集分布和空间聚集分布,从而推断疾病的流行趋势、发病诱因等。
随着大数据时代的推进,人们获取信息的渠道越来越多元和便捷,处理信息的粒度更加细致。近五年国内医疗数据可视化的相关文献数量更是急剧上升,主题分布也从“传统主题”占据绝对优势的形势演变为多元主题并存、共同发展的现状,如网络药理学(2011年)、生物信息学(2017年)、组学(代谢组学2014年、基因组学2016年,影像组学2018年)等主题不断丰富,而像3D打印(2015年)这样的新兴主题也层出不穷。
国外医疗数据可视化研究主题时间分布图(图8)中显示,传统医疗可视化技术,包括影像学成像技术如 MRI、CT、Ultrasound、Tomography等和各种腔镜技术如Endoscopy、Laparoscopy等在整个研究发展中充当了重要的角色,后续许多影像学可视化研究都是在上述技术的基础上进行工具或算法的改良优化,如4D Flow MRI(带有时间分辨率的三维相位对比磁共振成像,2013年)、fMRI(功能磁共振成像技术,2012年)、Micro-ct(微型CT,2011年)、Cryo-electron Tomography(低温电子断层扫描,2017年)等,都与前者之间有着密切的联系。可视化技术辅助临床治疗的应用在国外医疗数据可视化研究中非常广泛,如Telemedicine(远程医疗,2018年)、Fluorescence-guided Surgery(荧光引导手术,2017年)、Transoral Robotic Surgery(经口机器人手术,2017年)、Computerassisted Surgery(计算机辅助手术,2016年)等都是其典型的应用。针对具体疾病探索和应用多集中在肿瘤(Breast Cancer,2010年;Brain Tumor,2013年;Melanoma,2013年;Ovarian Cancer,2015年;Glioblastoma,2017年)、神经系统疾病(Spinal Cord Injury,2015年;Neurosurgery,2012年)、心脑血管疾病(Myocardial Infarction,2011年)。
与国内研究相比,国外相关研究最大的特点就是有关生物信息学的可视化研究,早在2010年Bioinformatics(生物信息学)就已经以一个独立的主题存在,并已具备一定的研究基础。生物信息学是通过综合利用生物学、计算机科学和信息技术,研究生物信息的采集、处理、存储、传播、分析等,揭示大量而复杂的生物数据所赋有的生物学奥秘的一门新学科[17]。生物信息学的研究结果往往通过可视化图的形式展示,因此国外这十年的医疗数据可视化研究中,有大量属于生物信息学主题的文献出现,Machine Learning(机器学习,2013年)、Protein-protein Interaction Network(蛋白质互作网络,2015年)、Next-generation Sequencing(下一代测序,2013年)、Gene Ontology(基因本体,2016年)、Comparative genomics(比较基因组学,2017年)、Deep Learning(深度学习,2018年)、Convolutional Neural Network(卷积神经网络,2018年)、WGCNA(加权基因共表达网络分析,2019年)等围绕生物信息学展开的分支主题分布在本文研究的整个时间跨度中。其研究范围广泛、规模庞大,且生物信息学相关主题的粒度也已经非常细化,目前处于深入研究挖掘的阶段。
关于文献计量学的主题在国外相关研究中也有所体现,但总体上占比甚微。
2.4 国内外文献主题突现情况
突发监测(Burst Detection)是康奈尔大学计算机科学系的Kleinberg[18]在2003年提出的一种算法。Kleinberg认为“突发”是一种现象,而突现词则是在某段时间内相对增长率(词在某时刻的发展速度相对它自身平均的发展速度)突然增长的词[19]。如果突现词为关键词,则它可以反映文献集中某一时段关注度突然增长的研究主题和内容。Citespace可以基于此算法测定某研究领域中突现词,运算结果分别可以按照Duration(突现年份)、Strength(突现强度)和 StartingYear(突现起始年)降序显示。突现词强度越高,说明突现年份中该关键词的共现频次骤增的程度越强。在 Configure the detection model中设置α1/α0=2,αi/αi-1=2,The Number of States为 2,γ[0,1]为0,Minmum Duration为2,结果国内相关文献关键词中共测出64个突现词,国外文献中共181个突现词。
表1~3为国内外数据集得出的突现词分布情况。图中突现年份的每一行有10个点,分别对应2010—2019年之间的10个自然年,实心点代表该突现词在对应年份出现“突发”现象,●表示该突现词虽然在2010—2019年之间出现过“突发”现象,但当前已过了突发阶段。■表示直到2019年该词仍处于突现“热期”,虽然可能突现期截止于2019年,但很可能“热期”继续向后期延续。表1为突现强度前20的突现词,由表1可见国内相关文献中突现强度最高的几个关键词“三维重建”“可视化人体”等均分布在2013年之前,只有“3D打印”和“生物信息学”在当前有爆发增长趋势。外文文献中“microRNA”和“3D printing”既是当前的研究热门也具有很高的突现强度,可以说是当前在医疗数据可视化领域关注度最强的主题概念之一。
表1 突现强度前20的国内外医疗数据可视化研究突现词表Tab.1 Top 20 Strongest Bursts of Medical Data Visualization Domestic and Foreign
表2 国外医疗数据可视化研究突现词表1)Tab.2 Bursts of Foreign Medical Data Visualization1)
表3 国内医疗数据可视化研究突现词表1)Tab.3 Bursts of Domestic Medical Data Visualization1)
表2、表3是国外、国内突现词分布年持续至2019年的词表,即当前仍具备突发性的关键词。经过对比发现,表2中突现词的突现强度分布比较均匀,在3.9906~13.334之间,而全部外文突现词的突现强度跨度在0.207~13.334之间,因此表2中突现词强度总体偏向高值。表3中突现词的突现强度在2.4127~5.8513之间,而全部中文突现词的突现强度在2.4127~38.7439之间,可见表3中突现词强度总体严重偏低。这一现象说明国内相关研究立题角度新增的爆发性主题与国外相比较少,且爆发的强度较小,并没有出现像本时段初期类似“三维重建”或“人体可视化”这样集中趋势明显且增幅数量极大的热门研究主题。另外,通过观察具体突现词内容发现近年来国外的研究趋势倾向于更细粒度的内容如“Protein-protein interaction network”“Genome”“Pathway”“Metagenomics”,对应国内的研究则表达为上述主题的上一层次概念“生物信息学”。国外研究的集中性增长已经明显体现在具体病症的可视化分析上,如“Glioblastoma”“Gastric cancer”“Glaucoma”等,而这种特点在近期的国内热门主题上并没有显现。
3 讨论
3.1 国内外医疗数据可视化文献分布情况
无论是国内还是国外的医疗数据可视化研究,年发文量增长幅度都在持续走高。2010—2019年国外相关文献量的年增长幅度趋于平稳,而国内相关文献在2015年之后有了大幅度提升,可见国内研究者对医疗数据可视化领域的科研关注程度明显提高。随着全球医疗数据数量的迅猛增长,越来越多的学者倾向于思考如何更加有效地利用医疗数据信息资源。可视化方法不仅在形式上多种多样、能够批量表达数据信息,而且优质的可视化表达也可以提高用户和研究者对医疗数据的统计分析效率和协助使用者深入理解数据信息,这也是相关研究文献量明显增加的原因。来自美国的研究论文数量最多,除了中国位居第三,排在前列的绝大部分都是发达国家,这与国家整体医疗行业发展水平、科学研究水平、信息资源的开发能力和重视程度都有密不可分的关系。
3.2 研究主题分布特点
纵观2010—2019年国内外医疗数据可视化研究的主题分布,其共同点主要集中于以下几个方面:医疗数据时间空间维度的可视化研究、计算机辅助临床诊断治疗、生物力学应用的可视化和科学计量学。
时空数据的研究角度非常多元,国内此类研究集中于对某些流行疾病(如布鲁氏菌病、手足口病等)的时空聚集性流行分布、疾病病程发展,还有医疗相关的地理信息系统可视化[20,21],而国外则多体现在具备时间维度的医学图像的呈现,以及病人临床检测等[22-24]。由此可见,虽然都是以“时空”数据为主题,但国内外的研究侧重却大相径庭,从技术水平要求上看,具备时间维度的医学图像的产生在框架构建和算法设计上要求更高,其派生出可视化成果能够为医师提供以前无法获得的大量信息和更安全的程序[22],这个研究方向给未来医疗数据可视化研究者提供了很大的挑战和契机。
医学相关的科学计量学可视化研究则包括社会网络分析、文献计量学分析等,这一领域国内外的研究方法和内容比较类似,主要以某种疾病或某个医疗卫生主题为出发点,利用数据库或文献提供的指标挖掘其内在特征和内涵[25-29]。国内的医疗数据可视化研究在人体组织结构和病理生理成像上有很大侧重,另外对中医药医疗数据可视化的研究也是国内研究的特色之一。国外研究中比较突出的重点主题就是“生物信息学”,这一主题不仅占据很大比例而且在研究粒度上也更加精细,基因和蛋白生物特性、它们对生理病理过程的作用机制、以及它们之间的互作关系都是当前国际医疗数据可视化研究中的热点。虽然国内近年来此类研究也有所起步,主要集中在2015年之后,但在研究深度和粒度上还需要进一步扩展。
3.3 主题时间分布特点
2010—2019 年间国内外医疗数据可视化研究在传统影像学技术的发展和延伸上都有体现,但研究阶段有所不同。2010年前后国内研究尚没有完全脱离基础技术实现的阶段,虽然单纯使用成像技术探索人体生理构造、建立模型的研究已经很少出现,但仍有类似“图像配准”这样的主题在研;随着时间的推移国内此类研究才慢慢逐渐转向技术优化和升级的层面。在这一时段国外研究中关于影像学技术的多为工具和算法的优化和改良,并将改良方法应用于临床实际。
关于文献计量学、知识图谱、社会网络分析的研究在国内非常盛行,贯穿了本文研究的整个时段,但国外研究中直到2018年才出现明确的Bibliometrics主题,期间出现的 Network Analysis(2014年)更多是属于网络药理学和生物信息学方面方向的研究。相反的,在国外研究中关于生物信息学主题的内容非常广泛,其子主题丰富,贯穿近十年医疗数据可视化研究,但直到2017年才以独立主题的形式出现在国内的研究中。由此可见,国内外研究中虽然存在相似的主题,但其侧重点却有所不同。
国内外医疗可视化技术辅助临床诊断治疗的研究在时间上没有明显的差别,分布均匀,仅在治疗部位和疾病病种上有所区别。
3.4 研究热点分布特点
对于医疗数据可视化研究热点趋势的探索,国内外文献的分析结果有明显差异。国外研究中最近3~4年新兴主题的突现分布比较均匀,主题数量多,且突现强度值偏高(BurstnessMAX=13.3337),充分体现了其“百家争鸣”“活力充沛”的良好研究发展趋势。国外突现性较强的主题集中在“生物信息学”、具体部位疾病的诊断治疗、“三维可视化”和数据挖掘几个方面,可视化辅助诊断治疗的对象明确,部位准确,研究粒度较小。国内研究的高值突现词主题则分布在2010—2019年区间的前半部,如“三维重建”“可视化人体”“体绘制”等主题多偏向于传统人体生理构造的成像,其他类型的主题较少,近3年的新研究点突现值均处于较低值部分,总的来讲有些“活力欠缺”。
由此可见,虽然我国在医疗数据可视化领域的总文献数量逐年递增,但在开发科研创新点这个层面上还需要更加深入的思考和探索。在突现主题内容上可以借鉴国际研究的丰富经验将主题细化,如将大主题“生物信息学”继续向“Protein-protein Interaction Network”“mRNA”“Pathway”“microRNA”等子主题深入发展;将广义的“数据分析”细化到具体某个层面的、某种性质或某个维度的数据来分析,以此来丰富国内相关研究的深度和广度。
4 结论与展望
4.1 医疗数据可视化应用的现状
随着计算机技术的蓬勃发展和大数据时代的到来,科学研究手段继实验、理论和计算仿真之后迎来了它的第四种范式:“数据密集型科学”[30]。越来越多的研究者意识到想要从海量的数据中获取知识、挖掘真知、验证科学假说,就必须探索更为高效的数据挖掘途径,而数据可视化是实现这个目的的重要途径,因此对各学科领域的数据可视化应用研究日益增加。近十年在基础医学、临床医学以及其他医学相关领域的数据可视化研究都有长足的发展,国内外相关研究数量均呈现明显增长,国内相关研究数量更有指数攀升的趋势。
国内外医疗数据可视化研究的共同之处主要集中于传统影像学技术应用及改良、生物体模型的构建、计算机可视化辅助临床诊疗、文献计量学领域、生物力学模型等主题,以及一些新兴主题,如3D打印技术、深度学习等。但国内外研究在上述主题上的侧重程度却有明显的区别:国内医疗数据可视化研究有很大份额集中在文献计量学、社会网络分析这类主题中,但国外研究在这类主题上虽有涉及,但并不多见;国外研究大比例地体现在生物信息学方面的挖掘研究,国内文献中生物信息学的研究占比较少且内容尚不深入。
从研究主题“活跃性”的角度来看,近十年国外医疗数据可视化相关研究突现主题数量多,且突现强度普遍比国内研究主题的突现强度高,最近3~4年新兴主题丰富且分布比较均匀。国内研究的高值突现词主题主要分布于2010—2013年,内容以传统影像学成像、可视化人体模型构建及计算机辅助治疗为主;最近几年新增的突现主题研究角度逐渐多元,涉及3D打印、生物信息学、手术前计算机辅助规划评估、麻醉学、专利评估、时空聚集数据的可视化等,其突现值分布在2.41~5.85之间。
4.2 国内医疗数据可视化研究存在的问题及其应对思路
4.2.1 起步晚、虽数量增加但活力不足
从相关研究文献的年发文量可以看出,早期国内医疗数据可视化的研究并不多,且在相当一段时间内增幅缓慢,在2015年后才出现了爆发式的增长。结合国内外医疗数据可视化研究突现词的分布发现国内研究的高强度突现概念大都出现在2010—2013年,近五年的研究中显示高突现强度的概念只有“3D打印”和“生物信息学”,新研究概念普遍突现强度值较低,多数在2.4~3.5之间。可见国内相关研究者是在近五年才对医疗数据可视化研究予以重视,整体研究步伐慢于国际研究进程,并且这些研究更倾向于“传统主题”,如“三维重建”“可视化人体”“解剖学”等。对比国外相关研究突现词时间分布均匀、主题丰富、突现值高的特点,国内研究相对“创新不足”“后劲不足”。
国内医疗数据可视化应用的研究者应该尝试借鉴国外相关研究的立题思路、关注最新国际科研动态,并借助大数据时代医疗数据数量激增、种类多样、更新频率快等特点,寻求思变。一方面在传统可视化方法应用上优化数据的处理精度,面向非结构化、准结构化、半结构化和结构化医疗大数据提出个性化的应对方案;另一方面结合技术发展的创新产物及时挖掘新的研究主题,像可穿戴医疗健康设备、3D打印,4D流磁共振等。对于新挖掘的研究方向要做深做透做全,提高研究的延续性,而不是浅尝辄止,这样就能有效的避免新的研究主题即便极具研究价值却显示了较弱的研究活力甚至“夭折”的现象。
4.2.2 针对研究主题的挖掘粒度较大,细化程度不足
这一问题在“可视化人体构建”和“生物信息学”这两大重要研究主题上体现得尤为突出。三维重建技术的应用和可视化人体构建是贯穿国内外医疗数据可视化研究的一条重要主线,在经历了早期的技术探索阶段后,国外可视化人体研究的重心已经转移到人体模型或实时计算机导航在临床具体病变部位的辅助诊断治疗应用,应用范围包括器官、血管、神经等,部位具体、实施精准。国内的可视化人体研究则主要应用在传统的解剖学展示层面,研究范围相对宽泛。“生物信息学”主题在2017年作为重要突现主题得到了国内研究者的广泛关注,但在此之后这一内涵丰富的主题并没有得到充分的拓展研究,没有出现与其相关的重要研究主题分支。而国外相关研究中围绕“生物信息学”主题的研究已经形成规模,占据了三个重要的聚类,许多生物信息学的热门分支主题如蛋白质互作网络、WGCNA、基因本体等都有涉猎。
由此可见国内的医疗数据可视化研究在主题挖掘上还有待进一步深化、细化。应对此类问题可以从两方面着手:首先定位研究相对成熟、初具规模、且内涵较为广泛的主题概念,明确该研究主题的概念关系体系。其次,从该主题的分支中挑选当下医疗健康领域切实关注的主题做为科研突破点,选择的核心目的是能够解决有价值的现实问题。
4.2.3 研究思路相对传统,研究方式相对局限
大数据时代提供给我们前所未有的数据资源,医疗数据、移动医疗健康数据、基因数据组成了医疗大数据的整体框架。目前我国医疗数据可视化应用的数据来源集中于临床影像资料、文献数据库和生物信息数据库,虽然研究深度在不断提升、研究方法也在不断精进,但在选取应用场景和获取数据资源上思路仍然比较传统,大部分研究多采用相似的数据挖掘方式,如相同的三维重建算法反复应用于不同人体部位、文献计量学等常规方法反复应用于不同数据集。在短期内虽涌现大量的研究文献成果,但并不利于可视化研究的良性发展,从长远角度来看我们更需要挖掘新类型数据、建立新算法以及研发应用新软件新设备,才能充分发挥科研的源动力。另外,在医学数据资源应用的多元化上我们还有非常大的发展空间,在常用数据资源的基础上,还可以尝试利用移动可穿戴医疗设备数据、多中心联合医疗系统数据、医疗管理机构数据等。
4.2.4 可视化研究成果形式有待丰富
可视化作为一类科学研究手段,在现有技术水平下已具备较为规范和系统的输出模式:对于时空数据的可视化有空间标量场可视化、大规模多变量空间数据场可视化和时变数据可视化等展示方式,而非时空数据的可视化包括层次和网络数据可视化、文本和文档可视化、跨媒体数据可视化和复杂高位多元数据的可视化[31]。纵观当前国内医疗数据可视化的研究,输出方式主要以空间标量场可视化、层次和网络数据可视化以及文本和文档可视化的形式出现;具有时变维度的数据可视化方式也初现端倪,但尚未形成主流研究群体。总体上可视化研究的方式上还有很大的提升和发展空间。医疗健康数据具备数据规模大,形式多样,专业性强等特点,具备被大规模、综合性数据分析手段处理的条件,拓展多元维度、跨平台、跨媒体的可视化分析方式是未来医疗数据可视化发展的大势所趋,研究人员亟需学习如何更好的借助计算机及计算机网络获取高量级的医疗数据资源,并将其投入到大型综合性可视化分析中的技能。
4.2.5 亟需多学科领域专业人员的协同合作
纵观当前的医疗数据可视化研究的人员构成,绝大多数研究出自临床或其他某一专业科研人员之手。可视化不仅仅是工具,更是人类探求未知世界的媒介,是探索、呈现与表达数据含义的方法。医疗数据可视化的过程是一个连贯的整体过程,它不仅仅是将分散的现实数据聚集,并用图像的方式陈列,优质的可视化成果应该在数据分析的角度和呈现方式上经过缜密的思维处理。往往这个过程需要多领域知识的相互助力,它是除了生物医学外,融合了包括数学、计算机科学、统计学、艺术设计等多学科智慧的结晶。美国的独立研究者、艺术家 Justus Harris[32]就在2016年创立了基于艺术的糖尿病患者教育工具——MedSculp,该工具将图表和图形中的个人医疗数据转换为可以直观理解的平面设计和3D打印作品。这种直观通俗的展示方式,对于患有糖尿病等慢性病的人去认识和理解疾病来说至关重要。
打破传统的专业知识屏障和学科禁锢,多专业领域的协同合作、多领域知识的融合将大大提高医疗数据可视化研究的输出效率,为人类对医学认知提供更加客观、全面、科学的帮助。
4.2.6 缺乏针对医疗数据特征的可视化理论体系
现代意义的可视化是计算机及其显示方法与设备发展到一定阶段后的新兴技术[31],随着应用范围的拓展和技术升级,医疗数据可视化的内涵也有了质的飞跃。未来的医疗数据可视化的挑战方向是“医疗大数据可视化”和“以人为中心的探索式可视分析”,医疗大数据具有专业性强、服务人群目标明确、数据类型复杂,处理问题层级多等特点。在广义可视化技术理论体系下,建立一套适应医疗健康大数据特征的、相对完善的医疗数据可视化理论体系,无论对医疗健康数据的有效获取、正确分析还是合理应用都具有重要的指导意义。该理论体系应紧紧围绕“可视化对应医疗数据和数据模型”和”开发有效的创建可视化的原理和技术“这两个核心实质,解决“感知和认知能力”“计算能力”“显示能力”等可视化研究进程中的思维和技术约束。
综上,大数据时代下医疗数据可视化领域的研究从数据获取、分析、挖掘、管理,到可视化成果的输出、应用都极具研究价值,每一个环节的都面临着严峻的挑战和无限可能。我国乃至全球关于医疗数据可视化的研究都存在诸多问题,本文管中窥豹,运用科学计量和知识图谱的方式发掘出其中一些相对突出的问题,希望能够为致力于医疗数据可视化研究的学者们提供借鉴和参考,促进医疗数据资源的高效利用。