胸腔X射线影像数据库
——MIMIC-CXR数据探索
2021-07-21李莉黄韬王新宇冯敖梓吕军
李莉,黄韬,王新宇,冯敖梓,吕军
医疗影像是医疗大数据中的常见数据形式,是疾病筛查和诊断、治疗决策的最主要信息来源之一[1]。在治疗过程中,医院存储了大量影像信息,形成了巨大的数据积累[2]。如何有效利用这些数据促进医学技术的发展,是众多研究者们共同关注的重点。深度学习是学习样本数据的内在规律和表示层次,目标是让机器能够像人一样具有分析学习能力,能够识别文字、图像和声音等数据[3]。由于医学影像阅片工作专业性强,需专门的影像科医生阅片并撰写报告,工作内容可重复性高,且难以避免具有主观性,不同的医生可能得到不同的结果。使用深度学习技术理解医学影像,提取关键信息,自动阅片的AI辅助诊断技术具有重要的临床与科研价值。
在飞利浦医疗保健公司的支持下,麻省理工学院计算生理学实验室和贝斯以色列女执事医疗中心合作的基础上,2019年1月Johnson等发布了MIMIC胸部X射线(MIMIC-CXR)数据库[4]。这是一个带有放射学报告的大型胸部X射线影像公开数据集。同年11月,为了给研究过程提供标准,节省科研人员的时间,Johnson等在MIMICCXR的基础上进一步处理,发布了MIMIC-CXRJPG数据库[5]。不仅将DICOM的影像格式转换为JPEG格式,而且提取了文本报告中的重要信息,转换成了结构化的标签形式。本文对MIMICCXR以及MIMIC-CXR-JPG数据库做出基本的介绍,对DICOM影像数据转换成JPEG数据的过程进行了探索分析,并对深度学习技术在MIMICCXR医学影像上的研究方向进行简单总结。
1 MIMIC-CXR数据库整体介绍
为了促进医学影像在计算机视觉,自然语言处理和临床数据挖掘等方面科学研究,推进医学向自动化、智能化发展,Johnson等[4]收集并免费发布了2011~2016年间贝斯以色列女执事医疗中心急诊科患者的胸腔X射线影像及其对应的报告数据。数据集官网:https://mimic-cxr.mit.edu/(图1)。
图1 数据集官网主页界面
该数据集包含了65 379例患者的数据,每例患者拥有一项或多项不同的检查,共计227 835项影像检查。而每项检查又包含了一个或多个图像,共计377 110张X光片胸腔图像。同时每项检查都对应着放射科医生撰写的文本报告。影像与报告均已规范的形式组织,并取消患者标识,数据集文件结构如图2所示。为避免在一个目录中包含过多的文件,整个数据集被分成了10个文件夹(p10-p19)。文件夹内整合了每例患者的数据(如图2中p10000032),s开头的文件夹为不同的检查项目,txt文件为相应检查的报告。以5组16进制编码命名的dcm文件为影像数据。在图2显示患者数据共进行了四项检查,其中三项检查中包含了两个X光片,一项检查仅有一个X光片。这些检查没有顺序标记,数据中的文件编码均为随机。
图2 MIMIC-CXR数据集文件结构
在完成了CITI旗下的“Data or Specimens Only Research”课程获得成绩证书,提出申请并签署数据使用协议后,可在PhysioNet的MIMIC-CXR官方页面(https://physionet.org/content/mimiccxr/2.0.0/)看到如图3所示的界面。由于每一个DCM影像文件在15 MB左右,整个数据集占用存储空间达到4.6 TB。官方提供了三种接入方式,谷歌云盘、谷歌BigQuery及Wget下载代码,用户可选择任意方式获取数据进行研究。除前述文件结构外,数据集中还包含以下内容:
图3 MIMIC-CXR文件预览及下载页面
·许可证明LICENSE.txt。
·图片文件列表 cxr-record-list.csv,列表中包含了患者标识符subject_id、检查项目标识符study_id、图片文件名dicom_id以及图片文件路径path四个字段。这里的患者标识符对应了MIMIC-Ⅳ数据库[6]的患者标识符。
·报告文件列表cxr-study-list.csv,包含患者标识符subject_id、检查项目标识符study_id以及报告路径path三个字段。
·mimic-cxr-reports.zip是如图2的文件结构,但只包含报告而不包含图像文件的存档。
·SHA256SUMS.txt是以上四个文件的sha256校验码,用于校验数据文件的完整性。
2 MIMIC-CXR影像
DCM文件是医学影像方面的常用文件,以医学数字成像和通信(DICOM)格式存储,例如心电图、核磁共振成像、CT扫描图像、超声图像等。DCM文件还可以存储患者信息,包含了protected health information(PHI),不仅方便将图像与患者配对,而且可以获取相应的标签进行研究,例如患者的拍摄位置、进行的具体检查项目等。但DCM文件需要专用的阅片软件打开,不利于数据的探索与分析。我们使用Python编程语言读取dcm影像数据并进行展示,基本的影像展示代码如图4所示,得到如图5所示样本。
图4 DCM 影像读取与展示代码
图5 X光片示例样本
3 MIMIC-CXR 文本报告
数据库中患者的每一项检查都对应着一份文本报告。报告样例如图6所示,报告内容中包含了检查的具体项目、病因、体位、是否包含比较、影像学发现以及最后的影像学诊断,其中影像学发现和诊断由放射科医生描述,其余信息从患者电子健康记录中获取(electronic health record,EHR)。报告中消除了患者身份信息,并以三个下划线“___”表示。
图6 X光片放射学报告样例(对应于图5)
4 MIMIC-CXR-JPG 得到的内容
由于MIMIC-CXR中提供的是简单处理的原始数据,无论是影像DCM文件,还是文本报告都不是数据分析的常用数据格式。为了减少研究者的数据预处理工作,提供统一的规范,推进研究进程,Johnson等[5]在MIMIC-CXR的基础上进行了进一步的数据处理,发布了 MIMIC-CXR-JPG数据库(文中简写为CXR-JPG)。CXR-JPG数据下载页面如图7所示。
图7 MIMIC-CXR-JPG文件预览以及下载页面
相比于MIMIC-CXR,CXR-JPG数据占用存储空间较小,主要在两个方面处理了数据内容,一是改变了图像数据的格式,二是从文本报告中提取了标签信息。
图像上,首先由于DICOM文件是以16位深度(像素值范围为[0, 65536])存储的无损无压缩的格式文件,作者将其归一化成8位深度(像素值范围为[0, 255])的常规图像格式,并以JPEG文件格式存储。单张影像的文件大小上也从15MB降到了1MB左右。由于DICOM影像的成像标准并不统一,部分影像像素值呈现相反的状态。例如有的影像中患者组织显示为白色(最高像素值),而空气显示为黑色(最低像素值),有的则相反。DICOM影像文件中以Photometric Interpretation为主键标记这种不同的方式。作者根据此标记判断图像是否需要反转,以此统一所有的像素内容表示。最后,由于医学影像的灰度值较低,其灰度分布可能集中在较窄区间,动态范围偏小,造成图像不够清晰。使用了直方图均衡化的图像增强技术,通过改变图像中各像素的灰度来增强对比度。影像归一化后以及均衡化后的对比如图8所示,可见均衡化后的影像对比度更高,且像素分布更为均衡。
图8 X光片归一化和均衡化处理后效果对比
文本报告上,作者使用NegBio[7]和CheXpert[8]两个开源工具来提取数据标签。NegBio主要用于在临床文本(如放射学报告)中进行否定和不确定性检测。而CheXpert是以NegBio为基础的可从放射学报告中提取观察分类标签的NLP算法。从报告中提取标签的示例如表1所示。从报告中共提取了14个类别,分别是:健康(No Finding)、纵隔扩大(Enlarged Cardiomediastinum)、心脏肥大(Cardiomegaly)、肺部浑浊(Lung Opacity)、肺部病变(Lung Lesion)、水肿(Edema)、变实(Consolidation)、肺炎(Pneumonia)、肺不张(Atelectasis)、气胸(Pneumothorax)、胸腔积液(Pleural Effusion)、胸膜其他(Pleural Other)、骨折(Fracture)、辅助设备(Support Devices)。
表1 根据报告提取标签示例[5]
此外,CXR-JPG数据库提供了包含视图位置,患者方向及图像获取时间的匿名日期的元数据,提供了由CheXpert标记器生成的带有标记的研究以及带有NegBio标记器生成的标记的研究。同时,给出了建议的训练(368 960项),验证(2991项),和测试(5159项)分组,为研究者提供了一个统一的实验标准,有利于为不同方法建立公平的对比条件。
5 AI与医学图像—MIMIC-CXR的科研方向
随着科技的发展,人工智能在医疗行业的应用越来越广泛,例如语音录入病历、医疗影像辅助诊断、药物研发、医疗机器人、个人健康大数据的智能分析等。超声、X光、CT、MRI等均是医生诊疗过程中常用的技术手段。通过这些手段得到的医疗影像,利用深度学习技术进行病灶识别、疾病诊断,不仅利于辅助影像科室医生检查,减轻工作压力,减小辨认误差;也利于降低影像阅片所需的专业要求。因此,医学影像数据集的发布有着重要的现实意义。
随着深度学习技术的发展,使用深度神经网络研究研究医学影像数据已成为目前研究主流[9],并取得重要研究成果,例如使用深度学习进行肿瘤分割[10],对胰腺神经内分泌肿瘤分级[11],高效率高精度的医学影像检索[12]等。公开的数据集更多起到的是科研上的意义,为理论研究的评估和比较服务。汇总MIMIC-CXR以及其JPEG版本数据库,共提供了DICOM高精度影像数据,JPEG低内存图片数据,自由文本报告,结构化标签等内容。利用深度学习研究MIMIC-CXR影像数据集,从技术手段上看,有计算机视觉与自然语言处理两个方向。计算机视觉方向上,可进行如病灶分割、异物检测、病理特征匹配、影像超分辨率处理等研究工作。自然语言处理方面,可进行如自由文本转换、信息提取等研究工作。两方面技术结合,可考虑使用影像数据直接生成自由文本报告[13]。由于MIMIC-CXR数据库关联了MIMIC-Ⅳ数据库[6],如何结合影像数据与患者病历数据进行研究是一个重要的研究方向。
6 总结
MIMIC-CXR数据库提供了65 379例患者的胸部X光片影像数据及其描述报告,同时该数据集与MIMIC-Ⅳ同源,对应了患者的临床电子健康数据。MIMIC-CXR-JPG转换了影像数据的存储格式,并将描述报告结构化,生成了规范化的标签。本文主要介绍了MIMIC-CXR以及MIMICCXR-JPG的基本构成,旨在帮助研究者快速了解数据内容,减少探索数据中浪费的时间和精力,提高工作效率。