PET/CT图像质量主观评价与感知模型
2015-04-27周家锐张海婕
殷 夫,纪 震,周家锐,张海婕
1)深圳大学计算机与软件学院,深圳 518052;2)广州军区武汉陆军总医院核医学科,武汉 430070
【电子与信息科学 / Electronics and Information Science】
PET/CT图像质量主观评价与感知模型
殷 夫1,纪 震1,周家锐1,张海婕2
1)深圳大学计算机与软件学院,深圳 518052;2)广州军区武汉陆军总医院核医学科,武汉 430070
针对面向医学领域的主观评价数据库缺乏,导致医学图像质量评价(image quality assessment,IQA)算法性能难以分析的问题,基于双重刺激失真水平测试法,建立正电子发射断层显像/计算机断层扫描医学图像的主观评价数据库.对比13种国际通用IQA算法在数据库上的性能,分析不同退化方法对IQA算法的影响.结果表明,对新建立的图像评价数据库来说,特征相似性(feature similarity,FSIM)图像评价模型在相关性及稳定性方面明显优于其他IQA算法,包括目前医学领域主流的峰值信噪比评价指标.
计算机图像处理;图像质量评价算法;双重刺激失真水平测试法;电子发射断层显像/计算机断层扫描;特征相似性;图像质量主观评价数据库
正电子发射断层显像(positron emission tomography,PET)是目前最先进的核医学影像技术之一.PET检查采用正电子核素作为示踪剂,通过观察病灶部位对示踪剂的摄取,了解其功能代谢状态,从而对疾病作出正确诊断[1].计算机断层扫描(computed tomography,CT)是临床广泛应用,且迅速发展的X线断层成像技术.通过将PET与CT同机整合,并将其输出的不同性质的图像进行融合显示,即可形成PET/CT医学成像系统.将PET和CT进行结合,不仅保留了经典解剖影像的作用,还加入了先进的分子影像功能,其结合远优于各自单独的价值[2].PET/CT的出现是医学影像学的又一次革命,受到医学界的广泛关注.
医学图像,特别是放射医学成像,是临床医学研究、诊断和治疗的重要依据.发展医学图像质量评价方法,对评估和优化成像系统、医学图像的压缩方法以及成像算法具有重大意义.医学图像质量评价(image quality assessment,IQA)包括主观评价和客观评价两类[3].
医学图像质量评价最可靠的评价方法为主观评价方法.主观评价方法是通过心理学测试,直接获得人类视觉系统(human visual system,HVS)对图像质量的主观评价分数,是一类比较可靠的评价方法.但是该方法存在代价高、耗时长、实时性差和易受主客观因素影响等缺点,在现实中往往难以应用,因此通常使用客观感知模型来模仿HVS的功能.然而,客观算法的研究依赖于主观评价结果,需采用建立图像质量感知评价数据库的方式获得主观评价结果[4].遗憾的是,目前缺乏面向医学图像的主观评价数据库,客观感知模型往往只能在自然图像数据库中检验其性能.因此,建立一个由医生参与评分的标准主观图像数据库尤为必要.
客观评价方法采用算法感知模型计算图像质量客观评价分数,其目的是使计算机模仿HVS的功能.目前医学图像处理系统主要采用峰值信噪比(peak signal to noise ratio,PSNR)作为图像质量评价标准,并不能真实反映图像的视觉感知量[5].从基本方法上来说,医学图像质量评价与自然图像质量评价都是评估图像之间的感知差异.但医学图像的成像目的是病灶诊断,病灶信号的可识别能力是医学图像质量的重要特征[6].常见的通用图像质量评价方法是否适用于医学图像,仍须通过在医学图像主观评价数据库上通过实验进行验证.
建立图像质量感知主观评价数据库的意义在于衡量图像客观评价算法的性能.而目前缺乏面向医学图像的主观评价数据库.为此,本研究建立基于PET/CT医学图像的主观评价数据库,并在此基础上,选取13种国际通用IQA算法,就各客观算法的准确性、单调性和一致性进行评价分析,提出了比PSNR更符合视觉感知特点、性能更优的医学感知模型.
1 PET/CT医学图像主观评价数据库的构造
1.1 测试图片
在图像质量主观感知评价数据库的开发中,需要测试者进行质量感知评价的图片被称为测试图片.其中,未经任何处理的图片称为原始图片,对原始图片经过某种退化方法处理后的图片称为退化图片.
该数据库中包含原始图片12张,均来源于某医院PET/CT中心病例图像数据库.其中,测试图片分为含病灶图片与无病灶图片,两者数量比例约为2∶1;垂直与水平分辨率均为96 dpi,尺寸为968×968 像素.为保证原始图片无编码损失,选择存储格式为BMP.
在构造退化图片时,该数据库针对PET/CT图像设计了多种退化方法,基本包含了实际PET/CT图像编码和图像传输中可能导致的各种失真,包括在进行图片压缩保存中的JPEG压缩(记为JPG)与JPEG2000压缩(记为JP2)、医生在进行病灶诊断时对图片进行对比度调节而造成的对比度变化(contrast change,CC)、 仪器故障产生的高斯白噪声(white Gaussian noise,WGN)、 高斯模糊(Gaussian blur,GB)和模块缺失,以及因患者在进行PET/CT检查时运动所产生的运动模糊(motion blur,MB)这6种退化方法.每种退化方法有4个退化水平,经多次主观测试实验得到退化参数如表1.其中,JPG与JP2的退化参数为压缩质量;CC的退化参数为对比度变化率;WGN的退化参数为噪声分布率;GB的退化参数为高斯滤波的标准偏差;MB的退化参数为像素大小.按照以上原则,本研究所构建的数据库共有288张退化图片,是原始图片数、退化方法数和退化水平数之积.数据库访问的网址为http://dsp.szu.edu.cn/petct/.
1.2 测试方法
双重刺激失真水平测试法(double-stimulus impairment scale method,DSIS)的测试以循环方式进行[7].每次循环时,首先向测试者呈现无失真的原始图片,接下来显现相应的退化图片,并要求测试者在留有对原始图片印象的情况下对退化图片失真情况进行评价.在约30 min的测试中,测试图片的呈现顺序需是随机的.在所有测试者完成评价后,计算每张图片获得的平均分(mean-opinion-score,MOS)作为最终测试结果.图1给出DSIS方法测试流程[8].其中,t1=10s,显示原始图片;t2=3s,无显示;t3=10s,显示测试图片;t4为5~11s,无显示;测试者可以在t3和t4阶段对测试图片进行评价.
表1 各退化方法退化参数
图1 DSIS方法测试流程图[6]Fig.1 Test flow chart of DSIS method[6]
病灶信号的可识别能力是医学图像质量的重要特征,因此将主观测试评价指标规定为:“5”为图像质量优,不影响诊断;“4” 为图像质量良,不影响诊断;“3” 为图像质量较差,影响诊断;“2” 为图像质量差,明显影响诊断;“1” 为图像质量极差,无法诊断.
1.3 测试环境
DSIS测试时,所有图片使用巨峰公司型号为C22SP+21.3″2MP的彩色LED器医用显示器进行呈现.该显示器具有彩色和灰阶成像功能,适用于多种医疗影像设备以及临床科室.
根据ITU-R_BT.500-11协议中电视图像质量主观评价方法(methodologyforsubjectiveassessmentofthequalityoftelevisionpictures)的要求,将显示器亮度设置为70、对比度设置为50、锐利度设置为7、饱和度设置为50、色温设置为6 500K、伽马设置为DICOM500.
所有主观测试均在某医院PET/CT中心会议室进行,室内光照正常.
1.4 测试人员
ITU-R_BT.500-11协议中要求至少有15名非图像处理专业测试者参加测试,每个测试者必须具有正常的视觉灵敏度与正常的色视觉[8].Chandler等[9]发现,测试者的专业对其图像质量感知评价具有影响.例如,专业为图像处理领域的测试者倾向于对超过一定压缩阈值的压缩图片给出较低评价,而摄影师则对噪声模糊图片给出较低评价.测试者的专业水平可能会造成图像质量评价结果的偏差.因此需对此因素进行控制.
本研究因测试图片为医用PET/CT图片,故所挑选测试人员均为影像学范畴的专业医生,其中,主治医师10人,医师5人.
1.5 数据处理
主观评价测试完成后,每张图片将获得来自不同测试者的多个分数,其分布与测试者数量、评价偏差趋势和测试环境等因素有关[10].在构造数据库时,需对所采集数据进行以下处理:
(1)
其中,j为测试条件;k为测试图片;r为重复次数;N为测试者数量;U为测试图片主观评价分数.
(2)
计算结果显示,大部分测试者对图像质量的感知程度较为一致.这说明,本研究所构造的数据库具有较好的标准性与客观性.
2 客观感知模型效果分析
2.1 客观模型研究现状
传统的客观评价模型,如PSNR模型与MSE模型,是通过逐点计算失真图像与原始图像每个像素点差异的统计特性来反映图像的失真程度.这类方法虽然形式简单、计算量小,但其独立于图像内容,在许多情况下都无法与人眼视觉感知保持一致[11].因此,学术界提出更符合HVS的图像质量评价模型,代表性的有基于场景统计特性的信息保真度准则(informationfidelitycriterion,IFC)[12]和视觉信息保真度(visualinformationfidelity,VIF)[13]模型,基于结构相似性(structuralsimilarity,SSIM)的结构相似性指标(structuralsimilarityindex)模型[14],多尺度结构相似度(multi-scalestructuralsimilarity,MS-SSIM)指标模型[15]和FSIM(afeaturesimilarityindexforimagequalityassessment)[16]模型,基于HVS的NQM(noisequalitymeasure)[17]与视觉信噪比(visualsignaltonoiseratio,VSNR)[18]模型,以及基于梯度模方差的GMSD(gradientmagnitudesimilaritydeviation)[19]模型.
2.2 客观算法数据预处理
理想情况下客观模型预测值与主观评价结果应为线性关系[11],即
SMOSp=kSMOS
(3)
其中,SMOSp为客观算法评价分数(MOS of perception models,MOSp);k为线性常数;SMOS为所有测试者完成评价后计得的每张图片获得的平均分.
主观评价过程会引入非线性因素,因此视频质量专家组(video quality experts group,VQEG)建议,在衡量两者相关性之前,需对测试算法的实验结果进行非线性补偿[20].有2种非线性回归可供参考:多项式拟合和Logistic回归.本研究使用增加线性条件限制的5参数非线性Logistic模型作为评价值的非线性模型,如式(4),并采用最小均方差法进行拟合.
quality(x)=β1Logistic(β2,(x-β3))+
β4x+β5
(4)
其中,quality(x)为拟合后的预测值;β1为MOS最大值与最小值之差;β2为预测值集合方差的倒数;β3为预测值的平均值;β4的值设为-1;β5为MOS的平均值.最小均方差模型为
(5)
其中,τ为模型评价参数,在这里为预测集合方差的倒数;x为预测值与平均值之差.
2.3 算法定量指标
客观图像质量评价算法的性能一般通过以下方面进行衡量:① 算法准确性,即客观评价值与主观评价值之间的差异应足够小;② 单调性,即客观评价值应随主观评价值的增减而增减;③ 一致性,即客观评价算法在测试集上表现出的性能与其在训练集上的性能相似.
本研究基于文献[3],按照以下3方面的客观指标来评价算法性能.
1)皮尔逊线性相关系数(Pearsonlinearcorrelationcoefficient,PLCC)为
(6)
2)均方误差根(rootmeansquarederror,RMSE)为
(7)
3)斯皮尔曼秩相关系数(Spearman’srankordercorrelationcoefficient,SROCC)为
(8)
2.4 实验结果
建立图像质量感知主观评价数据库的意义在于衡量图像客观评价算法的性能.本研究选择13种国际通用IQA算法进行评价分析,包括PSNR、SSIM、MS-SSIM、VSNR、VIF、VIFP[13]、UQI[12]、IFC、NQM、WSNR、SNR、GMSD和FSIM.实验以构造的PET/CT医学图像质量主观评价数据库为基础,运用式(6)和式(8),计算各客观算法在该数据库上的性能指标PLCC及SROCC,结果分别如表2和表3.
表2 客观算法在各退化类型上的线性相关系数对比
表3 客观算法在各退化类型上的SROCC对比
2.4.1 CC和SROCC
表2和表3中的JPG与JP2分别代表JPEG压缩与JPEG2000压缩,“all”分别为各客观算法在PET/CT数据库上的PLCC及SROCC指标,其中性能排名前3位的客观算法已用粗体加下划线标出.“all2”为去掉对比度变化图片的客观算法在PET/CT数据库上的PLCC及SROCC指标.“mean”值表示各个客观算法在不同退化方法上相关系数与秩相关系数的平均值.
从PLCC及SROCC这2个指标来看,GMSD与FSIM是性能最优的算法,两者的cPLCC值分别为0.883与0.890,cSROCC值分别为0.862与0.869.VIF是性能较优的算法,cPLCC值与cSROCC值分别为0.800与0.780.其余客观算法性能指标均较低,其中基于结构相似度的SSIM与UQI算法性能最差,SSIM算法的cPLCC值与cSROCC值分别仅为0.665与0.563,与主观评价分数相关性较差.
2.4.2 对比度变化图片对客观算法性能影响
分析评分普遍较低的原因时,考虑图片提供的信息纹理和形状属于初级视觉信息,情感和认知属于高级视觉信息.研究认为,对比度变化会产生部分图片信息缺失,造成高级视觉信息偏差,然而已有的客观方法在建立模型时并未考虑这一因素,导致主客观分数相关性较差[10].因此,在实验中排除对比度变化图片的主观数据,重新计算客观算法在数据库上的性能.实验结果如表2及表3中“all2”值所示.
由表2和表3得出,大部分客观算法的性能在去掉对比度变化后均提升明显.其中,VIF模型的性能最佳,其cPLCC值由0.801提高为0.931,cSROCC值由0.780提高为0.903.而SSIM与UQI算法性能最差,SSIM算法的cPLCC值与cSROCC值分别仅为0.716与0.608.各客观算法PLCC与SROCC性能排名与之前全部图片测试结果基本一致.
2.4.3 退化方法对图像质量评价的影响
通过比较各算法的PLCC值、SROCC值以及平均值可以发现:
1)同一种退化方法上,各个客观算法的性能都有明显差异,但在高斯白噪声与高斯模糊图片上,各个客观算法的性能指标都较高.在对比度变化图片上,各客观算法的性能指标均较低.除VIF、PSNR和NQM外,其他客观算法在JPG与JP2上的性能均较差.
2)同一客观算法在不同退化类型图片上的性能也有明显差异.例如,SNR算法在JPG与JP2上的cSROCC值较低,而在其他退化图片上cSROCC值均大于0.880,性能优秀.
3)FSIM与VIF在所有退化类型图片上的性能都较好,SROCC的平均值超过0.900,但FSIM是唯一一个在对比度变化退化方法下SROCC值达到0.900的算法.值得注意的是,传统医学图像质量评价算法PSNR在各退化类型图片上的SROCC平均值高达0.915,但在全部图片数据下的SROCC值仅为0.722.
图2 全部图片下的客观分数及MOSFig.2 (Color online) Objective score and MOS on all pictures
2.4.4 VIF与PSNR性能对比
通过对比性能较优的VIF算法,分析PSNR在单一退化方法上性能较好,而在总体测试性能较差的原因.图2分别显示了VIF与PSNR模型在构造的PET/CT医学图像质量主观评价数据库上的SROCC拟合曲线.图3(a)中不同形状的点为不同退化方法的测试图片VIF评价分数,与之对应的曲线表示该退化方法下,计算SROCC时的拟合曲线.图3(b)中不同形状的点为不同退化方法的测试图片PSNR评价分数,与之对应的曲线表示该退化方法下,计算SROCC值时的拟合曲线.
图3 不同退化方法下的客观分数及MOSFig.3 (Color online) Objective scores and MOS on all distortion algorithms
在图2(a)中,各数据点较紧密的分布在拟合曲线的两边,VIF分数与MOS拟合度较好,相关性较高,因此总体的PLCC值及SROCC值均较高.在图3(a)中,不同退化方法下,各退化类型图片的数据点紧密的分布在拟合曲线的两边,VIF分数与MOS拟合度很好,相关性高,因此在计算各性能指标时,PLCC值及SROCC值均较高.同时发现进行对比度变化的数据点相比其他退化类型分布较分散,因此在去掉对比度变化后,VIF的性能有了明显提高.
在图2(b)中,数据点较分散的分布在拟合曲线的两边,PSNR分数与MOS拟合度较差,相关性较低,因此总体的PLCC值及SROCC值均不高.在图3(b)中,在不同退化方法下,各退化类型图片分数的数据点较紧密的分布在拟合曲线的两边,PSNR分数与MOS拟合度较好,相关性较高,因此在计算各性能指标时,PLCC值及SROCC值均较高,SROCC值均高于0.870.但所有数据点的整体分布较分散,整体SROCC值仅为0.722.因此,PSNR算法在不同退化方法上性能优异,而在所有测试数据上性能较差.
3 结 论
本研究通过对PET/CT医学图像进行质量评价,首次构建了PET/CT医学图像质量主观评价数据库.并以此为基础,对国际通用客观模型的性能进行对比研究,得到以下结论:
1)医学图像质量主观评价需要进行大量心理学测试,测试图片的数据量对最终得到的图片MOS分数影响较大,在DSIS测试中,发现ITU协议中规定的每张测试图片15个主观评价分数的测试数据量可以保证测试的可靠性;
2)对比度变化图片对主观评价测试结果有较大的影响,原因可能是对比度变化包含认知等方面的后期视觉信息,而医生对PET/CT图像的对比度变化十分敏感,不同医生对此类图片的评分差异明显,目前的客观算法对这类图片质量的评价较差;
3)退化方法对图像质量评价结果影响巨大,不同退化方法上,图片的客观评价分数与主观评价分数的一致性有非常明显的差别,一些客观方法在单一的退化方法上性能较好,而在多种退化方法上的性能较差.实验结果显示,FSIM效果最佳,且比传统的医学图像客观质量评价算法PSNR有明显优势.
/ References:
[1] Wang Rongfu.PET/CT:new technology application of molecular imaging[M].Beijing:Beijing Medical University Press,2011:1-5.(in Chinese) 王荣福.PET/CT:分子影像学新技术应用[M].北京:北京大学医学出版社,2011:1-5.
[2] Chen Shengzu.PET/CT technology principle and oncology application[M].Beijing:People’s Military Medical Press,2007:3-10.(in Chinese) 陈盛祖.PET/CT技术原理及肿瘤学应用[M].北京:人民军医出版社,2007:3-10.
[3] Lin Chunyi,Yin Junxun,Gao Xue,et al.A multi-level medical image semantic modeling approach based on statistical learning[J].Journal of Shenzhen University Science and Engineering,2007,24(2):138-143.(in Chinese) 林春漪,尹俊勋,高 学,等. 基于统计学习的多层医学图像语义建模方法[J].深圳大学学报理工版,2007,24(2):138-143.
[4] Zhou Jinchao,Dai Ruwei,Xiao Baihua.Overview of image quality assessment[J].Computer Science,2008,35(7):1-8.(in Chinese) 周景超,戴汝为,肖柏华.图像质量评价研究综述[J].计算机科学,2008,35(7):1-8.
[5] Zhang Min,Zhang Lei.Non-shift edge based ratio (NSER):an image quality assessment metric based on early vision features[J].IEEE Signal Processing Letters,2011,18(5):315.
[6] Hu Yuanyuan,Niu Xiamu.Image quality assessment based on human visibility threshold theory and structural similarity[J].Journal of Shenzhen University Science and Engineering,2010,27(2):185-191.(in Chinese) 胡媛媛,牛夏牧.基于视觉阈值的结构相似度图像质量评价算法[J].深圳大学学报理工,2010,27(2):185-191.
[7] Zhang Xuemin,Shu Hua.Outline of experimental psychology[M].Beijing:Beijing Normal University Publishing Group,2004.(in Chinese) 张学敏,舒 华.实验心理学纲要[M].北京:北京师范大学出版社,2004.
[8] ITU.ITU-R_BT. 500-11Methodology for the subjective assessment of the quality of television pictures[S].
[9] Vu E C L,Chandler D M.Visual fixation patterns when judging image quality:effects of distortion type,amount,and subject experience[C]// IEEE Symposium on Image Analysis and Interpretation.Santa Fe(Argentina):IEEE Press,2008:73-76.
[10] Larson E C,Chandler D M.Most apparent distortion:full-reference image quality assessment and therole of strategy[J].Journal of Electronic Imaging,2010,19(1):011006-1-011006-21.
[11] Mou Xuanqin,Xue Wufeng,Zhang Min.Methods of partial reference image quality assessment based on early vision.CN101482973[P],China,2009.(in Chinese) 牟轩沁,薛武峰,张 敏.基于早期视觉的部分参考图像质量评价方法[P]. CN101482973.中国,2009.
[12] Sheikh H R,Bovik A C,Veciana G de.An information fidelity criterion for image quality assessment using natural scene statistics[J].IEEE Transactions on Image Processing,2005,14(12):2117-2122.
[13] Sheikh H R,Bovik A C.Image information and visual quality[J].IEEE Transactions on Image Processing,2006,15(2):430-444.
[14] Wang Z,Bovik A C,Sheikh H R.Image quality assessment:from error measurement to structural similarity[J].IEEE Transactions on Image Processing,2004,13(4):600-612.
[15] Wang Zhou,Simoncelli E P,Bovik A C.Multi-scale structural similarity for image quality assessment[C]// Proceedings of the 37th IEEE AsilomarConference on Signals,Systems,and Computers.Pacific Grove(USA):IEEE Press,2003:1398-1402.
[16] Zhang Lin,Zhang Lei,Mou Xuanqin,et al.FSIM:a feature similarity index for image quality assessment[J].IEEE Transactions on Image Processing,2011,20(8):2378-2386.
[17] Damera-Venkata N,Kite T D,Geisler W S,et al.Image quality assessment based on a degradation model[J].IEEE Transactions on Image Processing,2000,9(4):636-650.
[18] Chandler D M,Hemami S S.VSNR:a wavelet-based visual signal-to-noise ratio for natural images[J].IEEE Transactions on Image Processing,2007,16(9):2284-2298.
[19] Xue Wufeng,Mou Xuanqin,Zhang Lei,et al.Blind image quality assessment using joint statistics of gradient magnitude and Laplacian features[J].IEEE Transactions on Image Processing,2014,23(11):4850-4862.
[20] Video Quality Experts Group.Final report from the video quality experts group on the validation of objective models of video quality assessment,Phase II[R/OL].(2003-08-25).http://www.vqeg.org/.
【中文责编:英 子;英文责编:木 南】
Subjective assessment and perception model of PET/CT image quality
Yin Fu1, Ji Zhen1†, Zhou Jiarui1, and Zhang Haijie2
1) College of Computer Science and Software Engineering, Shenzhen University, Shenzhen 518052, P.R.China 2) Nuclear Medicine Department, Wuhan General Hospital of Guangzhou Military Command, Wuhan 430070, P.R.China
Image quality assessment (IQA) is highly dependent on subjective assessment. However, no subjective image quality assessment database is presently available for medical image, which poses a big challenge for the evaluation of medical IQA algorithms. In this paper, we propose the first positron emission tomography/computed tomography medical image subjective assessment database based on the double-stimulus impairment scale method. Performances of thirteen commonly used IQA algorithms are compared on the database. Moreover, effects of different image distortions on IQA algorithms are analyzed. Experimental results show that the feature similarity model outperforms other IQA methods, including peak signal to noise ratio, the most commonly used algorithm in the medical field.
computer image processing; image quality assessment; double-stimulus impairment scale method; positron emission tomography/computed tomography; feature similarity; subjective image quality assessment database
:Yin Fu,Ji Zhen,Zhou Jiarui,et al.Subjective assessment and perception model of PET/CT image quality[J]. Journal of Shenzhen University Science and Engineering, 2015, 32(2): 205-212.(in Chinese)
TP 391.41; TP 391.77
A
10.3724/SP.J.1249.2015.02205
国家自然科学基金资助项目(u1201256)
殷 夫(1989—),男(汉族),湖北省汉川市人,深圳大学硕士研究生.E-mail:slintch@sina.com
Received:2014-10-13;Accepted:2015-02-04
Foundation:National Natural Science Foundation of China(u1201256)
† Corresponding author:Professor Ji Zhen.E-mail:jizhen@szu.edu.cn
引 文:殷 夫,纪 震,周家锐,等.PET/CT图像质量主观评价与感知模型[J]. 深圳大学学报理工版,2015,32(2):205-212.