APP下载

语义驱动的颜色恒常决策算法

2024-04-27童世博解梦达

电讯技术 2024年4期
关键词:偏色光源语义

刘 凯,孙 鹏,童世博,解梦达

(1.中国刑事警察学院 公安信息技术与情报学院,沈阳 110854;2.广州大学 网络空间安全学院,广州 511442)

0 引 言

相机记录的物体在不同光源颜色下色彩表现不同,当图像中物体呈现出的色彩表现与物体本身颜色偏离一定程度后,仅凭人眼往往不能轻易分辨,需要借助颜色恒常性算法对这些偏色的目标图像进行校正。颜色恒常性是指人的视觉系统无论所处环境光源颜色如何,都能识别出物体表面真实颜色的能力[1]。颜色恒常性算法的目的是通过估计目标图像所处场景的光源颜色,并根据光源颜色将其校正至标准白光下,从而解决由光源颜色引起的图像偏色问题[2]。

颜色恒常性算法分为单光源估计和多光源估计,其中大多数(包括本文)为方便计算,默认以单光源的假设为前提进行研究。现有的颜色恒常性算法主要分为基于图像底层特征驱动的颜色恒常性算法和基于高级语义指导的颜色恒常性算法两大类。基于图像底层特征驱动的颜色恒常性算法可以分为两大类:基于统计的方法和基于学习的方法。常见的基于统计的方法有灰度世界算法(Gray World,GW)[3]、完美反射算法(White Patch,WP)[4]、灰度阴影算法(Shades of Gray,SoG)[5]、灰度边缘算法(Gray Edge,GE)[6]等,基于学习的算法主要包括色域映射算法(Gamut-mapping,GM)[7]、基于贝叶斯推理的颜色恒常性计算(Bayesian Color Constancy,BCC)[8]、基于支持向量回归的颜色恒常性计算(Support Vector Regression,SVR)[9]等。基于学习的方法光源估计效果总体优于基于统计的方法,但这归结于前期大量测试数据的训练学习;基于统计的方法虽性能稍弱,但在实际应用中计算效率远远高于基于学习的方法。

尽管基于图像底层特征驱动的颜色恒常性算法体系已基本完善,各种假设及基于各种假设所提出的算法层出不穷,但在借助一些颜色恒常性算法对目标图像进行光源估计时,会遇到算法失效的问题。因此,解决单一颜色恒常性算法的局限性,为目标图像选择最合适的颜色恒常性算法或者算法组合有着重要的实际意义[10]。基于高级语义指导的颜色恒常性算法是颜色恒常领域内一个重要的研究方向,研究人员尝试从图像内容相关的高级视觉信息中获取光源估计线索[11]。例如,Cardei等[12]提出基于委员会的颜色恒常性计算(Committee-based Color Constancy),对灰度世界算法、完美反射算法、基于BP神经网络的算法的光源估计结果进行了加权融合,以达到提高光源估计准确度的目的;Van de Weijer等[13]在所提出的Top-Down算法中,将图像视为多语义类集合体,并利用不同语义信息作为先验知识估计光源;Gijsenij等[14]提出了基于自然图像统计的颜色恒常性算法融合方案(Color Constancy using Natural Image Statistics,NIS),使用威布尔参数描述图像的纹理分布特征,进而根据纹理分布特征选择最优的颜色恒常性算法。

上述融合性算法的研究表明,所处理目标图像对应的最优算法与该图像的语义信息存在着明显的相关性,但上述融合性算法存在一些不足,如NIS算法以图像全局纹理特征作为选择算法的依据,事实上,不同语义类别的纹理特征会有很大差异,因此使用全局纹理特征不能精确地描述图像。为更好地利用图像语义信息,本文从语义分割的角度,以GE算法框架为基础,提出一种语义驱动的颜色恒常决策算法,通过计算目标图像和已训练图像的场景语义相似度来为目标图像选择最合适的算法。具体来说,首先,使用由Cityscapes[15]数据集输入训练的PSPNet(Pyramid Scene Parsing Network)语义分割模型对经过一阶灰度边缘算法(1st Gray Edge,1stGE)偏色预处理后的目标图像进行场景语义分割,并计算该图像场景中每种语义信息的占比;其次,根据目标图像语义信息类别在已训练好的决策集合中寻找相似的参考图像;然后,根据目标图像与参考图像相同语义信息的占比计算相同语义间的欧氏距离,以欧氏距离表示为目标图像与参考图像间的语义相似度;最后,选择相似度最高的参考图像,使用该相似度与基于多维欧氏空间所确定的阈值进行比较,若大于阈值,则使用该参考图像对应的最优算法,为目标图像实行偏色校正;若小于阈值,则默认使用光源估计性能较好的灰度阴影算法对目标图像实行偏色校正。在Color Checker[8]和NUS 8-camera[16]数据集的实验结果表明,本文所提算法性能明显优于Gray Edge框架下单一算法及同类型融合性算法,能够有效提升光源估计的鲁棒性和准确度。

1 理论基础

1.1 光照反射模型

根据朗伯特反射模型(Lambertian Model),彩色图像成像取决于场景光源颜色e(λ)、相机相应函数ρ(λ)以及物体的表面反射率R(x,λ)[17],可表示为

(1)

式中:λ表示波长;x表示图像像素的空间三维坐标;c={R,G,B};ω表示可见光谱。实践中,为方便计算,往往不考虑相机感应函数ρ(λ)的影响,即光源颜色e只与场景光源颜色e(λ)以及物体的表面反射率R(x,λ)有关:

(2)

1.2 Gray Edge框架

GE框架是Weijer等[6]在提出GE假设的基础上,通过引入闵可夫斯基(Minkowski)范式和高斯平滑预处理得到的,公式为

(3)

表1 Gray Edge框架下的颜色恒常性计算方法Tab.1 Color constancy algorithms under Gray Edge framework

1.3 语义分割模型:PSPNet

图像语义分割方法可分为基于FCN的方法,如DeepLab系列[18]通过带孔卷积等技术对FCN进行优化改进,增大感受野;基于编码解码的方法,如DeconvNet[19]通过反卷积等操作构成的解码器对低分辨率图像进行上采样处理;基于特征融合的方法,如PSPNet[20]使用空间金字塔池化模块捕获图像不同位置信息等。考虑到PSPNet模型能够融合不同尺度下的特征,从而达到聚合全局信息的目的,更适用于语义信息较丰富的场景,本文使用PSPNet模型对目标图像进行语义分割。

对于主干特征提取网络的选取,本文尝试使用AlexNet[21]、Vgg16[22]、ResNet50[23]3种网络,分别作为PSPNet模型的特征提取网络进行语义分割训练。

2 本文算法

本文算法分为训练阶段和测试阶段,算法整体流程包括3个步骤,分别为构建决策集合、图像预处理、算法决策,如图1所示。

图1 算法流程Fig.1 Flow of the proposed algorithm

2.1 构建决策集合

训练阶段构建的决策集合中应包含了参考图像的语义分割结果,以及对应的最优颜色恒常性计算方法,以便为测试阶段的目标图像提供算法决策方案。

为构建决策集合M,首先对输入的训练图像a使用GE框架下的各种无监督算法(如GW、WP等)分别进行处理,得到5幅结果图,按照公式(4)使用角度误差对结果图进行误差度量:

(4)

2.2 图像预处理

考虑到一些偏色严重的图像会影响到场景语义分割的精确性,所以对输入网络的目标图像b使用1stGE算法进行偏色的预处理;同时为了减少偏色预处理对结果带来的影响,将原图像与1stGE算法处理的结果按照公式(5)进行图像的线性混合得到偏色预处理后的结果如下:

H(x)=(1-α)f0(x)+αf1(x)

(5)

式中:H(x)为混合图像,即1stGE算法预处理后的结果;图像线性混合权重α=0.5。再对预处理后的图像H(x)进行场景语义分割,得到包含n种语义信息wi(按占比降次排序)以及所对应的占比pi的语义集合体。占比pi可表示为

(6)

式中:wi(x,y)表示语义信息wi的像素数目;f(x,y)m×n表示图像总的像素数目。考虑到有些目标图像语义信息贫乏而有些图像语义信息丰富,为方便计算,取语义信息wi类别数目n≤4。

2.3 算法决策

2.3.1 场景语义相似度计算

常用度量图像语义相似度的距离公式有欧氏距离(Euclidean Distance)、余弦距离(Cosine Distance)、巴氏距离(Bhattacharyya Distance)等,为更好地计算图像语义相似度,识别图像语义间的视觉、空间差异,本文参照文献[24-26]使用欧氏距离表示语义集合体m,m′(即目标图像b和参考图像b′)的语义相似度。相似度计算公式如下:

(7)

式中:S表示相似度;p表示测试图像中语义信息占比;p′表示训练集中对应图像语义信息占比,由于训练集中具有相同语义信息的语义集合体(图像)不止一个,所以会产生S1,S2,S3等不同相似度,取最高相似度,记为所需语义相似度S。

同时,为验证所使用欧氏距离对语义相似度度量的有效性与鲁棒性,本文根据5种距离公式分别构建所对应的语义相似度距离公式,包括欧氏距离、曼哈顿距离[27](Manhattan Distance)、海林格距离(Hellinger Distance)、巴氏距离、余弦距离,对应语义相似度计算公式见表2。

表2 由5种距离公式构建的语义相似度计算公式Tab.2 Semantic similarity calculation formulas constructed by 5 distance formulas

表2中,c1,c2,c3,c4均为常数,为方便计算,取c1=c2=c3=1,c4=0,并从决策集合中选取21幅对应最优算法为GW的图像,其中1幅作为参考图像,分别使用构建的5种距离公式计算该参考图像与另20幅图像的语义相似度,观察各计算公式所得结果的误差值,如图2所示。

图2 5种公式下语义相似度计算结果Fig.2 Results of semantic similarity calculation under 5 formulas

图2中误差棒表示上四分位值,柱形图高度表示计算结果均值。由于常数c1,c2,c3,c4取值和相似度结果有着直接关系,故本次实验所得结果大小并不能衡量实际相图像语义似度。仅从5种语义相似度计算公式的鲁棒性角度出发,观察图2中5种语义相似度计算公式下计算结果的误差值,可知欧氏距离对应的计算结果误差值最小,证明了本文选用欧氏距离作为图像语义相似度计算公式的有效性和鲁棒性。

2.3.2 阈值选取

阈值大小的选取直接影响着算法的效果,而阈值的选取与决策集合中用于训练参考图像的数目高度相关,阈值越高,对参考图像数目要求越多。本文阈值大小的选取是由决策集合中每幅参考图像通过计算获取的,与每幅参考图像直接相关,可解释性较强。本文算法阈值的确定,通过以下步骤实现:

步骤1 根据训练集中的图像,选择采取相同算法fk(如GW算法)的决策集合Mk中一幅参考图像N0与其余N幅参考图像进行语义相似度计算。在公式(7)的基础上引入向量特征表示,如公式(8):

(8)

(9)

步骤3 得到5种算法(GW,WP,SoG,1stGE,2ndGE)决策集合Mk的平均相似度εk,结果如图3所示,其中误差棒表示95%的置信区间。

图3 95%置信区间下参考图像的平均相似度Fig 3.Average similarity of reference images under 95% confidence interval

(10)

式中:|Xk|表示决策集合Mk中的样本数。

根据训练阶段使用的677张参考图像的计算结果,本文设定测试阶段语义相似度阈值τ=0.706。

2.3.3 算法选择

经过对语义集合体m进行场景语义相似度计算后,得到最高相似度S及该相似度对应的语义集合体m′和处理算法f′:

(11)

最后通过判断S与设定阈值τ的大小,为目标图像b选择合适算法f:若相似度S大于阈值τ,则对输入图像b适用语义集合体m′的颜色恒常性计算方法f′处理;若相似度S小于阈值τ,则对图像整体采用SoG算法进行处理,最终得到偏色校正图像c。

2.4 相关参数设置

2.4.1 算法参数选择

根据表1中参数取值与公式,SoG、1stGE、2ndGE 3种算法通过调节不同的ρ值(1<ρ<∞)与高斯滤波器参数σ可得到不同的算法效果,本文通过使用网格化参数寻优的方法,设定SoG算法中ρ=7,1stGE、2ndGE算法参数取值分别为e1,1,6和e2,1,5,如表3所示。

表3 算法参数设置Tab.3 Algorithm parameter settings

2.4.2 PSPNet语义分割模型参数选择

本文使用PSPNet模型对图像进行语义分割,主干特征提取网络分别使用了ALexNet、Vgg16和ResNet50,训练图像为Cityscapes数据集中5 000幅精细标注的图像。设置训练语义分割信息类别共10类(包含背景)。设置总的epoch=100(冻结阶段epoch=60,解冻阶段epoch=40),模型冻结训练阶段batchsize=8,解冻训练阶段batchsize=6。

3 实验结果与分析

3.1 数据集

3.1.1 语义分割模型训练:Cityscapes数据集

Cityscapes数据集[15],即城市景观数据集,包含了50个不同欧洲城市的街道场景图像,其中包括5 000幅精细标注的图像和20 000幅粗糙标注的图像,语义信息包含34个类别,但常用的是19个类别。本文将数据集中5 000幅精细标注的图像用于训练和评估PSPNet语义分割模型,训练类别包括人、汽车、道路、天空、建筑等10类。

3.1.2 算法训练阶段:Cube+数据集

Cube+[28]数据集是对Cube数据集的扩展,包含了克罗地亚、斯洛文尼亚和奥地利等城市在不同季节记录1 707幅图像。本文选取Cube+数据集共677幅语义信息丰富的室外图像用于构建决策集合。

3.1.3 算法测试阶段:Color Checker数据集、NUS 8-camera数据集

Color Checker数据集包括568幅线性RGB图像,真实光照是通过图像中放置的色彩测试标板(Color Checker)获得。NUS 8-camera数据集是由8部不同型号相机在相同场景下拍摄的1 736幅图像。

3.2 评估指标

3.2.1 语义分割模型性能评估指标:均交并比

均交并比(Mean Intersection over Union,MIoU)是语义分割领域中最为广泛使用的评估指标,通过计算场景中所有语义类别的交集和并集之比的平均值来度量语义分割模型的性能,计算公式如下:

(12)

式中:n表示语义信息类别的数量;i表示真实值;j表示语义分割的预测值;pij表示将i预测为j。

PSPNet模型使用3种主干特征提取网络训练所得模型MIoU如图4所示。从图4可以看出,3种主干特征提取网络在训练结果上相差无几,但考虑到网络的计算效率,由于ResNet50使用了残差网络结构,网络的计算能力和准确率相较于ALexNet和Vgg16要高,故本文算法使用ResNet50作为PSPNet模型的主干特征提取网络对目标图像进行语义分割。

图4 PSPNet模型MIoU曲线Fig.4 MIoU curve of PSPNet model

3.2.2 光源估计性能评估指标:角度误差

本文通过使用角度误差(Angular error)估计真实光照和估计光照的距离以评估各种颜色恒常性计算方法的性能,如公式(4)。在此基础上,为综合评估颜色恒常性计算方法的性能,本文使用光源估计图像角度误差的均值、中值、三均值与最大误差等指标作为评估依据。

3.3 算法性能评估

本文使用Color Checker、NUS 8-camera数据集评估各算法光源估计性能。对比算法选用了单一算法和融合算法两种类型:单一算法包括GE框架内5种算法(GW、WP、SoG、1stGE、2ndGE)和两种GM算法(GM-pixel和GM-edge);融合性算法包括Top-Down和NIS算法。参数设置方面除了本文设定的GE框架内的算法外,其余算法皆采用默认值。各算法在Color Checker和NUS 8-camera数据集中光源估计性能如表4所示。

表4 各算法光源估计性能Tab.4 Illuminant estimation performance of each algorithm

由表4观察到,本文所提算法在Color Checker数据集中与实验结果中性能最优的单一颜色恒常性算法(SoG算法)相比,均值、中值、三均值角度误差分别下降14.03%,14.22%,15.86%,与性能最优的融合性颜色恒常性算法(NIS算法)相比,均值、中值、三均值角度误差分别下降11.59%,14.62%,15.86%;在NUS 8-camera数据集中与实验结果中性能最优的单一颜色恒常性算法(1stGE算法)相比,均值、中值、三均值角度误差分别下降8.24%,6.76%,4.38%,与性能最优的融合性颜色恒常性算法(NIS算法)相比,均值、中值、三均值角度误差分别下降6.44%,10.88%,7.19%。此外,本文算法相对于所基于的GW、WP、SoG、1stGE、2ndGE算法,光源估计性能大幅提升,证明了本文所提出算法决策模型的有效性。且在两种数据集中,本文算法最大角度误差较各种算法均有大幅度下降,这表明本文算法能够弥补单一颜色恒常性算法的局限性,有效为目标图像选择合适的颜色恒常性算法,提高了在不同场景下光源估计的鲁棒性,进一步增强了光源估计的准确度。

3.4 实验结果分析

根据表4中各种算法的实验结果表明,本文算法在两种数据集中均取得较好的性能表现,分析原因有以下几点:首先,本文算法使用了PSPNet语义分割模型充分利用图像全局信息,并使用精细标注的Cityscapes数据集图像辅以学习,从而更为精细、全面地构建语义集合体;其次,本文算法在计算目标图像与已训练决策集合中参考图像的语义相似度过程中,选择与多幅参考图像计算相同语义信息占比的欧氏距离,以确定最终相似度最高的参考图像;最后,在确定相似度阈值时,根据参考图像对应最优算法的种类及数目计算,阈值的确定和训练使用的参考图像高度关联,选取规则更具有说服力。

实验过程中,在处理具有大面积单一语义或是语义类别没有经过训练的目标图像时,如图5中右侧两幅目标图像,由于场景相似度过低,本文算法默认使用SoG算法对这类目标图像进行处理,也会出现光源估计精度低等问题。因此,场景语义类别的扩充训练应作为后续的一个研究方向。

图5 部分图像光源估计示例Fig.5 Example of illuminant estimation for some images

4 结 论

针对单一颜色恒常性算法的局限性及融合性算法在算法选择依据上的不足,本文基于GE框架提出了一种语义驱动的颜色恒常决策算法,通过计算已训练参考图像与待校正目标图像场景语义相似度,从而为目标图像选择最合适算法,达到弥补单一算法局限性、提高颜色恒常性算法准确度的目的。在Color Checker和NUS 8-camera数据集中的实验结果表明,本文算法的光源估计性能优于GE框架下的单一算法且较同类型融合性算法角度误差分别下降14.02%和8.17%,提高了颜色恒常性算法对偏色图像进行光源估计时的鲁棒性和准确度。

猜你喜欢

偏色光源语义
语言与语义
改进的完美反射法及其在视频偏色校正中的应用
一招解决手机拍照偏色问题
绿色光源
两种LED光源作为拟南芥生长光源的应用探究
基于方差因子的图像 偏色检测研究
“上”与“下”语义的不对称性及其认知阐释
认知范畴模糊与语义模糊
科技连载:LED 引领第三次照明革命——与传统照明的对比(一)
两个不等光强非相干光源的分辨研究