宽带光谱成像系统最优训练样本选择方法研究
2016-11-22万晓霞梁金星刘强
万晓霞, 梁金星, 刘强
(武汉大学 印刷与包装系, 湖北,武汉 430079)
宽带光谱成像系统最优训练样本选择方法研究
万晓霞, 梁金星, 刘强
(武汉大学 印刷与包装系, 湖北,武汉 430079)
为解决现有标准色卡或颜色样本集因数量大、存在严重颜色冗余而导致的光谱成像工作繁重的问题,提出一种基于宽带光谱成像系统光谱重建误差最小化的最优训练样本选择方法. 通过现有颜色样本集中最有效样本的选择,实现宽带光谱成像系统训练样本的优化. 研究通过伪逆方法进行光谱重建,以光谱均方根误差作为评价依据,从颜色样本集中逐步挑选训练样本,实现每次迭代所确定训练样本对样本集重建光谱误差的最小化. 实验结果表明,在选择相同数量训练样本条件下,本研究方法所构建训练样本的光谱和色度精度明显优于现有方法.
光谱成像;训练样本;光谱重建;误差分析
光谱成像技术在光谱与色度方面具有较高成像质量,近些年在数字成像领域发展迅速,同时在文物艺术品的高保真数字化典藏、保护及再现复制方面发挥越来越突出的优势,当前光谱成像系统主要分为窄带与宽带光谱成像系统两类[1-2]. 宽带光谱成像系统中,物体表面光谱反射率重建工作大多基于训练样本完成,即先获得典型代表性训练样本,通过训练样本计算由多通道数字响应信号到光谱反射率值的转换矩阵,完成光谱反射率重建[2],因而训练样本的选择直接影响着光谱反射率的重建精度. 目前常用一些标准色卡作为训练样本,如Color Checker DC (CCDC)、 Color Checker Rendition Chart (CC)、Esser Test Chart TE221 (Esser)、ANSI IT8 Charts以及Munsell Surface Colors等进行光谱重建工作[3-8],但大部分的标准色卡具有较多数量的颜色色块,这给光谱成像过程中的数据处理带来了巨大的工作量.
研究发现,上述一些标准色卡包含大量的冗余色块,选用其中少数部分色块便能表征标准色卡几乎全部光谱和色度特征信息[3]. 基于此,为保证光谱重建精度的同时提高光谱成像技术的工作效率,Hardeberg等[4]提出一种最小条件数(CN_based)训练样本选择方法,用于光谱成像系统的响应特性表征. Mohammadi等[5]提出了一种光谱聚类分析的训练样本选择方法,首先根据距离分析对样本集进行聚类分析,然后从每个聚类中挑选出与本聚类中其余样本向量夹角总和最小的样本作为代表样本,组成训练样本集. Cheung等[6]提出了4种基于空间距离分析挑选训练样本的方法,使选择的训练样本与已选训练样本集中的每个样本的光谱或色度特性尽可能不同,通过实验证明最小最大色度(MAXMINC)方法选择的训练样本具有最高的重建精度. 以上提出的训练样本选择方法都是基于一个相同的原则,即要求选择出的训练样本中的代表色块在光谱或色度属性上相互之间差别最大. Shen等[7]提出了一种基于特征向量分析(EV_based)的训练样本选择方法,使每次迭代确定的新的训练样本集光谱主成分对全部样本的光谱主成分覆盖率最大,实现训练样本对全部样本的光谱重构误差最小化. 但上述所有训练样本选择方法均是完全基于对样本集自身的特征分析,并未联系到实际及光谱成像系统特性,所选择的训练样本虽然能够高效的重建全部样本的光谱反射率,但不是最优的训练样本选择方法. 刘振等[8]针对宽带光谱成像系统的艺术品复制应用,提出了一种面向复制的子空间追踪训练样本选择方法,通过对样本集光谱空间进行分解,将重建样本的色度子空间光谱反射率与训练样本色度子空间光谱反射率之间的相似性作为样本选择依据,虽然实现了色度精确的前提下最大限度的提高光谱重建精度,但实际的光谱重建效率和精度仍受到方法本身限制.
针对上述方法的不足,本文提出了一种基于真实光谱成像系统的光谱重建误差最小化训练样本选择方法. 首先搭建真实宽带光谱成像系统,利用搭建的真实宽带光谱成像系统拍摄获得样本集的多通道数字信号;然后通过伪逆方法进行光谱重建,使每次迭代确定的训练样本集重建颜色样本集的光谱误差最小化,逐步挑选典型训练样本,直到光谱重建误差开始收敛时确定最终的训练样本集,其中包括重复样本;最后利用主成分分析光谱重建将方法的性能与现有方法进行了全面的比较.
1 光谱成像系统模型及光谱重建算法
1.1 线性化系统模型
假设光谱成像系统的光电转换函数为线性模型[4],则系统的第i个通道图像像素的响应值可以用式(1)来表示为
(1)
式中:λ为波长变量;di为第i个通道图像像素响应值;l(λ)为光源的相对光谱功率分布;r(λ)为物体表面任一像素点的光谱反射率;fi(λ)为镜头与滤光片的总透射率;s(λ)为光谱成像系统CCD传感器的光谱敏感度函数;bi和ni分别为CCD暗电流噪声和固定模式噪声,可通过暗电流去除和光照不均匀性校正来消除.
本研究采用实验选定的两个滤光片分别与CCD配合获得3通道数据,因此共有6个通道,i取值为1~6. 为了更简明地表达线性化的系统模型,令mi(λ)=l(λ)fi(λ)s(λ),写成矩阵表达形式如下
(2)
式中:M为光谱响应矩阵;R为光谱图像矩阵;D为数字响应响应矩阵;B和N分别为暗电流噪声和固定模式噪声向量. 经暗电流和光照不均匀性校正后的光谱成像系统,可认为B和N均为0,因此可将式(2)简化为式(3)的形式
(3)
式(3)即为基本的系统响应模型.
1.2 伪逆(pesudoiverse, PSE)光谱重建方法
基于式(3)所表达的光谱成像系统模型,针对获得的每个重建样本的6通道系统响应信号,可以通过转换矩阵T重建得到其对应的光谱反射率,其中转换矩阵T是通过训练样本的光谱反射率矩阵乘以对应的系统响应值的伪逆矩阵得到,如式(4)所示
(4)
式中:R训练为训练样本的光谱反射率矩阵;PINV为计算伪逆的函数;D训练为训练样本的系统响应矩阵. 则重建样本的光谱反射率信息就可以通过式(5)得到
(5)
1.3 主成分分析(principalcomponentanalysis,PCA)光谱重建方法
基于式(3)表达的光谱成像系统模型,首先对训练样本的光谱反射率进行奇异值分解
(6)
(7)
2 训练样本选择方法
综合现有的训练样本选择方法方法可知,Hardeberg方法、Mohammadi方法以及Cheung方法均是挑选在光谱反射率空间或色度空间差别最大样本,虽然这些方法能够得到有效的训练样本集,但并不是最优的训练样本组合.Shen的方法虽然分析了训练样本集与总样本集的等效性,并以此为基础进行训练样本的选择,但只是单纯的从样本集之间的等效性进行分析,未联系到实际的光谱成像系统特性,致使选择的训练样本集在实际光谱成像过程中并非最优的训练样本集. 刘振等并非以最大程度的精确重建物体表面光谱反射率为主要目的,而且方法应用范围有限. 针对上述方法的不足之处,研究提出了一种基于真实光谱成像系统的光谱重建误差最小化训练样本选择方法,方法总体描述如图1所示,具体如下.
首先利用专业设备测量获取颜色样本集Θ的光谱反射率矩阵R;然后搭建光谱成像系统,并对光谱成像系统的暗电流水平、固定模式噪声、光照不均匀性、各通道线性化响应程度进行标定;第3步利用标定后的真实光谱成像系统对样本集Θ进行拍摄,并根据第2步对光谱成像系统的标定结果对拍摄的样本集进行校正,获得颜色样本集校正后的数字响应信号矩阵D. 第4步和第5步为本文方法的核心,以Ω代表选定的训练样本集,利用第1部分介绍的伪逆方法作为训练样本选择时的光谱重建方法,从选择第一个训练样本开始,针对样本集Θ中的每一个样本Ri,利用式(4)计算得到样本对应的转换矩阵T为
(8)
然后利用式(5)对样本集Θ进行光谱重建
(9)
以光谱重建误差(root mean square, RMS)作为评价指标
(10)
挑选出光谱重建误差最小的一个样本作为第一个训练样本
(11)
此时,训练样本集中的第一个样本被选定,
(12)
以此类推,在挑选剩余的第2个到第k(k小于最大样本数)个训练样本时有
(13)
直到满足式(14)所表示的条件时完成训练样本选择,此时确定的训练样本集Ωk对样本集Θ光谱重建误差开始达到最小,当继续增加满足式(13)的训练样本sk+1,sk+2,…,sm时,训练样本集Ωk+1,Ωk+2,…,Ωm对样本集Θ的光谱重建误差仅有极其微弱减小趋势,基本收敛于最小值Jmin,
(14)
本文方法在每挑选一个新的样本加入到Ω时,都要将样本集Θ中所有的样本遍历一次,其中包括已经存在于Ω中的样本,如此设计算法可以充分利用有效训练样本在真实光谱成像系统中的贡献度,使最终确定的训练样本集Ω在真实光谱成像系统前提条件下最大程度地表征样本集Θ的光谱特征.
3 实验结果与分析讨论
为了考察提出的训练样本选择方法的效果,采用仙娜(Sinar 75H)数码相机配合通过前期研究得到的BG7和OG515带通滤光片组成宽带光谱成像系统,使用X-rite ColorEye 7000A分光光度计测量滤光片在360~750 nm范围内的相对光谱透射率曲线,如图2(a)所示. 针对每个滤光片,在标准A光源scanlite1000照明下获得其3通道图像,首先对获得的3通道图像进行暗电流校正、系统噪声去除、线性化校正以及光照不均匀性校正等处理,然后通过光谱图像配准算法将在两个滤光片下获得的3通道图像进行配准,组合获得6通道图像,提取每个样本的6通道数字响应值,通过伪逆光谱重建方法进行训练样本集的选择工作. 实验颜色样本集选用由154种矿物质颜料在11种颗粒度粒径下涂制而成的1 687个颜料样本,这154种矿物质颜料包含了几乎古代壁画所使用的所有矿物质颜料,使用spectrolino在D50/2°条件下通过3次测量求平均的方法得到1 687个矿物颜料色块在380~730 nm范围内的相对光谱反射率,如图2(b)所示.
为全面评价训练样本集对总样本集光谱重建的精度,除采用式(11)所定义的光谱均方根误差RMS之外,同时选取目前常用的CIE标准光源D50和1 931观察者条件下的CIEDE2000色差公式对重建精度进行评价. 图3为使用本文提出的方法挑选的训练样本的数目与光谱重建误差RMS以及CIEDE2000色差变化关系,图3(a)、3(b)子图中的水平虚线表示使用全部1 687个样本作为训练样本通过伪逆方法进行光谱重建的光谱误差RMS和色差CIEDE2000,分别为0.027 9和2.25.
由图3结果可知,光谱成像系统的光谱重建误差RMS和DE2000的分布随着训练样本数目增加而迅速降低. 其中,当训练样本数量达到25个时,光谱成像系统的重建光谱误差RMS和色差DE2000已经十分接近使用1 687个样本作为训练样本的重建误差水平,与Mohammadi以及Shen等[5,7]的研究结果相似. 当训练样本数量达到38个时,光谱成像系统的重建光谱误差RMS开始收敛于0.027 7,超过使用1 687个样本作为训练样本的重建光谱误差水平;此时光谱成像系统的光谱重建色差DE2000达到最小值2.29,38个样本中有两个重复一次的样本. 当继续增加样本数量超过38个时,光谱成像系统的重建光谱误差RMS虽有微小降低,但仍然收敛于0.027 7;重建色差DE2000随着训练样本数量的增加逐渐接近于使用1 687个样本重建的水平,但接近速度非常缓慢,此时训练样本集中重复出现的色块数量和色块的重复次数都开始增加. 因此,可以认为当训练样本数量达到38个时,可作为1 687个色块组成的样本集在本实验真实宽带光谱成像系统下光谱重建的最优训练样本集. 此外,本文方法确定的最优训练样本在本实验宽带光谱成像系统下,重建的光谱误差小于使用所有样本作为训练样本重建的光谱误差. 分析原因可能为使用1 687个样本作为训练样本时,计算得到的转换矩阵的精度会受到数据冗余以及其中部分具有较大噪声颜色样本的影响,从而导致光谱重建的整体精度下降,这与Shen的方法相似[7].
将本文提出的方法与上述已有的几种方法等在不同数量训练样本条件下的光谱重建结果进行比较,同时为了证明本文训练样本选择方法所确定的最优训练样本集适用于其它方法进行光谱重建,采用前6主成分分析光谱重建方法将本文方法与现有其他方法比较,光谱重建结果如图4所示.
由图4可知,本文光谱成像训练样本选择方法在不同数量的训练样本数目条件下,无论是光谱误差RMS还是色差DE2000,均明显小于Hardeberg、Mohammadi、Cheung以及Shen等的方法. 由图4(a)可知,当训练样本数量达到25个时,使用本文提出的方法重建的精度与使用1 687个样本重建精度光谱误差已经十分接近,继续增加训练样本的数量时,本文方法训练样本的光谱重建精度已经达到
稳定误差水平,图4(b)中光谱重建的色差误差水平也表现出基本相同趋势. 由此可知,使用本文基于伪逆光谱重建误差最小化训练样本选择方法挑选的最优训练样本集,同样适用于其他光谱重建方法.
表1为不同训练样本选择方法选择不同数量训练样本所花费的时间(单位:s),计算条件为联想ThinkPad E420 2.3 GHz内存为2G笔记本电脑,采用Matlab 2009a软件平台实现. 由表中时间数据可知,由于算法的设计,除Mohammadi方法随选择的训练样本数量增加时间减小之外,其余方法的计算时间均随着选择的训练样本数量增加. 纵向比较不同数量训练样本下的计算时间可知,新方法计算效率整体介于Cheung和Shen方法之间,且随着选择样本数量的增加逐渐与Hardeberg方法相当,计算效率可以得到保证.
表1 不同训练样本选择方法计算效率
图5为在本实验宽带光谱成像系统下,使用36个训练样本,通过已有训练样本选择方法以及本文方法对其中两个样本的重建结果. 从图中可以看出,虽然本文提出的训练样本选择方法的重建光谱反射率与实际测量的光谱反射率之前仍存在一定程度偏差,但优于上文中介绍的4种方法.
4 结 论
为解决标准色卡或颜色样本集因数量大、存在严重颜色冗余而导致的光谱成像工作繁重的问题,研究提出了一种基于真实光谱成像系统重建光谱误差最小化的训练样本选择方法,弥补了现有方法的不足. 以154种矿物颜料在不同颗粒度粒径下涂制成1 687个矿物质颜料样本集为实验对象,针对搭建的宽带光谱成像系统,对本文提出的算法进行验证,并与现有的方法进行了比较. 实验表明,使用本文提出的方法在任意数量训练样本条件下的光谱重建精度优于现有的训练样本选择方法,且计算效率可以得到保证.
[1] 杨萍,廖宁放,何丽,等.高速窄带多光谱成像系统光谱重建技术研究[J].影像技术,2008(6):14-18.
Yang Ping, Liao Ningfang, He Li, et al. Study on image acquisition and spectral construction based on speedy multi-spectral imaging system[J]. Image Technology, 2008(6):14-18. (in Chinese)
[2] Zhao Y, Berns R S. Image-based spectral reflectance reconstruction using the matrix R method[J]. Color Research & Application, 2007,32 (5):343-351.
[3] Kohonen O, Parkkinen J, Jääskeläinen T. Databases for spectral color science[J]. Color Research & Application, 2006,31(5):381-390.
[4] Hardeberg J Y, Schmitt F, Brettel H. Multispectral color image capture using a liquid crystal tunable filter[J]. Optics Eng, 2002,41(10):2532-2548.
[5] Mohammadi M, Nezamabadi M, Berns R S, et al. Spectral imaging target development based on hierarchical cluster analysis[C]∥Proceedings of Twelfth Color Imaging Conference: Color Science and Engineering, Systems, Technologies and Applications (IS&T). Scottsdale, Arizona, USA:[s.n.], 2004:59-64.
[6] Cheung V, Westland S. Methods for optimal color selection[J]. Journal of Imaging Science and Technology, 2006,50(5):481-488.
[7] Shen H L, Zhang H G, Xin J H, et al. Optimal selection of representative colors for spectral reflectance reconstruction in a multispectral imaging system[J]. Applied Optics, 2008,47(13):2494-2502.
[8] 刘振,万晓霞,黄新国,等.基于宽带多通道的光谱反射率重建方法研究[J].光谱学与光谱分析,2013(4):1076-1081.
Liu Zhen, Wan Xiaoxia, Huang Xinguo, et al. The study on spectral reflectance reconstruction based on wideband multi-spectral acquisition system[J]. Spectroscopy and Spectral Analysis, 2013(4):1076-1081. (in Chinese)
(责任编辑:李兵)
Optimal Training Sample Selection for Broadband Spectral Imaging System
WAN Xiao-xia, LIANG Jin-xing, LIU Qiang
(School of Printing and Packaging, Wuhan University, Wuhan, Hubei 430079, China)
The existing standard colorcharts or databases always have large sample size and suffer from color redundancy, which inevitability leads to a time-consuming process for practical spectral imaging. In order to resolve this problem, an optimal training sample selection method was proposed whose main idea was choosing the most effective samples from existing database based on error analysis of spectral reconstruction. A typical spectral imaging workflow was set up where the pseudoinverse (PSE) method was employed for spectral reconstruction and spectral root-mean-square error (RMS) was used as evaluation metric. Through minimizing the RMS error for each iteration, the method selected the optimal samples one by one from existing databases. The experimental results show that the proposed method has higher effectiveness both in spectral and colorimetric accuracy than the current existing methods when choosing the same number of training samples.
spectral imaging; training sample; spectral reconstruction; error analysis
2015-02-28
国家自然科学基金资助项目(61275172);国家“九七三”计划项目(2012CB725302);中国博士后科学基金面上资助项目(2014M560625)
万晓霞(1965—),女,教授,博士生导师,E-mail:wan@whu.edu.cn.
梁金星(1989—),男,博士生,E-mail:jxliang@whu.edu.cn.
TH 744
A
1001-0645(2016)06-0641-06
10.15918/j.tbit1001-0645.2016.06.017