光谱信息扩展下的纸张粘度光谱指数构建研究
2023-09-11孙雪剑李广华张立福张东辉常晶晶戴晓爱
高 宇, 孙雪剑*, 李广华, 张立福, 曲 亮, 张东辉, 常晶晶, 戴晓爱
1. 中国科学院空天信息创新研究院, 遥感卫星应用国家工程实验室, 北京 100101
2. 故宫博物院, 北京 100009
3. 成都理工大学地球科学学院, 四川 成都 610059
引 言
粘度是表征纸张材质聚合度属性的重要参数[1]。 通过粘度的测定, 能够掌握纸张的材质、 强度、 老化程度等关键信息, 这对于纸张的修复和保护提供了第一手的研究资料[2]。 随着目前对古籍纸张保护的重视, 粘度含量的科学测定成为文物保护领域的研究热点之一。 因此, 开展以粘度为代表的纸张材质劣变生化参数研究, 将对纸质文物的保护方案实施与修复工作的开展提供技术参考[3]。
高光谱遥感技术是一种接收地物反射谱信息来表征成分含量的技术。 物体由于自身属性的差异, 在光谱中从短波到长波呈现不同的反射规律, 根据这一现象可以反推物体的各种定量信息[4]。 其中, 推扫式成像光谱仪能够同时采集物体的光谱、 图像、 位置信息, 实现了空间维与光谱维上的“图谱合一”。 传统上将这一技术应用地质矿产[5]、 生态环境[6]、 农林渔业[7]等领域, 取得了一系列突破性的成果, 提高了对原有理论的认识丰度。
同时, 在文物保护领域, 前人的研究集中在三个方面: 一是文物的三维建模与数字化, 该技术是利用结构光对目标进行虚拟成像, 从而实现永久性存储[8]; 二是文物的材质本底和色彩成分分析, 包括古画[9]、 唐卡[10]、 瓷器[11]、 纺织品[12]等, 这一工作在修复领域取得了突破性的进展; 三是文物信息探测, 宏观上有基于卫星和无人机的寻址与发现[13], 微观上有字画隐藏信息提取[14]。 然而在专门针对纸张材质的研究方面, 受限于传感器的光学敏感性不足, 以及缺乏系统的光谱信息处理流程, 导致尚处于起步阶段。 粘度作为一种微量信息, 在高光谱信息提取过程中, 面临光谱降噪、 光谱指数遴选、 光谱信息增强等一系列复杂的科学问题, 需要设计一套专门的技术方法。 传统的纸张粘度分析方法主要采用化学手段。 其过程是, 首先对纸张进行粉碎, 将其烘干处理; 其次添加铜乙二胺溶液和蒸馏水, 排除空气制成纸浆溶液; 最后将溶液瓶浸入恒温[(25±1) ℃]水浴, 通过粘度计计算粘度含量。 这一过程不仅耗时耗力, 无法满足快速分析的目的, 同时也是一种有损检测, 对于有极高价值的纸张无法适用。
综上, 本文引入高光谱技术, 采集不同老化程度的纸张样本光谱, 并结合传统化学手段测量各个纸张样本的粘度含量信息, 形成光谱标签, 按照光谱降噪、 光谱变换、 光谱信息扩展、 光谱指数构建、 模型精度评价的流程, 开展了专门针对纸张粘度的研究。 在研究过程中, 将变换后光谱引入表征光谱局部、 整体特征的信息参数, 构建并提取光谱数据中最佳反映粘度含量的差值指数、 比值指数和归一化指数, 并将其作为自变量构建粘度含量一元回归模型, 通过对比模型精度验证提取光谱指数的可用性, 得到纸张粘度含量的无损快速预测方法, 相关结论验证了高光谱技术在纸张粘度含量提取的有效性。
1 实验部分
1.1 纸张光谱影像采集设备
纸张样本的高光谱图像由大幅面高精度文物光谱成像自动扫描系统(HS-VN/SW2500CR)中进行采集(图1)。 该系统由可见近红外传感器和短波红外传感器共光路设计, 采集光谱范围400~2 500 nm, 其中可见光波段光谱分辨率为1.6 nm, 近红外波段光谱分辨率为9.6 nm, 且光源与仪器同步运动保证成像幅面, 瞬时视场角优于1.5 mrad, 最大帧率为200 fps, 最大成像幅面设计为2 m×2 m, 自动化扫描平台在采集程序控制下按照设定的路线进行采集工作。
图1 HS-VN/SW2500CR型文物光谱成像系统
1.2 老化纸张粘度含量测定
纸张样本材质统一为“红星棉料四尺单宣”, 纸面涂抹有不同浓度配比下的胶矾水对其进行“熟化”处理, 放置于恒温室[(105±5) ℃]通过调节室内相对湿度来模拟纸张在干热和湿热两种自然环境下的老化过程, 根据不同的放置时间得到共计110份表征不同老化程度的纸张样本。 参考GB/T1548—2004《纸浆粘度的测定》的方法, 首先将纸张样本裁剪一部分粉碎制成纸屑, 添加适量的铜乙二胺和等量的蒸馏水配置纸张样本的纸浆溶液, 排除残留气体, 通过粘度计和秒表对实验纸张样本的粘度含量进行测定, 得到不同老化程度纸张的粘度含量数据集, 如表1所示。 依据实验纸张样本表面成分的7种类型分布特点, 将110组纸张粘度含量及其光谱数据按照类间“7∶3”比例随机抽样进行数据集划分, 得到均匀分布的训练集77组、 测试集33组。
表1 不同类型的纸张粘度含量信息表(单位: mL·g-1; 胶指黄明胶, 矾指明矾)
1.3 纸张高光谱数据预处理
1.3.1 光谱降噪
在成像光谱仪的光谱信号采集过程中, 首尾谱段容易受到来自仪器本身电子元件噪声和外界环境的干扰导致真实光谱信号失真[15], 不利于后续表征纸张粘度含量的光谱提取。 因此, 本文选取425~977 nm范围内共340个波段的高光谱遥感影像作为基础数据, 并结合SG滤波进行逐象元光谱去噪处理, 以此提高光谱信息定量分析的稳健性和准确性[16]。 最后再将经过去噪处理后的纸张光谱影像进行均值计算, 得到与各个纸张样本粘度含量对应的光谱数据(图2)。
图2 不同粘度含量的纸张光谱反射曲线图
1.3.2 光谱变换
光谱变换能够增强特征波段信息, 达到提高信息提取精度的目的[17]。 在纸张样本降噪后光谱的基础上, 为凸显光谱中的隐藏信息以及消除背景噪声干扰, 分别对其进行一阶微分处理、 对数一阶微分处理和指数一阶微分处理, 共计三种光谱变换处理, 以此丰富本实验所搭建的对应不同粘度含量的纸张光谱数据库, 共计得到实验纸张样本下的四种分析光谱数据(图3)。
1.3.3 光谱信息扩展
在光谱因子分析研究中, 常见基于光谱谱段范围的特征提取, 忽视了有关光谱整体或局部形态的参数信息, 导致其中可能表征物质本身属性的重要光谱未能有效利用。 由此, 将经过变换处理后的光谱数据, 在其原本波长范围内的光谱通量基础上, 计算能表征光谱整体能量强弱的光谱积分(spectral integration, SI), 表征光谱整体拉伸情况的光谱反差(spectral contrast, SC), 表征光谱集中情况的光谱均值(spectral average, SA)和表征光谱振动程度的光谱方差(spectral variance, SV), 以及基于参考文献[18]中表征物质本身吸收特征的光谱吸收深度(spectral absorption depth, SAD), 使得在原有340个光谱通道的基础上扩增到345个光谱特征, 以此实现在原有光谱波段数据上的信息扩展衍生, 兼顾了光谱本身的波段信息以及表征其局部和整体的特征信息。
1.4 粘度光谱指数提取
光谱指数可以从光谱中快速、 有效的表征一种物质成分的含量, 并且不同的光谱指数构建形式能够突出采集物不同的理化生信息[19]。 将训练集中不同粘度含量下的纸张光谱经过光谱降噪、 光谱变换与信息扩展后, 参照植被指数的构建形式, 例如F1-F2、F1/F2和(F1-F2)/(F1+F2), 分别提取光谱中的两个不同特征F1和F2构建差值、 比值、 归一化指数, 实现对光谱差异信息增强与同质信息压缩, 并计算各个光谱指数组合值与纸张粘度含量之间的相关性系数, 得到不同输入光谱下与粘度相关的12种最佳光谱指数提取结果(表2), 以表中“Wave977”为例, 表示波长为977 nm处的光谱。
表2 不同光谱变换方式下最大相关光谱指数提取结果表
1.5 模型构建及精度评价
纸张粘度是一种表征纸张整体纤维素聚合程度的参量, 是纸张本身复杂理化属性综合作用的表现结果, 其含量变化规律很难用一种固定参数的经验模型进行模拟[20], 而线性模型凭借其普适性强和容差性强的优点脱颖而出。 故此, 本文通过在训练集中选取与纸张粘度含量相关性最高的12种光谱指数搭建关于粘度含量的一元线性回归模型, 并根据模型在测试集的拟合精度来反映提取光谱指数是否能有效表征纸张中的样本含量。 并采用决定系数(coefficient of determination,R2)作为模型精度检验标准, 结合平均相对误差(mean relative error, MRE)和均方根误差(root mean square error, RMSE)对模型拟合数值精度与稳定性进行评估, 其计算公式为
2 结果与讨论
2.1 不同变换光谱与粘度含量的相关性分析
将纸张光谱经过预处理后, 根据不同变换光谱其与粘度含量之间的相关性系数值分布状态来反映相关性强度的变化(图4)。 经过变换处理后提取到的相关性系数数值的均值与中位数相对于原始光谱而言得到了明显的提升, 说明通过光谱变换处理能在原始光谱的基础上, 有效提升光谱整体与粘度含量之间的信息关联度。 同时, 统计在不同变换光谱下相关性数值大于0.7的高相关子特征数量占比, 得到在原始光谱中占有6.38%, 一阶微分处理光谱中为37.39%, 对数一阶微分光谱中为39.42%, 指数一阶微分光谱中为35.94%, 不仅证明了表征纸张老化程度的粘度含量变化可以在光谱中得到有效反映, 也说明了光谱变换方法对于光谱中有关粘度信息的挖掘非常重要, 其中对数一阶微分变换处理对于光谱中有关粘度信息表达的提升效果最优。
图4 不同输入光谱下粘度含量相关性数值统计图
2.2 光谱信息扩展对光谱与粘度相关性的影响
从单特征角度来看, 将经过光谱变换与信息扩展后的光谱处理结果与粘度含量分别进行逐波段、 逐参量相关性分析, 得到不同光谱条件下分别在波长范围内和扩展衍生光谱参量范围内的粘度相关性最大值及其位置结果(表3)。 对比可知在同样光谱条件下, 得到的最大相关性特征信息参量相比光谱波段而言其相关性强度有了一定程度的提升, 其中以在原始光谱中的表现更为明显, 在原始光谱中提取的光谱反差相关性系数值(0.874)相比其波长范围内最大相关的430 nm处谱段(0.754)而言提升了16%, 说明粘度含量信息与表征光谱形态特征的信息参量之间存在更强的映射关系。
表3 单特征最强相关分析结果表
从表2中提取的光谱指数来看, 在不同光谱变换处理下提取出的最佳差值、 比值和归一化指数构建内容中大部分有扩展衍生后的信息参量参与, 其中由对数一阶微分处理后“(SI-SAD)/(SI+SAD)”归一化指数相关性最强, 为-0.917, 说明了引入信息扩展的光谱指数构建方法能极大程度上挖掘出光谱中表征粘度含量变化的有效信息, 可有效应用于纸张老化程度的分析研究之中。
2.3 提取光谱指数关于粘度的解释性分析
表2中提取的12种最佳光谱指数与粘度含量的相关性数值都在0.89以上, 筛选其中与粘度相关性最强的差值、 比值和归一化值光谱指数作为代表, 分别得到经过对数一阶微分处理后提取的“SA-Wave772”差值指数和“(SI-SAD)/(SI+SAD)”归一化指数, 以及原始光谱中“Wave427/Wave977”比值指数, 以上指数在训练集中与粘度的相关性系数分别是-0.912、 -0.917和0.915。
结合点密度分析验证以上提取的三种代表光谱指数对于纸张粘度含量变化的表征情况(图5), 可知三种代表光谱指数在训练集中对于粘度含量的拟合R2都在0.83以上, 且构建拟合95%置信椭圆涵盖训练集中的大部分粘度含量, 其中以对数一阶微分处理后“(SI-SAD)/(SI+SAD)”归一化指数的效果最佳。 同时, 以上三种光谱指数的点密度分布集中反映在粘度含量为400~500 mL·g-1的区间, 说明以上三种提取的代表光谱指数对于当粘度含量为400~500 mL·g-1时为强解释性。
图5 筛选光谱指数与粘度含量关系点密度图
2.4 基于光谱指数的粘度反演模型精度对比
将提取的12种最佳光谱指数作为自变量结合最小二乘法建立有关粘度含量的一元线性回归模型, 并验证其在训练集和测试集中的精度, 得到各模型结果如表4所示, 可知在不同的光谱变换方法处理下, 提取的最大相关光谱指数模型在训练集和测试集中的拟合效果都一致较好, 说明本文中筛选得到的光谱指数能有效表征纸张粘度含量信息。
表4 基于光谱指数构建的纸张粘度含量一元回归模型结果表
表4中拟合效果最优的模型为纸张光谱经过对数一阶微分处理后“(SI-SAD)/(SI+SAD)”归一化指数所构建的模型, 该模型在训练集和测试集上R2分别为0.84和0.76, 说明该光谱指数模型可有效用于表征纸张的粘度含量, 为本文中提取到的可表征纸张粘度含量变化的最佳光谱指数。
在训练数据集中, 该光谱指数模型效果如图6所示, 纸张粘度含量数据在该模型的95%预测精度区间内,R2达到了0.84, 训练集MRE达到了0.065, 同时训练集RMSE为31.198 mL·g-1, 说明该模型训练精度较好, 可在训练集光谱中有效反映纸张粘度含量数据的变化趋势。
图6 基于(SI-SAD)/(SI+SAD)指数的模型训练集结果图
该光谱指数模型的测试效果如图7所示, 测试集中纸张粘度含量数据都在该模型的95%预测精度区间内,R2达到了0.76, 测试集中MRE为0.089, 同时RMSE为40.29 mL·g-1, 说明该模型能在测试数据集中依然能够良好反映纸张粘度含量数据的整体变化趋势。 以上实验结果证明了本文得到的粘度光谱指数对于纸张中的粘度含量变化响应明显, 由该指数建立的模型能得到较高反演精度, 为纸张粘度含量光谱分析提供理论基础。
图7 基于(SI-SAD)/(SI+SAD)指数的模型测试集结果图
3 结 论
针对纸张老化程度的无损分析, 设计出了一套基于光谱指数的纸张粘度含量分析方法, 得到了一种可有效反映粘度含量变化的光谱指数, 并将其搭建模型来验证适用性和有效性, 为纸张粘度含量的无损分析提供了新的思路。 结果表明: (1)将采集得到的纸张光谱经过预处理后, 统计其中原始光谱、 一阶微分光谱、 对数一阶微分光谱和指数一阶微分光谱中的高相关特征子集数量占比, 分别为6.38%、 37.39%、 39.42%和35.94%, 并且光谱在经过变换处理后的相关性均值与中值得到了有效提升。 (2)在不同变换光谱中提取的与粘度最大相关信息参数的相关性强于光谱波段, 其中以原始光谱最为明显, 提取的光谱反差相对于在波长范围内中最相关谱段的相关性提升了16%, 并且在提取的12种最佳光谱指数中大部分都有扩展后的信息参量参与。 (3)不同输入光谱下提取的最佳光谱指数与粘度含量的相关性都在0.89以上, 由其中筛选得到的三种具备代表性的光谱指数都有效反映纸张粘度在400~500 mL·g-1时的变化情况。 (4)纸张光谱经过对数一阶微分处理后构建的(SI-SAD)/(SI+SAD)指数与粘度相关性最强, 为-0.917, 且该指数构建的模型精度最高, 在训练集和测试集上R2分别为0.84和0.76, 其在测试集中MRE为0.089, RMSE为40.29 mL·g-1。 以上结论说明通过光谱变换与引入信息扩展可有效挖掘出光谱中的有效信息, 并且提取出的光谱指数可以良好地反映纸张光谱中的粘度含量变化趋势, 佐证了高光谱遥感技术可为纸张中粘度等劣化性质参数估测的无损分析提供新的可行思路。