基于偏最小二乘法的血迹陈旧度高光谱预测研究
2022-03-24孙威刘怀策刘金坤刘玉海李浩蔡能斌陈蕊丽
孙威,刘怀策,刘金坤,刘玉海,李浩,蔡能斌,陈蕊丽
(1.中国人民公安大学 侦查学院,北京 100038;2.深圳市中达瑞和科技有限公司,广东 深圳 518108; 3.郑州市公安局刑事科学技术研究所,河南 郑州 450016;4.上海市现场物证重点实验室,上海 200083)
准确推断暴力流血案件的发生时间是公安实践中案件侦破的重点[1]。血迹从离开人体后在自然环境中暴露的时间与案发时间以及受害者的死亡时间相吻合。所以,精确预测血迹的陈旧度有助于刑事技术人员间接推断被害人死亡时间。光谱技术较多地应用在血迹陈旧度的预测上[2-6]。高茜钰等[7]利用紫外可见反射光谱实现了不同环境载体条件下8 h内血迹陈旧度预测。戎念慈等[8]运用可见光-近红外多光谱系统,建立的融合模型对0~2 d和2~20 d的血液样本进行预测的平均误差分别为 0.053 d 和0.442 d。本文应用高光谱成像技术,分别针对全波段和特征波段,结合偏最小二乘回归,建立血迹陈旧度的预测模型,得到稳定性较高、适用性较广以及平均误差较小的血迹陈旧度预测方法。
1 实验部分
1.1 材料与仪器
志愿者左手下中指末稍静脉血。
SHIS-N220凝视型高光谱成像仪;BaSO4白板(作为漫反射标准参照板)。
1.2 样本采集
实验样本来源于6名志愿者,年龄分布在19~78周岁,其中男、女性各3名。采血部位经消毒棉消毒后,用一次性采血针分别采集6名志愿者左手中指末梢静脉血各2份,经胶头滴管分别取25 μL血液均匀涂布于1/4大小的 A4纸张的中心部位,共得到12份血迹样本。为了更加贴近真实的犯罪现场,12份血迹样本不做任何处理,自然暴露在同一实验室环境中。最后,随机将12份血迹样本分为两部分,其中8份作为训练集,4份作为测试集。
1.3 反射光谱采集及模型评价标准
启动高光谱成像仪,预热10 min,使系统各参数快速达到稳定的状态。预热结束后,调节相机高度和光圈大小,使得待测血样成像清晰。先基于标准BaSO4白板进行光源标定,以检出当前环境最佳曝光时间和系统透过率最大的波段值。设置采集波段范围为450~950 nm,间隔通道5 nm,目标灰度值130,并设置自动曝光。另外,为降低杂散光的干扰,整个采集过程均在黑暗环境中进行,并以漫反射的方式每间隔1 h分别采集12个样本在0~10 h的血迹高光谱图像,每个样本采集11次,共得到132份高光谱数据。每份高光谱数据含有101张血迹图像,共13 332张血迹高光谱图像。采集过程中新鲜血液、半凝固、完全凝固三种状态下血迹高光谱伪彩色图像见图1。
图1 三种状态下血迹高光谱伪彩色图
模型评价标准:使用决定系数(R2)和平均绝对误差(MAE)作为模型预测精度的评价指标,平均绝对误差越小模型的预测能力越好;R2越接近1,模型越稳定。好的校正模型和验证模型对应较低的MAE的值和接近于1的R2的值[9]。式(1)和式(2)分别是R2和MAE的计算公式:
(1)
(2)
1.4 偏最小二乘法(PLS)
偏最小二乘法(PLS)集成了主成分分析(PCA)、典型相关分析(CCA)和线性相关分析(LCA)的优点,其突出特点是可以解决自变量之间的多重相关性问题。相对于PCA,PLS提取的若干主成分既包含了原输入变量矩阵的绝大部分信息,剔除了相互重叠的冗余信息,同时也充分考虑了主成分对输出变量矩阵的解释能力[10]。
(3)
(4)
2 结果与讨论
2.1 光谱预处理
2.1.1 反射率计算 现有文献冯颖[15]对于血迹反射率的计算多使用ENVI 软件,在不同陈旧度的血迹样本中选取含有一定数量像元的感兴趣区域(ROI),或者一定数量的感兴趣点,然后求选定像元对应的光谱反射率数值的平均值,得到不同遗留时间下的平均反射率光谱曲线。但是由于每一份血液样本厚薄不匀,并且边缘和中心的凝结速度也不一致,更不是一个规则面,所以整个血迹面的光谱曲线差异非常大,不像其他样本的采样,可以通过取得中心的一点或者一个区域,就可以基本代表整体样本的信息。所以,决定从样本图中扣取整个血迹面,然后计算平均光谱来研究血液随时间的变化趋势。
由于血迹和背景占据不同的灰度级范围,故可基于灰度值对血迹图像进行阈值分割,从而区分黑色的血迹和白色的背景,同时由于受杂质的影响,阈值分割后,还需经形态学处理,来剔除干扰物质的影响[16],具体处理后的结果见图2。
2.1.2 标准正态变换校正 由于血迹高光谱图像在采集过程中受到基线漂移和散射作用的影响,相同陈旧度的12个样本的血迹反射率存在明显差异,见图3a。同时,为了克服不同波段下光源强度分布不均匀的影响,故对所有血迹反射率光谱进行标准正态变换校正(SNV)预处理,见图3b,经SNV处理后,相同时间采集的不同样本反射率曲线差异明显缩小[17]。
图3 陈旧度为6 h的12个血迹样本SNV处理前后对照图
2.2 基于偏最小二乘法建模预测血迹陈旧度
PLS的基本思路是逐步回归,即在充分保证提取的主成分对输入和输出变量矩阵的解释能力的前提下,逐步分解输入和输出变量矩阵,直到满足实际问题的应用需求为止。PLS因其适用于自变量的维度大于观测值的个数的情况,故PLS常被用于连续光谱的分析[11]。PLS的特点和优点为该方法结合高光谱成像技术预测血迹陈旧度成为可能。
首先将12个血迹样本随机分成两部分,其中8个样本用于构建预测模型,4个样本用于构建校正模型。见图4,在全部的12个血迹样本中,随机选取的血迹样本10,其在450~540 nm波段内,血迹反射率数值快速下降,不同陈旧度的血迹反射率谱图重叠严重,血迹反射率随时间变化的特征并不明显。在540~600 nm和810~950 nm波段内,血迹反射率谱图呈略微上升趋势,但谱图同样相互重叠,不同陈旧度的血迹无明显区分。但是在600~800 nm 波段范围内,同一波段下的血迹原始光谱反射率数值随时间的增大不断减少,整体呈先上升后下降的趋势,且特征稳定。故决定选取600~800 nm 为特征波段,然后分别基于全波段光谱和选取的特征波段光谱为自变量,以PLS算法建立血迹陈旧度的高光谱预测模型。最后,综合比较分析该模型与基于主成分回归(PCR)、支持向量机回归(SVM)、最小二乘支持向量机回归(LS-SVM)算法构建的血迹陈旧度预测模型的优劣。
图4 0~10 h样本10在675 nm处原始光谱反射率曲线图
Edelman的研究表明[18],在案发现场环境条件中,离开人体后,不经任何处理的血液会被快速氧化,血液中的血红蛋白被氧化生成新的物质,同时血液的颜色也会改变,这些因素都会引起血迹光谱反射率的变化。全波段(450~950 nm)建模预测效果见表1。
表1 血迹全波段定量分析预测效果性能指标
表2 血迹特征波段定量分析预测效果性能指标
3 结论
(1)在相同的实验环境下,对于全部的12个样本,每间隔1 h采集1次高光谱数据,分别采集了12个样本在0~10 h共计11个时间节点的132张高光谱图像。随着时间的增加,同一波段下,不同陈旧度血迹反射光谱数值在600~800 nm波段不断减小。
(2)选取600~800 nm为特征波段,分别基于主成分回归、支持向量机回归、最小二乘支持向量机回归和偏最小二乘回归算法,对血迹反射率数值进行回归分析,偏最小二乘法构建的预测模型,R2均接近于1,平均绝对误差MAE均较小,具有最高的预测精度和稳定性,可为刑事技术人员快速确定案发时间和被害人死亡时间提供依据。