APP下载

基于近红外光谱的SG-MSC-MC-UVE-PLS算法在全血血红蛋白浓度检测中的应用

2021-09-14孙代青谢丽蓉郭煜涛车少敏

光谱学与光谱分析 2021年9期
关键词:吸收光谱全血波长

孙代青, 谢丽蓉, 周 延, 郭煜涛, 车少敏

1. 新疆大学电气工程学院, 新疆 乌鲁木齐 830047 2. 西安交通大学能源动力工程学院, 陕西 西安 710049

引 言

血红蛋白(Hemoglobin)是生物化学和生物医学研究中最重要的成分之一[1-2], 它大约占红细胞的96%, 承担着将氧气通过循环系统运输到器官的重要责任, 同时血红蛋白浓度的测定也是临床上应用最广的检查项目。 目前血红蛋白浓度检测方法主要分为两类, 一种为有化学试剂类型[3], 另一种为无化学试剂类型[1-2,4-6]。 有化学试剂的检测方法通常因为所使用的化学试剂对人体和环境有害而使其应用场所受到限制。 无化学试剂方法测量精度很低, 所需血液量较多(20 μL)[6], 而且其价格及其昂贵[7]。

近年来, 近红外光谱技术不断发展, 其应用领域也越来越广泛。 基于近红外光谱技术能反映组织细胞生理病理信息的特点, 对蓝莓果渣花色苷含量进行了测定[8]。 同时, 基于近红外光谱的无创、 快速等特点, 将近红外光谱与偏最小二乘(PLS)回归相结合用以检测血液中的不同成分含量的方法广受欢迎[5,9]。 偏最小二乘回归是建立光谱信号和浓度关系的最流行的方法[10]。 其中也不乏对于血红蛋白浓度的检测研究, 但是, 目前基于这种方法建立的血红蛋白浓度检测模型都存在精度不高的问题, 很难达到临床应用的标准, 主要原因是所获取的近红外光谱数据可能包含很多背景信号, 降低了光谱信号的信噪比。

为减小背景信号对光谱数据质量的影响, 一阶导数[11]、 二阶导数[12]、 主成分分析[13]、 多元散射校正(MSC)[14]等数据预处理方法被提出, 然而缺少对于全血光谱数据的预处理方法、 波长选择的研究。 故基于近红外光谱分析, 对全血光谱数据的预处理方法、 波长筛选、 以及全血血红蛋白浓度预测模型进行研究, 为提高全血血红蛋白浓度预测精度提供一种新的思路。

1 实验部分

1.1 样本

数据集取自Karl Norris[15]的文章。 这组数据是使用NIRSystems6500光谱仪获得。 仪器参数设置如下: 波长变量为1 100~2 498 nm,分辨率为2 nm。 样品池是带有石英窗口的直径2 cm的不锈钢圆柱体。 将200 μL全血从移液管转移至样品池, 使样品厚度为0.6 mm, 一共获得190组不同血红的蛋白浓度的全血透射光谱, 所获透射光谱对应最小血红蛋白浓度为10.3 g·dL-1, 最大血红蛋白浓度为17.3 g·dL-1。

1.2 样本数据集划分

为使得建立的模型具有普遍性, 选用前143个血红蛋白浓度对应的透射光谱样本作为校正集, 剩下47个作为验证集。 经划分后的校正集透射光谱样本对应最小血红蛋白浓度为10.6 g·dL-1, 最大血红蛋白浓度为17.3 g·dL-1, 平均血红蛋白浓度为13.68 g·dL-1, 标准差为1.64 g·dL-1; 验证集透射光谱样本对应最小血红蛋白浓度为10.3 g·dL-1, 最大血红蛋白浓度为17.3 g·dL-1, 平均血红蛋白浓度为13.94 g·dL-1, 标准差为1.65 g·dL-1。

1.3 数据预处理

首先对原始全血透射光谱取-log(T), 将其转换成吸收光谱数据, 然后对原始全血吸收光谱分别进行均值中心化、 标准化、 SNV、 MSC以及SG卷积平滑结合MSC方法预处理操作。 讨论卷积平滑与MSC的操作顺序对于预处理效果的影响, 以及平滑窗口宽度对于SG-MSC平滑效果的影响, 比较不同平滑窗口的降噪效果, 选择降噪效果最好的一个窗口宽度作为卷积平滑窗口。 对比以上几种预处理方法的降噪效果, 选择表现最好的方法作为全血吸收光谱数据预处理方法。

1.4 波长筛选程序及血红蛋白浓度预测模型建立

蒙特卡洛无信息变量消除算法(Monte Carlo uninformative variable elimination,MC-UVE)是无信息变量消除方法的一种, 它是基于模型变量稳定性值对无信息变量进行剔除的方法。 稳定性值的绝对值越大, 所对应的变量越重要, 保留稳定性值大的变量, 剔除稳定性值小的变量。 利用此方法从预处理过的全血吸收光谱中选择出稳定性值较大的波长变量, 以提高基于近红外光谱的全血血红蛋白浓度预测模型的预测精度和预测效率。

2 结果与讨论

2.1 原始全血透射光谱数据及吸收光谱

将170个不同全血血红蛋白浓度的近红外透射光谱数据导入Matlab R2017a计算原始全血透射比与全血血红蛋白浓度之间的相关系数, 其相关系数曲线如图1(a)所示。 再将透射光谱数据取-log(T), 计算全血吸收度与全血血红蛋白浓度的相关系数R2, 其曲线如图1(b)所示。

分析图1可知, 原始透射光谱的R2最大值仅为0.003 5, 在波长1 954 nm处取得。 相应的原始吸收光谱的R2最大值也仅为0.005 0, 且只有少量的信号对应于较大(此处指大于0.005 0)的R2值。 由此可见, 利用原始信号建立全血血红蛋白浓度预测模型是比较困难的。

图1 原始全血光谱相关系数平方R2曲线图(a): 原始透射; (b): 原始吸收Fig.1 R2 curves for the original spectra of whole blood signals(a): Transmission spectrum; (b): Absorbance spectrum

2.2 数据预处理

表1中展示了分别使用均值中心化、 标准化、 SNV、 MSC以及SG卷积平滑结合MSC对原始全血吸收光谱分别进行预处理后相关系数平方最大值R2*的变化情况。 其中, 中心化、 标准化、 SNV这几种预处理方法对于全血吸收光谱的平滑处理效果都不明显; 单独使用MSC时, 其处理效果也不理想,R2*值仅为0.105 2, 但在结合SG卷积平滑后降噪效果迅速提升, 最大相关系数平方值R2*迅速提升至0.944 1, 这是因为MSC在处理浆状物透射近红外光谱方面具有很好的效果, 血液样本正好符合这一特征。 除此之外, 二阶导数能消除光谱采集过程中由于检测环境和仪器状态等因素引起的基线平移, 平滑处理能消除光谱中的随机误差, 提高信号的信噪比。

表1 不同预处理方法R2*值比较Table 1 Comparison of R2* values of different preprocessing methods

图2(a)中展示了不同平滑窗口宽度下的SG-MSC预处理的R2*值变化情况, 图中R2*表示最大相关系数平方值, 将平滑窗口的宽度依次从1变化到61, 最大R2*值为0.944 1, 此时窗口宽度为27, 得到最佳平滑参数是2阶导数平滑, 二阶多项式和27个平滑点。 图2(b)展示了在上述参数设置下的SG-MSC方法对全血原始吸收光谱处理后各波长点处的相关系数平方值R2。 与图1(b)相比,R2迅速上升, 并且较大(此处指R2值大于0.6)R2个数也明显增多。

图2 平滑窗口宽度对SG-MSC预处理方法R2*值的影响(a): 窗口宽度vs. R2*; (b): SG-MSC处理后R2Fig.2 R2* vs. the width of the SG-MSC method(a): R2* vs. the width; (b): R2 after preporcessing by SG-MSC

2.3 波长变量选择与结果分析

为了进一步提高预测模型的预测精度和预测效率, 对预处理过的全血吸收光谱的700个波长进行蒙特卡洛无信息变量消除, 剔除509个波长, 剩余191个波长用于建立全血血红蛋白浓度回归模型。 为建立稳健性好、 预测能力强的血红蛋白浓度预测模型, 比较分析了原始全血透射光谱PLS模型、 原始全血吸收光谱PLS回归模型、 SG-MSC-PLS回归模型、 SG-MSC-MC-UVE-PLS回归模型以及二阶导数UVE-PLS回归模型[12], 各模型指标结果如表2所示, 表中NW (number of wavelengths)为筛选出的波长变量个数。

由表2中结果分析可知, 原始全血透射光谱PLS模型的R2比较小, 且RMSEP很大, 这也说明了直接利用原始全血透射光谱进行建模不可取。 加入SG-MSC预处理以后, 所建PLS模型的预测集R2相比于原始透射光谱数据提高了0.296 5, RMSEP下降了0.669 1, MAE减小了1.931 8。 证明SG-MSC对于全血光谱数据的平滑降噪能力非常强。 在此基础上, 对预处理过的光谱数据进行波长选择, 建立SG-MSC-MC-UVE-PLS模型, 与SG-MSC-PLS模型指标相比, 其R2, RMSEP, MAE, MRE均优于未筛选波长的PLS模型, 且与前人所提二阶导数UVE-PLS模型相比, 其具有更高的R2和更低的RMSEP值。 进一步说明SG-MSC-MC-UVE-PLS算法可以有效降低噪声、 筛选更具有价值的波长变量、 提高预测能力和预测效率。

表2 PLS模型预测结果Table 2 Determination results for PLS models

3 结 论

将获取的原始全血透射光谱转换成全血吸收光谱, 应用偏最小二乘法建立全血血红蛋白浓度回归模型, 针对原始数据相关性低的问题, 对原始数据进行了光谱数据预处理; 针对原始数据中无用信息成分较多问题采用了蒙特卡洛无信息变量消除方法对波长进行筛选; 比较了原始数据、 预处理数据、 波长选择数据建立的PLS模型效果, 得到以下结论:

(1)针对全血吸收光谱数据, 通过比较均值中心化、 标准化、 标准正态变量变换、 多元散射校正、 SG卷积平滑结合多元散射校正对全血光谱数据的预处理效果, 得到最佳预处理方法为SG卷积预处理+多元散射校正方法, 其R2为0.944 1。

(2)对SG-MSC预处理方法的平滑窗口宽度对于平滑效果的影响进行研究, 得到最佳参数设置为窗口宽度为27, 二阶导数平滑, 二阶多项式拟合。 与先进行多元散射校正再进行SG卷积平滑(相关系数平方值为0.942 4)相比, 卷积平滑之后再对数据进行多元散射校正处理, 其相关系数平方值更大, 为0.944 1。

(3)MC-UVE可以实现对全血吸收光谱波长变量的筛选, 且其筛选的波长变量个数仅为191个, 在模型效果更优的情况下, 筛选出的波长变量更少, 可以大大简化模型, 提高模型效率。

(4)在全血血红蛋白浓度回归模型中, 将SG卷积平滑、 多元散射校正以及MC-UVE组合建立的PLS模型具有最优的模型效果, 相比于原始全谱以及未经波长选择的SG-MSC-PLS模型, SG-MSC-MC-UVE-PLS模型的模型精度更高, 且筛选出的波长点更少, 其模型指标R2为0.979 1, RMSEP为0.220 3, MAE为0.411 2, MRE为0.023 8。 该模型效果与前人所提方法相比有所提高。

猜你喜欢

吸收光谱全血波长
HPLC-PDA双波长法同时测定四季草片中没食子酸和槲皮苷的含量
献血间隔期,您了解清楚了吗?
不足量全血制备去白细胞悬浮红细胞的研究*
原子吸收光谱分析的干扰与消除应用研究
双波长激光治疗慢性牙周炎的疗效观察
浅析原子吸收光谱法在土壤环境监测中的应用
日本研发出可完全覆盖可见光波长的LED光源
应用快速全血凝集试验法诊断鸡白痢和鸡伤寒
茶油氧化过程中紫外吸收光谱特性
便携式多用途光波波长测量仪