独立分量分析在近红外光谱定量分析中的应用
2013-02-22谢秀娟赵龙莲
谢秀娟,赵龙莲
(1.福建农林大学 计算机与信息学院,福建 福州 350002;2.中国农业大学 信息与电气工程学院,北京 100094)
独立分量分析(independent component analysis,ICA)是20 世纪90 年代后期发展起来的一种盲信源分解的方法[1],它利用数据的高阶统计性质,把信号分解成若干个互相独立或尽可能独立的成分,可广泛应用于信号的分离和特征提取[2]。传统的信源分解技术主要是建立在主成分分析(principal component analysis,PCA)的基础上,它根据方差极大原理,去除向量间的线性相关,找出原始信号中隐含的内在信息,目的在于降低向量维数,且分解出的成分都是按照能量的大小排列的。但按照PCA原理分解出来的各成分只能保证不相关,却不能保证这些成分互相独立,这就使得这样的分解缺少实际的物理或生理意义,因而降低了所提取特征的典型性。而采用ICA 来分解独立成分,再从独立成分中提取有关特征,就可能会更有实际意义,有助于进一步的模式识别[1-2]。
近红外光谱分析(near infrared spectroscopy,NIRS)技术具有分析速度快、无污染、低消耗、非破坏性,可以实现多组分同时测定等优点[3-4],经过50 多年的发展,近红外光谱分析技术已广泛应用于农业、食品、药品、生物、化妆品、纺织、多聚物、有机物生产等领域。近红外光谱法作为一种快速分析方法已经在众多领域中被得到应用[5-6]。
独立分量分析作为一种盲信号分离的有效方法[7-8],在语音识别、图像处理、生物医学信号处理等领域已经被得到广泛应用,如文献[9]利用ICA 方法从高分辨率训练图像中提取出独立分量进行处理,重建结果提高了人脸辨识;文献[10]采用独立分量分析和小波变换结合,可更好地降低膈肌肌电信号中的心电干扰;也有应用于光谱数据分析的报道,邵咏妮等[11]研究了用ICA 和BP 神经网络法对稻谷的可见/近红外光谱进行分析,实现了对稻谷年份的鉴别;毕贤等[12]将ICA 用于红外光谱定性分析,从混合光谱中分离出独立组分的光谱。本文以玉米粉末样品为例,研究ICA 方法在近红外光谱定量分析中的应用。
1 材料与方法
1.1 玉米样品的近红外光谱
玉米样品的粗蛋白质、粗淀粉和粗脂肪含量是衡量玉米营养品质的重要指标,而这些品质指标的常规测定方法速度慢、费用高,不适于品质育种工作中大批量育种材料的鉴定筛选。而近红外光谱分析技术的特点使得它特别适合于育种工作中大批样品的快速品质分析。
玉米粉末样品共90 个(过40 目筛),由中国农科院品种资源所提供。在Bruker Vector 22/N 傅里叶变换近红外光谱仪上采集其漫反射光谱,光谱范围为4 000 ~12 000 cm-1,分辨率为8 cm-1,得到的90 个玉米样品的近红外光谱如图1 所示。
图1 玉米粉末样品的近红外光谱Fig.1 NIRS of corn powder samples
1.2 玉米样品化学值的测定
常规化学法测得每个样品粗淀粉、粗蛋白质和粗脂肪的化学值含量(单位样品中各成分所占的百分比),其中粗蛋白质含量采用国标GB5511—1985 测定,粗脂肪含量采用国标GB 5512—1985 测定,粗淀粉含量采用国标GB 5006—1985 测定。
1.3 近红外光谱数据处理
1.3.1 ICA 理论简介 设 X= (x1,x2,… xm)是 m 维观测信号,则 ICA 的数学模型表示为:
(1)式中,A 是未知的m ×n 混合矩阵,用来表示信号源到接收阵的传递函数;S = (s1,s2,… ,sn)T是分量彼此统计独立的n 维源信号。
ICA 理论认为用来观测的混合数据阵X 是由独立源S 经A 线性加权获得。利用观测信号xi(i =1,2,…,n )的信息来估计混合矩阵A 和独立成分si,需求得一个分离矩阵W,使之得到最佳分离。
(2)式中W 作用在X 上所获得的信号Y 是独立源S 的最优逼近,该分离矩阵为:
因分离后的信号Y 与源信息S 之间的比例因子以及排列对应顺序无法确定,所以,若分离后的信号之间是相互独立的,即认为已正确实现了信号分离[13]。基于负熵的快速定点迭代FastICA[8]算法如下:
(1)观测信号X 做去均值和白化预处理,设白化后的信号为Z 满足E (Z ZT)= I。
(2)选择具有单位方差的初始分离矩阵W。
(3)迭代计算 E[Z G(W Z)]-E[G(WTZ)]W⇒W。
(4)归一化处理分离矩阵 W/||W|| ⇒W。
(5)判断W 是否收敛,若收敛则分离出一个独立分量WTZ,否则返回步骤(3)。
(6)判断混合信号中的多个独立分量是否已经全部分离完毕,若没有则返回(2),否则分离过程结束。
1.3.2 基于ICA 的定量分析模型的建立 近红外光谱定量分析模型的建立步骤如下:
(1)随机选择90 个玉米样品中的2/3 为建模集,剩余1/3 为预测集,选取玉米粉末光谱中信息量大且噪声较小的4 000 ~8 000 cm-1波段作为分析谱区。
(2)为了消除高频随机噪声对分析模型的影响,采用中心化和一阶导数法(15 点平滑)对光谱数据进行预处理。
(3)采用FastICA 算法提取光谱的独立成分,得到玉米粗蛋白质、粗淀粉和粗脂肪3 种主要成分的近红外光谱。
(4)用多元回归法建立基于ICA 成分的玉米粗蛋白质、粗淀粉和粗脂肪含量的定量分析模型。
2 结果与分析
根据建模集留一法交叉验证的结果选取9 个ICA 成分代表样品的近红外光谱,即取9 个ICA 成分参与建模,再用所建模型对预测集样品进行预测。表1 列出了建模集交叉验证的结果,包括预测集的化学值和近红外预测值之间的相关系数,平均绝对误差和平均相对误差,同时列出了用PCA 作为特征提取方法的结果。
表1 玉米粉末样品建模集和预测集定量分析结果Tab.1 Quantitative analysis results to corn powder samples modeling set and prediction
由表1 结果可以看出,用PCA 和ICA 2 种方法进行特征提取,然后建立判别模型,所得的结果相当。利用ICA 法进行特征提取,玉米样品粗蛋白质、粗脂肪和粗淀粉3 种组分建模集和预测集化学值和近红外预测值间相关系数都较高,预测集的平均相对误差较低,分别为:2.486 2%,2.766 9%,5.629 8%。
图2 所示为预测集样品粗蛋白质、粗脂肪和粗淀粉3 种组分的化学值和近红外预测值的散点图。可以看出,各数据点很好地分布在回归线两侧,说明了用常规化学法测得的玉米3 种不同成分的化学值和近红外预测值之间的拟合存在较好的线性关系。
为了进一步分析这3 个模型的性能,因此将模型建模样品化学值的分布范围,平均值和标准差列于表2。
按照国际谷类协会(ICC)、美国国际谷物化学家学会(AACC)等国际分析组织提出的有关近红外分析的标准,可以用相对偏差值(RPD)来评价一个模型的性能。RPD 值定义为建模集化学值分布的标准差与预测集标准差的比值。在ICC标准中,判断模型的应用场合为:当 RPD≥2.5时,模型可应用于品质育种的筛选;当RPD≥5时,模型可应用于可以接受的质量控制;当RPD≥10 时,模型可应用于优秀的过程控制、研发与应用的研究。本文中玉米粗蛋白质、粗淀粉和粗脂肪3 个模型的RPD 值分别为:RPD粗蛋白质=1.523/0.316 2=4.82;RPD粗淀粉= 5.145/1.575 6 =3.27;RPD粗脂肪= 1.445/0.272 5=5.30。三者的 RPD 值都大于 2.5,达到ICC 规定的要求,因此该模型至少可以用于品质育种的筛选。
图2 预测集样品的化学值和近红外预测值的散点图Fig.2 Scatter diagram of the chemical value and prediction value by NIRS in prediction set
表2 建模集样品的化学值分布Tab.2 Distribution of chemical value of modeling sample set
3 结论与讨论
近红外光谱分析是一种间接分析技术,其准确性受样品的代表性、样品化学值的准确性等因素的影响[14],它的定标过程复杂,需要选取大量具有代表性的样品进行分析[4]。因此,必需扩大模型样品的覆盖范围,在模型中不断添加更多更复杂的新样品,以不断完善模型,为ICA 分析提供更准确的光谱数据。
研究结果表明,采用FastICA 算法提取玉米样品近红外光谱的ICA 成分,并用多元回归法建立基于ICA 成分的玉米粗蛋白质、粗淀粉和粗脂肪含量的定量分析模型,3 种组分建模集和预测集的化学值和近红外预测值间相关系数与PCA 方法分析的结果相比都较高;进一步分析预测集样品的化学值和近红外预测值的散点图,表明常规化学法测得的玉米不同成分的化学值含量和近红外预测值拟合存在较好的线性关系。因此,ICA 方法建立的玉米样品主要成分的近红外模型具有较高的预测准确度,能满足一般分析的要求,可将该模型应用于玉米育种中大批样品的品质分析中。
[1]杨福生,洪波.独立分量分析的原理与应用[M].北京:清华大学出版社,2006:1-88.
[2]Comom P.Independent component analysis:A new con-cept[J].Signal Processing,1994,36(3):287-314.
[3]陆婉珍.现代近红外光谱分析技术[M].2 版.北京:中国石化出版社,2006:174-203.
[4]张灵帅,邢军,王卫东,等.近红外光谱分析技术进展及其在烟草行业中的应用[J].光谱实验室,2009,26(2):197-201.
[5]严衍禄,赵龙莲,杨曙明,等.近红外光谱分析基础与应用[M].北京:中国轻工业出版社,2005:190-260.
[6]赵龙莲,张录达,李军会,等.小波包熵和Fisher 判别在近红外光谱法鉴别中药大黄真伪中的应用[J].光谱学与光谱分析,2008,28(4):817-820.
[7]Hyvarinen A,Oja E.Independent component analysis:Algorithms and application[J].Neural Networks,2000,13(4/5):411-430.
[8]Hyvarinen A.Fast and robust fixed-point algorithm for independent component analysis[J].IEEE Trans on Neural Networks,1999,10(3):626-634.
[9]乔建苹.基于独立分量分析的人脸超分辨率重建[J].计算机工程,2011,37(3):180 -182.
[10]伍飞云,杨智,范正平,等.基于独立分量分析和小波变换的膈肌肌电信号降噪[J].信号处理,2010,26(10):1532-1538.
[11]邵咏妮,曹芳,何勇.基于独立组分分析和BP 神经网络的可见/近红外光谱稻谷年份的鉴别[J].红外与毫米波学报,2007,26(6):433-436.
[12]毕贤,李通化,吴亮.独立组分分析在红外光谱分析中的应用[J].高等学校化学学报,2004,32(6):44-48.
[13]朱佳,袁晓辉.基于独立分量分析的说话人自动识别方法的研究[J].仪器仪表与分析监测,2011(1):13-16.
[14]孟兆芳,赵龙莲,程奕,等.近红外光谱法测定玉米品质指标的研究[J].华北农学报,2008,23(2):147-150.