基于PCA的“光纤液滴指纹图”识别液体研究
2019-08-12冯国红朱玉杰杨慧敏曹亚亭
冯国红 朱玉杰 杨慧敏 曹亚亭
摘 要: 基于主成分分析(PCA)对提取“光纤液滴指纹图”的特征值进行研究。对40滴自来水样本进行主成分分析,由特征值大小及累积贡献率确定主成分的个数为6。计算40滴样本的主成分,得出第2,3,4主成分较稳定,第1,5,6主成分稳定性较差。对比40滴样本的“光纤液滴指纹图”的重合性,发现最后15%左右的数据曲线重合性较差,截掉此部分数据重新进行主成分分析,得出6个主成分的稳定性好,最大相对差异仅为8%。基于指纹图中前85%的数据,应用PCA算法对曲线形状较相似的10‰和20‰的盐水进行识别验证,得出二者的6个主成分差异性均显著,说明截掉不稳定的数据后对基于PCA算法识别液体的影响较小。
关键词: 液体识别; PCA; “光纤液滴指纹图”; 特征提取; 主成分计算; 识别率验证
中图分类号: TN911.73?34 文献标识码: A 文章编号: 1004?373X(2019)15?0047?04
Study on liquid identification of fiber fingerprint drop trace based on PCA
FENG Guohong, ZHU Yujie, YANG Huimin, CAO Yating
(College of Engineering and Technology, Northeast Forestry University, Harbin 150040, China)
Abstract: The feature extraction of the fiber fingerprint drop trace is studied in this paper based on principal component analysis (PCA). The PCA was carried out on 40 drops of tap water samples. Six principal components were determined by the magnitude of the eigenvalues and the cumulative contribution rate. By calculating the main components of the 40?drop sample, it is found that the second, third and fourth principal components are more stable, and the stability of the first, fifth, and sixth principal components are poor. By comparing the coincidence of the 40?drop sample of the fiber fingerprint drop trace, it is found that the last 15% of the data curve coincidence is poor. After cutting off this part of the data and reanalyzing the rest of the data curve by PCA, it is found that the stability of the six principal components is good, and the maximum relative difference is only 8%. And then on the basis of data curve of the front 85% of the fingerprint drop trace, the PCA algorithm is adopted again to identify 10‰ and 20‰ brine with similar curves. The results show that the difference of the six principal components at the two situations is significant, which indicates that the identification of liquid based on PCA is less affected after cutting off the unstable data.
Keywords: liquid identification; principal component analysis; fiber fingerprint drop trace; feature extraction; principal component calculation; recognition rate verification
0 引 言
市场经济的快速发展,名优产品的畅销,使得一些利欲熏心的不法分子制造假冒伪劣产品,假酒、假酱油、假饮料等报道屡见不鲜,这使生产者和消费者的权益受到严重的侵害。为了保护消费者的合法权益,技术监督部门往往需要采用多种分析仪器进行检验,判断难度较大。光纤液滴分析技术是一种低成本、先进和环保的液体分析技术,该技术主要利用光纤传感器监测滴头处液滴从开始形成至滴落整个过程中接收光纤中光信号的变化规律。学者们经过实验验证[1?4],该光信号形成的曲线就像人手指纹一样对每种液体具有唯一性,因此,一般将该信号曲线称为“光纤液滴指纹图”,光纤液滴分析技术就是利用该“光纤液滴指纹图”对液体进行识别的。
“光纤液滴指纹图”仅能提供直观的观察效果,样品的识别主要依赖于从样品的实验数据中提取相应的特征。目前关于“光纤液滴指纹图”特征提取方法的研究主要有波形分析法、PCA法、互相关法、离散余弦变换及离散正弦变换等[5?6]。PCA法是较常用的一种数据压缩特征提取方法,它将原来多个变量转化为少数的几个不相关的主成分,将得到的主成分作为特征值,简化原始高维变量的同时最大限度地保留了原始数据的信息[7?9]。为了充分采集液体的特征,通常一滴液滴的“光纤液滴指纹图”约包含2 000~4 000个数据,进行主成分分析时相当于有2 000~4 000个原始变量,当“光纤液滴指纹图”的重复性不够好时,很容易对提取的主成分稳定性产生影响,从而影响液体的识别。目前的研究主要集中在该方法提取不同的液体的特征值是否相同,对该方法提取的特征值的稳定性并未研究。本文对基于PCA法提取的“光纤液滴指纹图”的主成分稳定性进行研究,分析了主成分不稳定的原因,并提出相应的改进方案。本文的研究结果对于光纤液滴分析技术的推广应用有重要的参考价值。
1 主成分个数的确定
对“光纤液滴指纹图”的光纤信号进行主成分分析,以得到的主成分作为其特征值,需要先确定主成分的个数。主成分的个数一般由特征值的大小和累积贡献率决定,通常要求特征值大于1,累积贡献率大于85%。在相同测试系统条件下,利用天津大学裘祖荣教授设计的实验装置进行实验,获得40滴自来水的“光纤液滴指纹图”实验数据,将其作为主成分分析的样本。由于实验仪器及液滴的形成过程等均存在一定的误差,使得每滴液滴所包含的数据个数并不相同,即自变量的个数并不相同,而进行主成分分析需要样本自变量的个数必须相同,为此,本文以包含数据个数最少的液滴为标准(包含3 674个数据),对40滴液滴数据进行截取。
运用Matlab软件对截取后的40滴样本数据进行主成分分析[10],得到特征值大于1的前10个主成分的特征值及贡献率如表1所示,由表1中数据确定的主成分个数为6个。
2 主成分的稳定性分析
為分析“光纤液滴指纹图”得到的主成分稳定性,将40滴液滴样本代入主成分计算公式:
表2 40滴自来水的主成分分析结果(二)
由表2可知,在相同测试系统条件下,仅有第2,3,4主成分较稳定,而第1,5,6主成分的稳定性较差。由前面的分析可知,第1主成分是最重要的,而表2中,第1主成分的稳定性最差。可见,此时获得的主成分不适合作“光纤液滴指纹图”的特征值。
3 影响主成分不稳定的原因分析及改进计算
3.1 影响主成分不稳定的原因分析
由上述分析可知,直接应用采集的“光纤液滴指纹图”数据进行主成分分析,得到的主成分稳定性较差,无法作为特征值进行液体识别。为分析提取的主成分不稳定的原因,对40滴液滴的“光纤液滴指纹图”进行对比,为便于区分,本文仅给出前10滴液滴的数据曲线,如图1所示。由图1可知,“光纤液滴指纹图”大部分重合性较好(如区域1),但有较少的一部分重合性明显较差(如区域2)。
基于指纹图的重合情况,将一滴液滴的实验数据分成两部分:区域1(取前3 124个数据)和区域2(取后550个数据)。应用式(1)对区域1和区域2的数据分别进行计算,计算结果如表3和表4所示。
图1 10滴自来水的“光纤液滴指纹图”
由表3可以看出,区域1的主成分最大相对差异均较小,最大仅有7%,而区域2的第5和第6主成分的最大相对差异均较大,而其中第1主成分虽然差异性不大,但是,区域2和区域1的第1主成分符号相反,导致整体数据计算的第1主成分有正有负,差异性较大。可见,区域2的数据是影响“光纤液滴指纹图”提取的主成分不稳定的主要原因。
表3 40滴自来水的区域1主成分计算结果
表4 40滴自来水的区域2主成分计算结果
3.2 主成分的改进计算
由3.1的分析可知,“光纤液滴指纹图”曲线大部分重合性较好,仅有最后一小部分曲线的重合性较差,导致提取的主成分不稳定。基于重合性较差的数据所占比例不大(本文实验中约占15%),本文考虑基于图1中区域1部分数据进行特征提取,实现液体识别。
截取区域1部分数据,对40滴液滴样本重新进行主成分分析,计算出的主成分如表5所示。由表5可以看出,应用区域1部分数据得到的主成分稳定性好,最大相对误差仅有8%,可作为“光纤液滴指纹图”的特征值。
表5 40滴自来水的区域1数据的主成分结果
為了验证基于区域1数据提取的主成分的液体识别能力,本文对10‰和20‰的盐水进行实验,结果如图2所示。由图2可以看出,二者的曲线形状很相似,用肉眼较难区分。
图2 10‰和20‰盐水的“光纤液滴指纹图”
选用指纹图中前85%的数据对二者进行主成分分析,并应用Excel对得到的主成分的差异性进行检验(显著性水平[α]取0.05),结果如表6所示。由表6可以看出,10‰和20‰盐水的6个主成分差异性均显著。可见,基于区域1部分数据提取的主成分能够识别出曲线形状较相似的液体。
表6 10‰和20‰盐水的主成分差异性检验
4 结 论
本文对基于主成分分析提取的“光纤液滴指纹图”的特征值稳定性进行研究。由实验获得了40滴自来水的样本数据,对其进行主成分分析,由特征值及累积贡献率等确定主成分的个数为6。对40滴样本数据计算6个主成分,并比较其差异性,得出第1,5,6主成分的差异性较大,稳定性较差。比较40滴自来水的“光纤液滴指纹图”,发现40条指纹图曲线绝大部分重合性较好,但最后一小部分重合性较差。将重合性好和重合性差的指纹图数据分成两部分,分别计算其主成分,得出最后一小部分数据是影响主成分不稳定的主要原因。由实验数据得出不稳定的数据仅占整体数据的15%左右,截取稳定部分数据,重新进行主成分分析,得出6个主成分的稳定性均较好。应用曲线形状较相似的10‰和20‰的盐水对截掉不稳定数据后的主成分分析法的液体识别能力进行实验验证,得出10‰和20‰盐水的6个主成分差异性均显著,说明截掉不稳定的数据后对基于主成分分析法识别液体的影响较小。
注:本文通迅作者为朱玉杰。
参考文献
[1] 姚尧,裘祖荣,樊玉铭.液滴分析仪光电传感器的改进[J].光电工程,2015,42(5):75?81.
YAO Yao, QIU Zurong, FAN Yuming. The improvement of droplet analyzer photoelectric sensor [J]. Opto?electronic engineering, 2015, 42(5): 75?81.
[2] 裘祖荣,陈哲,樊玉铭.利用液滴指纹图实现溶液折射率的精确测量[J].光学学报,2017,37(4):1?8.
QIU Zurong, CHEN Zhe, FAN Yuming. Accurate measurement of liquid refractive index using liquid droplet fingerprints [J]. Acta photonica sinica, 2017, 37(4): 1?8.
[3] 刘晶,宋晴,黄加勇,等.基于液滴指纹图的波形分析算法的改进[J].计算机测量与控制,2011,19(3):670?672.
LIU Jing, SONG Qing, HUANG Jiayong. Improvement of waveform analysis algorithm based on liquid drop fingerprint [J]. Computer measurement & control, 2011, 19(3): 670?672.
[4] 李小梅.“光纤液滴指纹图”分析方法研究[D].哈尔滨:哈尔滨工程大学,2007.
LI Xiaomei. The investigation of analysis methods based on fiber fingerprint drop trace [D]. Harbin: Harbin Engineering University, 2007.
[5] 孙伟民,李小梅,曾佑民,等.互相关法在“光纤液滴指纹图”分析中的应用[J].光子学报,2007,36(11):2033?2036.
SUN Weimin, LI Xiaomei, ZENG Youmin, et al. The application of cross?correlation analysis in the fiber fingerprint drop trace [J]. Acta photonica sinica, 2007, 36(11): 2033?2036.
[6] 袁晖.光电液滴指纹图影响因素的研究[D].北京:北京邮电大学,2013.
YUAN Hui. The research on the influence factors of fiber?capacitive liquid drop fingerprint [D]. Beijing: Beijing University of Posts and Telecommunications,2013.
[7] 陈佩.主成分分析法研究及其在特征提取中的应用[D].西安:陕西师范大学,2014.
CHEN Pei. Principal component analysis and application in feature extraction [D]. Xian: Shaanxi Normal University, 2014.
[8] 钱冲,廖永红,刘明艳,等.不同香型白酒的聚类分析和主成分分析[J].中国食品学报,2017,17(2):243?255.
QIAN Chong, LIAO Yonghong, LIU Mingyan,et al. Cluster analysis and principal components analysis of different flavor types of liquor [J]. Journal of Chinese institute of food science and technology, 2017, 17(2): 243?255.
[9] 赵蔷.主成分分析方法综述[J].软件工程,2016,19(6):1?3.
ZHAO Qiang. A review of principal component analysis [J]. Software engineering, 2016, 19(6): 1?3.
[10] 王志新.Matlab程序设计及其数学建模应用[M].北京:科学出版社,2013.
WANG Zhixin. Matlab programming and application in mathematical modeling [M]. Beijing: Science Press, 2013.