地沟油的高光谱数据聚类分析
2014-09-26丁海勇徐晶鑫
郭 毅,丁海勇,徐晶鑫,徐 灏
(南京信息工程大学遥感学院,南京 210044)
0 引言
“地沟油”,通常指的是回收的废弃食用油、反复煎炸后的食用油、下水道垃圾提炼出的劣质油、剩菜剩饭提炼出的油、劣质的动物内脏提炼出的油,会对人们的身体健康和生命安全造成极大的威胁。对地沟油进行快速、高效地检测是当前我国政府部门必须要解决的重点民生问题之一。地沟油主要成分是甘油三酯,比真正的食用油多了许多致病、致癌的毒性物质,如:铅、砷及黄曲霉素等。如果提炼后的地沟油与正常的食用油按照一定的比例进行混合,就更加难以准确区分地沟油与正常食用油,这为地沟油的准确检测带来了极大困难。
传统方法检验地沟油,关键是展开4大类核心指标检测,即对多环芳烃、胆固醇、电导率和特定基因组成的检测,但是地沟油经过人为特殊处理后,检测发现并不是所有地沟油样品都含有多环芳烃;食用油的理化指标检测包括对酸价、过氧化值[1]、浸出油溶剂残留、游离酚(棉籽油)、总砷、铅、黄曲霉毒素、苯并芘及农药残留共9项基本指标的检测,然而这些指标,即使是地沟油也都可能合格,根本无法辨别地沟油。传统方法的检测结果需要经验,受主观因素影响较大,难以保证准确度;而常规的理化分析方法不仅费时费力,而且需要借助昂贵的分析仪器和严格的实验室条件。因此迫切需要研究一种简单、快速、无损的食用油与地沟油的鉴别技术。
高光谱遥感具有波段多、光谱分辨率高的特点,光谱通道数多达数十甚至数百个以上,而且各光谱通道间往往是连续的[2-6],可以在多个光谱波段上对地物的物理属性进行分析。高光谱遥感无损检测农产品的品质,包括外部品质(大小、颜色及形状等)和内部品质(糖度、酸度等),也可以应用于物品受污染情况、病虫害滋生以及医学中的某些疾病检测等[7-11]。利用荧光法[12]和紫外可见光分光度法[13]可鉴别的油品过于单一,不适合用来鉴别种类繁多的地沟油和食用油。李刚等[9]证明了高光谱技术可以同时得到被测物质吸收系数、散射系数和各向异性因子的信息,显著提高了高光谱数据的信噪比,使复杂混合溶液的成分及浓度的定量计算成为可能,为利用高光谱检测复杂混合液体奠定了基础。然而由于地沟油种类繁多,且组成成分与食用油相似,这种方法的应用仍有一定的局限。DN值差异的根本原因是油品分子C-H键吸收方式不同[14]。本文先对光谱数据进行辨别,剔除由C-H键吸收方式不同导致的峰型、峰位具有明显差异的波段,对于峰型、峰位差别很小,无法直接鉴别的波段进行数学处理,采用聚类分析方法对地沟油、正常的食用油以及它们的混合油的ASD高光谱数据进行分析,突出各样品之间化学成分的微小差异,精细地提取各样品的高光谱特征,从而准确地鉴别各种油品,为今后深入研究提供基础。
1 方法原理
聚类分析是研究“物以类聚”的一种科学有效的方法。做聚类分析时,对准备进行聚类分析的对象分别采样,然后获取样本的光谱信息。样本之间的相似程度由样本光谱之间的距离决定,如果2个样本的光谱距离越大,则表明2样本之间的差别越大,反之越小。聚类分析的运算过程是:先将待聚类的n个样品的光谱(或者变量)各自看成1类,共有n类;然后按照某个选定的方法计算每2类之间的聚类统计量,即某种距离(或者相似系数),将距离最小的2类聚合为1类,其余类不变,即得到n-1类;再按照前面的计算方法,对这n-1类进行计算,求出新类与其他类之间的距离(或相似系数),再将距离最小的2类并为1类,其余不变,即得到n-2类;如此下去,每次重复都减少1类,直到最后所有的样品(或者变量)都归为1类为止。
聚类分析过程包括2种距离的计算,一种是样本与样本光谱图之间距离的计算,另一种是新建类与其他样本光谱图或类之间距离的计算。选择不同的距离,聚类结果会有所差异。在油品分类中,往往采用几种距离进行计算和对比,选择一种较为合适的距离进行聚类。计算样本光谱图之间的距离方法主要有4种。
1)欧氏距离,公式为
2)明科夫斯基距离,公式为
3)切比雪夫距离,当明科夫斯基距p→∞时,有
4)相关性距离,公式为
式(1)—(4)中:i,j为样本编号;k为波段;xik为第i个样本在第k个波段的DN值;n为波段数,m为样本数;d为距离;p为实数,p>0。
计算新建类与样本光谱之间距离的方法有最短距离法、最长距离法、未加权平均距离法、加权平均法、质心距离法、加权质心距离法及内平方和距离法等。
地沟油与食用油在成分上十分相似,利用聚类法进行样品微小差别的鉴别分析具有很大挑战性,但同时也可以提高本文理论的可靠性。
2 实验与分析
2.1 实验材料
试验用油共6种,分别是大豆油、调和油、菜子油、色拉油、地沟油A和地沟油B。前4种正常的食用油是从超市购买的,而地沟油A和B分别是食堂剩菜中提炼出的油和反复煎炸使用后的油。将2种地沟油与4种食用油分别按1∶2和1∶1混合,得到22类混合油。利用ASD高光谱仪获取待测样本的高光谱数据时,为了克服背景物质对光线反射从而导致数据不准确,本文利用内壁刷黑后的培养皿来盛放实验用油,每个样本用ASD高光谱仪测5条光谱曲线,计22类110条光谱曲线,随机选取其中的66条作为实验组,进行聚类分析,其余相同油品的光谱曲线作为验证组,用来对实验结果进行检验。
2.2 数据采集
将22个样本依次取至60 mm内壁刷黑的培养皿(极小反射率)中,然后用ASD高光谱辐射仪进行光谱DN值的采集,波长范围为350~2 500 nm。
3 数据处理与分析
利用View Spec Pro软件,将实验采集到的各个样本的5条光谱曲线取平均值,得到22条谱线。图1所示是编号第3类的地沟油(d3)与4种正常食用油(Z1,Z2,Z3,Z4)按比例混合(d31-1至 d34-2)之后各个谱线经抛物线修正、拼接修正后的DN值。对所获取的光谱数据经过预处理后利用Matlab统计工具箱中的cluster函数进行聚类分析和结果显示。
图1 地沟油与正常食用油按比例混合谱线分布Fig.1 Hyperspectral curve of the proportionally mixed oil of waste oil and edible oil
3.1 敏感波段选择
聚类分析时应尽量选择信息量丰富的可见光、不可见光波段数据。地沟油在成分种类上与食用油大致相似,均为多种脂肪酸的混合物,其分子式主要包括甘油基以及多种脂肪酸基,辐射仪测得的地沟油与食用油光谱DN值在部分相同波长范围内具有相似的特征峰型和峰位,但是在DN值的分布范围上具有明显的区别。从图1可以看出,4种正常油(曲线名称为 Z1,Z2,Z3,Z4)DN 值分布在2 550~3 790之间,而地沟油DN值则分布在487~2 100和3 450以上的区间。在450~600 nm,650~900 nm和1 000~1 800 nm范围内,各官能团的C-H吸收峰及灰度值排列顺序较为相似且DN值分布有微小差异,带有油品间的相似信息,而在1 825~2 500 nm区间,差异明显,予以剔除。同时,地沟油与正常食用油在700~710 nm和740~750 nm之间均有类似的差异。其中,663~683 nm波长范围,峰型峰位差别很小,带有油品间的相似信息。以第3种地沟油与正常油按2种比例掺兑后该范围内谱线为例,不同比例掺兑后,吸收峰高度有明显差异,具有规律性:与Z1相比,d31-1和d31-2的DN值分别降低42%和73%;与Z2相比,d32-1和d32-2的DN值分别下降了40%和72%;与Z3相比,d33-1和d33-2的DN值分别下降了41%和77%;与Z4相比,d34-1和d34-2的DN值分别下降了43%和68%;为了突出样品之间化学成分的细小差异,取可见光范围663~683 nm,利用化学计量方法进行数学处理,采用聚类算法进行鉴别。
为了使敏感波段的选择更加可靠,基于聚类分析,本文定义了显著性差异度量△μ,即
式中:△DN1=,即该油品灰度值的最大值减最小值;DNi为该油品像元灰度值的平均值(i=1,2)。
显然,|DN1-DN2|越大,说明1类油品像元灰度的平均值和2类油品像元灰度的平均值差别就越大,从目视效果来说,越容易区分1类油品和2类油品。而△DN1愈小,说明1类油品像元灰度的反差越小,越容易使1类油品聚类。因此,显著性度量△μ作为表征2类地物差异的量,与|DN1-DN2|成正比,与|△DN1+△DN2|成反比,△μ越大,分类效果越好。为了进一步提取敏感波段,对663~683 nm(记为 a)、700 ~710 nm(记为 b)、740~750 nm(记为c)波段各种油品的DN值进行统计,在油品之间两两求△μ的和,得出
即663~683 nm波段内各油品光谱差异值的和最大,利用该波段聚类分析结果最符合实际。
3.2 聚类模型
取663~683 nm波长范围,将22种光谱66条谱线数据作为训练组,将剩余44条谱线按光谱类型两两取平均作为验证组。利用训练组数据进行DN值预处理,再采用欧氏距离、相关性、马氏距离结合不同的聚类分析方法建立模型。选择不同的聚类方法建立模型,其准确率不同。实验表明:采用马氏距离和明科夫斯基距离结合聚类方法聚类后不能将同种油品的3条光谱曲线归为一类,不符合实际;而经相关性结合最短距离法、最长距离法、未加权平均距离法及内平方和距离法分析的结果均能有效地将66条光谱曲线准确地分为22类,该结果符合实际分类。图2是经相关性最短距离法得到的聚类树。
图2 基于相关性最短距离法的聚类树Fig.2 Correlation clustering tree based on the shortest distance method
图3 为通过相关性内平方和距离法,分析得到的聚类树。
图中66条光谱曲线的序号依次每3个表示1类油品,聚类树的分析结果显示,该方法可以准确地将同一类且不同编号的油品归为一类,依据各油品的DN值对其区分是基本可靠的。
图3 基于相关性内平方和距离法的聚类树Fig.3 Correlation clustering tree based on the interior square sum distance
3.3 模型验证
由结果看出,聚类分析模型对22种油类样品的区分有较高准确率。为了进一步证明模型的可靠性,考察模型对预测样品的准确率,本文利用验证组与训练组混合后的谱线,采用相关分析法得到区分油品的结果(表1)。
表1 验证组与训练组混合谱线不同聚类分析方法的油品区分结果Tab.1 Oil distinguish results of different clustering analysis based on the blend spectrums of validation group and training group
表中编号67—88所代表的验证组谱线是按与训练组谱线相同的顺序对各油品最后2条谱线两两取平均值得到的。由表1可知,4种聚类方法均能将验证组的光谱曲线准确聚类到所属的油品类别中,与实际相符。事实证明这种模型对于油品的区分有较高的准确度。
4 结论
运用聚类分析法对22种地沟油、食用油品检测的实验结果表明,高光谱聚类分析法在油品检测方面具有较好的效果,填补了利用油品的ASD高光谱数据鉴别地沟油的空白。相对于传统的4大类核心指标检测,高光谱聚类分析法更加精确,可以有效鉴别出地沟油与食用油,但在检测未知油品的技术上还需改进,今后需在此基础上大量采集地沟油的谱线,建立地沟油光谱DN值数据库,以便能快速地、更好地区分未知油所属的类别。
[1]潘剑宇,尹平河,余汉豪,等.潲水油、煎炸老油与合格食用植物油的鉴别研究[J].食品科学,2003,24(8):27-29.Pan J Y,Yin P H,Yu H H,et al.Diagnostic physical and chemical target on distinguishing hogwash fat form good edible vegetable oils[J].Food Science,2003,24(8):27-29.
[2]马翠红,刘立业.基于小波分析的光谱数据处理[J].冶金分析,2012,32(1):34-37.Ma C H,Liu L Y.Spectral data processing based on wavelet analysis[J].Metallurgical Analysis,2012,32(1):34- 37.
[3]沈掌泉,王 珂,王人潮.水稻光谱数据处理系统[J].浙江大学学报:农业与生命科学,1998,24(1):49-50.Sheng Z Q,Wang K,Wang R C.Study on rice spectral data processing system[J].Journal of Zhejiang Agricultural University,1998,24(1):49-50.
[4]沈掌泉,王人潮.连续型光谱数据的处理及信息提取试验[J].浙江农业大学学报,1993,19(s1):85-90.Sheng Z Q,Wang R C.Study on the procession and information collection of continuous spectral data[J].Journal of Zhejiang Agricultural University,1993,19(s1):85-90.
[5]谢红接,李剑锋,刘德长,等.高光谱数据处理及其在广西苗儿山地区的地质应用研究[J].铀矿地质,1999,15(1):47-54.Xie H J,Li J F,Liu D C,et al.Hyperspectral data processing and research on geological application in miaoershan district,Guangxi Province[J].Uranium Geology,1999,15(1):47-54.
[6]周 竹,李小昱,高海龙,等.马铃薯干物质含量高光谱检测中变量选择方法比较[J].农业机械学报,2012,43(2):128-133,138.Zhou Z,Li X Y,Gao H L,et al.Comparison of different variable selection methods on potato dry matter detection by hyperspectral imaging technology[J].Transactions of the Chinese Society for Agricultural Machinery,2012,43(2):128-133,138.
[7]包丽丽,齐小花,张孝芳,等.几种常用油品拉曼光谱的检测及分析[J].光谱学与光谱分析,2012,32(2):394-397.Bao L L,Qi X H,Zhang X F,et al.Detection and analysis of several kinds of oils with Raman spectrum[J].Spectroscopy and Spectral Analysis,2012,32(2):394-397.
[8]柳萍萍,林 辉,孙 华,等.高光谱数据的降维处理方法研究[J].中南林业科技大学学报,2011,31(11):34-38.Liu P P,Lin H,Sun H,et al.Dimensionality reduction method of hyperion EO- 1 data[J].Journal of Central South University of Forestry and Technology,2011,31(11):34-38.
[9]李 刚,熊 婵,李家星,等.高光谱检测复杂混合溶液的Monte Carlo仿真研究[J].光谱学与光谱分析,2011,31(11):3014-3017.Li G,Xiong C,Li J X,et al.Monte Carlo simulation of complex mixed[J].Spectroscopy and Spectral Analysis,2011,31(11):3014-3017.
[10]李 颖,刘丙新,陈 澎.高光谱遥感技术在水上溢油监测中的研究进展[J].海洋环境科学,2012,31(3):460-464.Li Y,Liu B X,Chen P.Study advancement in oil spill monitoring using hyper- spectral remote sensing[J].Marine Environmental Science,2012,31(3):460-464.
[11]吕 萍,薛 龙,何秀文,等.生姜水分含量的可见-近红外光谱检测[J].江西农业大学学报,2011,33(3):602-607.Lü P,Xue L,He X W,et al.Prediction of ginger moisture content using visual near- infrared spectroscopy[J].Acta Agriculturae Universitatis Jiangxiensis,2011,33(3):602-607.
[12]刘 薇,尹平河,赵 玲.荧光法测定十二烷基苯磺酸钠鉴别潲水油的研究[J].中国油脂,2005,30(5):24-26.Liu W,Yin P H,Zhao L.Distinguishing hogwash fat by determination of sodium dodecylbenzene sulfonate with fluorerscence spectrum analysis[J].China Oils and Fats,2005,30(5):24-26.
[13]王 耀,尹平河,梁芳慧,等.紫外可见分光光度法鉴别掺兑潲水油的花生油[J].分析实验室,2006,25(3):92-94.Wang Y,Yin P H,Liang F H,et al.Distinguishing hogwash oil from peanut oil by ultraviolet- visible spectrophotometry[J].Chinese Journal of Analysis Laboratory,2006,25(3):92-94.
[14]刘福莉,陈华才,姜礼义,等.近红外透射光谱聚类分析快速鉴别食用油种类[J].中国计量学院学报,2008,19(3):279-282.Liu F L,Chen H C,Jiang L Y,et al.Rapid discrimination of edible oil by near infrared transmission spectroscopy using clustering analysis[J].Journal of China Jiliang University,2008,19(3):279-282.
[15]黄 伟,郑建军,徐建华.地沟油的安全快速检测研究[J].山东科技大学学报:自然科学版,2010,29(3):51-53.Huang W,Zheng J J,Xu J H.Study on safe and rapid detection of discard- oil[J].Journal of Shandong University of Science and Technology:Natural Science,2010,29(3):51-53.
[16]韩瑞梅,杨敏华.一种改进的高光谱遥感数据波段选择方法的研究[J].测绘与空间地理信息,2010,33(3):137-139.Han R M,Yang M H.Study on an improved method of band selection of hyperspectral remote sensing data[J].Geomatics and Spatial Information Technology,2010,33(3):137-139.