基于数据挖掘的铜绿微囊藻试验模拟数据分析
2012-12-25许云峰马春子霍守亮席北斗钱光人
许云峰,马春子,霍守亮,席北斗,钱光人*
1.上海大学环境与化学工程学院,上海 200444
2.中国环境科学研究院,北京 100012
富营养化已经成为全世界关注的热点问题[1-4],人们进行了大量室内模拟试验探讨富营养化的发生机制。其中,铜绿微囊藻等蓝藻细菌是引起湖泊夏季水华的主要藻类[5],会导致水处理费用增加[6-7]、水的娱乐价值降低并产生恶臭及微囊藻毒素[8]等,针对铜绿微囊藻的研究成为室内研究水体富营养化的主要关注点,且得到了大量试验模拟数据。然而,这些试验模拟数据所反映的规律是非常有限的,同时又耗费了大量的人力物力。因此为更好地掌握由室内模拟试验得到的湖泊富营养化发生机制,并节省人力和资源,需寻求一种从数据中总结规律,据以指导试验及实际湖泊富营养化治理的方法。
数据挖掘是从一个新的角度将数据库技术、机器学习、模式识别和统计学等领域结合起来[9],从大量不完全的、有噪声的、随机的数据中,提取隐含在其中人们事先不知道的,但又有潜在价值的规律和知识的过程。目前已经广泛应用于金融[10]、零售[11]、医药[12-14]、通讯[15]、化学工程[9,16]和航空[17]等领域。笔者运用数据挖掘方法对收集的铜绿微囊藻试验模拟数据进行定性分析,以探求抑制藻类生长的主要影响因素。
1 数据与方法
1.1 数据分析
查阅国内外研究机构发表的文献,收集铜绿微囊藻的试验模拟数据,对其进行分类整理与分析。收集的数据主要涉及:试验时间(T,d)、试验水温(Tw,℃)、总氮的初始浓度(TN0,mg/L)、总磷的初始浓度(TP0,mg/L)、试验初始 pH(pH0)、水中铁的初始浓度(Fe0,mg/L)、藻密度(N,106个/mL)、接种藻密度(N0,106个/mL)、水流速度(v,cm/s)、扰动(R,r/min)、光照强度(E,lx)、光暗比(L,h/h)。
藻类水华是湖泊富营养化发生的显著特征,这就增加了藻密度作为湖泊水质评价指标的重要性。藻密度是衡量藻浓度的主要常规性监测指标[18]。当藻密度达到106个/mL时有可能爆发水华现象[19]。因此将藻密度N作为目标变量,以藻密度为1×106个/mL作为湖泊能否发生富营养化的分界线。
目标变量 N,N<1×106个/mL为 1类样本(Class 1),N≥1×106个/mL为2类样本(Class 2)。影响因素 11 个,分别为 N0、Fe0、TN0、TP0、T、Tw、pH0、v、R、E 和 L。样本数共1052 个,其中1 类样本615个,占58.46%,2类样本437个,占41.54%。
1.2 数据挖掘方法
数据挖掘技术必须通过多种计算方法加以实现,目前主要包括模式识别(主成分分析法、白化变换-线性映照法、最佳映照识别法、模式识别逆映照法)、人工神经网络及支持向量机等。
主要采用数据挖掘中的主成分分析法(Principal Component Analysis,PCA)作为非参数的分类方法[20],对铜绿微囊藻试验模拟数据进行定性分析。传统的主成分分析法是直接对数据样本进行分析,找出对信息量贡献较大的主成分,继而构成二维或三维投影图剖析数据结构,并未对样本事先分类。而笔者先将数据样本分类,并且将主成分分析法中所有的主成分全部找出,每两个主成分构成投影平面,对投影平面上投影点分类效果最好的图进行定性分析[21]。
主成分(PC)的表达式可定义为[22]:
式中,a为变量系数;V为原始变量的值;i和n分别为主成分数和变量总数。
2 结果与讨论
2.1 变量筛选
在影响铜绿微囊藻目标变量的11个变量中,并不是所有变量都会对目标变量产生重要影响,因此先对11个变量进行逐个筛选,找出影响铜绿微囊藻生长的主要变量。
用主成分分析法(PCA)将1052个样本点投影到由n个变量构成的n维空间,并映射在两维特征面上,即可得到特征图。
影响铜绿微囊藻生长的关键特征变量由建立在PCA基础上的可分性判据P(即分类率[23])来决定。可分性判据的定义为:
式中,Z1为1类样本点的数目;Z2为特征图上包含所有1类样本点的矩形框内2类样本点的数目。
表1列出了变量逐步删除后得到的相应分类率。从表1可以看出,在所有变量存在的条件下分类率较低,仅为31.22%,变量逐步减少后分类率不断上升,说明不是所有变量都对铜绿微囊藻的生长产生很大影响。当继续删除变量R后,特征图的分类率又出现下降,说明R是影响铜绿微囊藻生长的主要因素,不能删除。
图1和图2分别是变量筛选前后的特征图。比较图1和图2可见,虽然逐步删除了 Fe0、TN0、E、L、v和Tw六个变量,但数据规律依然明显,说明这六个变量对目标变量的影响较小,可以删除。筛选后剩余的变量为 N0、T、pH0、R 和 TP0,与表1 得出的结论一致。下面对这五个变量进行详细分析。
图2中的横坐标PC1和纵坐标PC2分别为以上五个变量的线性组合,具体表示为以下方程(非标准化方程):
表1 特征变量筛选表Table 1 The screening list of feature variables
并且特征图上的每个点都是五个变量的组合,由图2可知,藻密度较小的样本(N<1×106个/mL,实心样本点)和藻密度较大的样本(N≥1×106个/mL,空心样本点)明显分布在图的不同部位,实心样本分布在特征图的中间位置,空心样本主要分布在其两边,数据有着较好的规律性。数据分界面在原始变量空间的方程为:
这说明可以通过调节五个变量来控制铜绿微囊藻的藻密度。当N0、T、pH0、R和 TP0五个变量满足式(5)和式(6)时,铜绿微囊藻的藻密度可以控制在1×106个/mL以下,湖泊可能不会发生水华;不满足式(5)和式(6)时藻密度会高于1×106个/mL,有可能会发生水华。这为湖泊的富营养化治理提出了一定的理论依据。
2.2 变量重要性的分析
采用主成分分析的载荷图(图3)可以对变量的重要性进行分析。通常变量在图形中的位置代表了变量影响目标值变化的方向,远离原点的变量对目标变量的影响最大。根据主成分的载荷值在图3的不同位置上标出了五个变量,将该图与图2对应,就可以根据五个变量所处的位置分析变量对目标变量的影响趋势。
图2的中间部分是目标变量(藻密度)的优类区域,即目标变量减少的方向,说明图3中的变量向中间移动会使2类样本点变为1类样本点,使目标变量降低。
由图3可以看出,根据各变量的坐标到原点的距离有如下顺序:pH0>N0>TP0>R>T,可见对铜绿微囊藻生长影响较大的变量是pH0、N0和TP0。适当减小藻类的初始接种量、水体初始pH或初始TP浓度,都可以使目标变量降低,有效抑制铜绿微囊藻的生长。
图3 铜绿微囊藻数据载荷图Fig.3 The load diagram of Microcystis aeruginosa
3 结论
(1)主成分分析法作为非参数的分类方法可以对变量的重要性进行筛选,并能得到分类效果较好的特征图。
(2)通过运用主成分分析的载荷图,得到影响铜绿微囊藻生长的主要因素,且适当减小藻类的初始接种量N0、水体的初始pH或初始TP浓度都可以抑制铜绿微囊藻的生长。
[1]XUE X,LANDIS A E.Eutrophication potential of food consumption patterns[J].Environ Sci Technol,2010,44(16):6450-6456.
[2]GRUNDY R D.Strategies for control of man-made eutrophication[J].Environ Sci Technol,1971,5(12):1184-1190.
[3]LEE G F,RAST W,JONES R A.Water report:eutrophication of water bodies:insights for an age old problem[J].Environ Sci Technol,1978,12(8):900-908.
[4]LEE G F,JONES R A.Detergent phosphate bans and eutrophication[J].Environ Sci Technol,1986,20(4):330-331.
[5]AHN C Y,PARK M H,JOUNG S H,et al.Growth inhibition of cyanobacteria by ultrasonic radiation:laboratory and enclosure studies[J].Environ Sci Technol,2003,37(13):3031-3037.
[6]TEIXEIRA M R,ROSA M J.Comparing dissolved air flotation and conventional sedimentation to remove cyanobacterial cells of Microcystis aeruginosa:Part I.the key operating conditions[J].Separation and Purification Technology,2006,52(1):84-94.
[7]TAKAARA T,SANO D,MASAGO Y,et al.Surface-retained organic matter of Microcystis aeruginosa inhibiting coagulation with polyaluminum chloride in drinking water treatment[J].Water Res,2010,44(13):3781-3786.
[8]SANGOLKAR L N,MASKE S S,CHAKRABARTI T.Methods for determining microcystins(peptide hepatotoxins)and microcystin-producing cyanobacteria[J].Water Res,2006,40(19):3485-3496.
[9]杨善升,陆文聪,陈念贻.数据挖掘技术在化工优化中的应用[J].江苏化工,2004,32(4):1-4,8.
[10]HO H S,KRISHNAN R.Predicting repayment of the credit card debt[J].Computers & Operations Research,2012,39(4):765-773.
[11]KARGARI M,SEPEHRI M M.Stores clustering using a data mining approach for distributing automotive spare-parts to reduce transportation costs[J/OL].Expert Systems with Applications,2012,39(5):4740-4748[2011-10-01].http://dx.doi.org/10.1016/j.bbr.2011.03.031.
[12]郭立玮,潘林梅,朱华旭,等.关于复杂系统理论和方法应用于中医药研究领域的思考与实践[C]//中华中医药学会中成药学术研讨会.北京:中华中医药学会,2007:9-15.
[13]郭立玮,董洁,樊文玲,等.数据挖掘方法用于中药水提液膜过程优化的研究[J].世界科学技术,2005,7(3):42-47,88.
[14]陈瑞兰,陆文聪,刘旭,等.支持向量机算法研究头发微量元素与高血压的相关性[J].计算机与应用化学,2003,20(5):567-570.
[15]SENG J L,CHEN T C.An analytic approach to select data mining for business decision[J].Expert Systems with Applications,2010,37(12):8042-8057.
[16]杨善升,陆文聪,顾天鸿,等.基于数据挖掘的合成氨过程优化和监测系统应用研究[J].化工自动化及仪表,2010,37(7):76-78.
[17]GÜRBÜZ F,ZBAKIR L,YAPICI H.Data mining and preprocessing application on component reports of an airline company in Turkey[J].Expert Systems with Applications,2011,38(6):6618-6626.
[18]RODRIGUES L H R,ARENZON A,RAYA-RODRIGUEZ M T,et al.Algal density assessed by spectrophotometry:a calibration curve for the unicellsular algae Pseudokirchneriella subcapitata[J].Journal of Environmental Chemistry and Ecotoxicology,2011,3(8):225-228.
[19]Wikipedia contributors.Algal bloom[EB/OL].[2011-12-10].http://en.wikipedia.org/wiki/Algal_bloom.
[20]VEGA M,PARDO R,BARRADO E,etal.Assessment of seasonal and polluting effects on the quality of river water by exploratory data analysis[J].Water Res,1998,32(12):3581-3592.
[21]陈念怡,秦沛,陈瑞亮,等,模式识别方法在化学化工中的应用[M].北京:科学出版社,2000.
[22]STATHEROPOULOS M,VASSILIADIS N,PAPPA A.Principal component and canonical correlation analysis for examining air pollution and meteorological data[J].Atmos Environ,1998,32(6):1087-1095.
[23]BAO X H,LU W C,LIU L,et al.Hyper-polyhedron model applied to molecular screening of guanidines as Na/H exchange inhibitors[J].Acta Pharmacologica Sinica,2003,24(5):472-476.▷