模糊数据流的进化粒度神经网络分类算法
2016-04-25刘志军张杰
刘志军,张杰
(1.哈尔滨工程大学 经济管理学院,黑龙江 哈尔滨 150001;2.山东科技大学 经济管理学院,山东 青岛 266590)
模糊数据流的进化粒度神经网络分类算法
刘志军1,张杰2
(1.哈尔滨工程大学 经济管理学院,黑龙江 哈尔滨 150001;2.山东科技大学 经济管理学院,山东 青岛 266590)
摘要:模糊数据流的分类问题大多从模糊数据流中提取典型的特征来进行分类,没有考虑到概念漂移及非平衡问题。基于此,从模糊粒度神经元入手,构建了进化粒度神经网络的多层次拓扑结构。采用了模糊神经元的信息聚集规则,提出了进化粒度神经网络的模糊编码方法与快速进化原理。运用梯形隶属函数对进化粒度神经元的聚集和模糊推理功能进行递归,通过关联函数和核函数来评估奇异逼近与粒度的近似结果,并以进化迭代和半监督分类方法解决了模糊数据流中的概念漂移及非平衡问题,从而实现了对模糊数据流的有效分类,仿真结果也证明了该方法的有效性。
关键词:模糊数据流;进化粒度神经网络;粒计算;凸包;进化迭代
模糊数据流是一种实时的连续数据信息序列,其分类问题已经成为本领域的难点问题[1]。基于此,本文提出了采用进化粒度神经网络来处理模糊数据流的分类问题,而与进化粒度神经网络相关的问题有两类:第1类问题为对神经网络的数据适应粒度及粒度的处理,其植根于粒度计算规则解决问题的能力、降低复杂性并结构化数据流的速度,因此,粒度神经网络需要多次递归数据与离线学习;另一类问题为在线非平稳环境中粒度数据的跟踪,虽然一些神经网络能够处理随时间变化的信息,却无法处理输入输出的模糊粒度数据。
对于第1类问题,即神经网络的数据适应粒度及对粒度的处理。Simpson[2]提出了模糊最小最大神经网络(fuzzy min-max neural network,FMNN),FMNN能够对间隔数据流进行分类,并将分类结果视为增量粒度分级。Zhang等[3]提出了模糊粒度神经网络(fuzzy granular neural networks,FGNN),该神经网络需要离线学习和使用梯度下降的方法来调整误差率和修改适应参数,因此不适合处理非平稳的模糊数据流。Kaburlasos等[4]提出了粒度自组织映射网络(granular self-organizing maps,grSOM),该神经网络需要将整个数据流预设先验知识,且学习不是增量化和结构化的方式,这必然导致模型参数不能够适应模糊数据流的分类。Nandedkar等[5]借鉴了在线学习和间隔处理的优点,提出了粒度反射模糊神经网络(granular reflex fuzzy neural networks,GRFNN),该算法因其无法处理模糊区间,不具备粒度逼近功能,因而无法对模糊数据流进行有效的分类。
对于第2类问题,即在线非平稳环境中粒度数据的跟踪问题。Carpenter等[6]提出了一种自适应共振神经网络,该神经网络的增量学习能力使其能够很好的处理数据流中的粒度聚集问题。Kasabov[7]提出了进化模糊神经网络(evolving fuzzy neural networks,EFNN),该方法能够在学习过程中创建连接、提取模糊学习规则。Kasabov 等[8]提出了动态演变神经模糊推理系统(the dynamic evolving neural-fuzzy inference system,DENFIS),该系统以适应新输入数据所创建的模糊规则,更新或删除数据流中异常数据,但其不能处理模糊区间,也不提供精确的数据输出。Kasabov[9]提出了无监督进化神经网络(un- supervis-ed evolving neural networks,UENN),该神经网络能够对未标记的数据流进行分类,但无法处理具有模糊区间的数据流。Angelov等[10]设计了渐进进化神经网络模型,该模型能够较好地处理不确定性数据流的分类问题,但其也存在无法处理模糊数据流中的概念漂移及非平衡的问题。
1模糊数据流的相关概念
在应用进化粒度神经网络对模糊数据流进行分类之前,需要对几个概念进行界定。
定义2模糊集。集合F(xi)={ui1/u1,ui2/u2,…,uin/un}称为论域U的一个模糊集,其中“/”不表示除的关系,而是模糊集的一种记号,如uij表示xj隶属于uj的程度[11]。
模糊集也可以用模糊关系来表示,即建立映射mf:U→[0,1],mf称为F的隶属函数或隶属度,即mf表示u属于模糊集F的程度。在论域U中,可把模糊集表示为元素u与其隶属函数mf(u)的序偶集合,记为
(1)
而实际应用中的论域大都是离散的,可利用矩阵:
(2)
表示模糊数据到论域上的模糊关系矩阵[11]。
定义3数据流。数据流是以事先规定好的顺序被读取的数据序列,具有实时、有序、快速到达的特点,并要求处理算法能够进行线性或非线性扫描的数据集合[12]。
定义4模糊数据流[13]。设xj为论域U中的数据流,且数据流xj有以下典型形式:
(3)
式中:z为数据流xj中的实数, xj满足正态条件(xj(z)=1,至少一个z∈R)和凸性xj(κz1+(1-κ)z2≥min(xj(z1),xj(z2)),z1,z2∈R,κ∈[0,1],若存在
(4)
且
(5)
一般而言,模糊数据流具有一定的概率分布,是一个序列样本,其分类能够采用粒度的形式,将有关信息传达给模糊粒度、模糊区间和梯形隶属函数进行结构化的数据流。
2进化粒度神经网络的分类方法
2.1模糊集成神经元
(6)
若神经元采用范数T和聚成算子A执行胞体突触处理,且输出结果为
(7)
同时,产生一个多样性输入与输出之间的非线性映射,映射取决于权重w选择、范数T和S,以及参数e和v,满足以上条件的神经元被称为模糊集成神经元,模糊集成神经元的结构如图1所示。
图1 模糊神经元模型Fig. 1 Fuzzy neuron model
图1中,参数e和v的值域为[0,1];范数T为可交换关联的单调算子,其单位超立方体的边界条件为T(α,α,…,0)=0和T(α,1,…,1)=1,α∈[0,1],范数T的中性元素为e=1;范数S为可交换关联的单调算子,其单位超立方体的边界条件为S(α,α,…,1)=1和S(α,0,…,0)=α,范数T的中性元素为e=0。
2.2进化粒度神经网络结构
图2 进化粒度神经网络的多层次拓扑结构Fig. 2 Hierarchical topology of evolutionary granularity neural network
(8)
因此,粒度γi的隶属函数为
(9)
(10)
此外,粒度γi源自于关联的局部函数pi。一般而言,局部函数pi可以为不同类型的函数,且其线性没有特定的要求,本文采用非模糊实值映射函数来表示,即
(11)
(12)
(13)
(14)
(15)
(16)
(17)
(18)
(19)
(20)
因此:
(21)
同理,模糊数据集Γi也需要进行类似处理。
ρ允许在同一个系统内不同的抽象层次上有不同的取值,扩展域有助于考虑决定粒度数据是否应该按着标准与当的前粒度模型分开。ρ的值影响模型的粒度、准确性和透明度,在实践中,ρ∈[0,1]决定扩展域的大小,并影响创建或修改的规则。一般而言,取ρ[0]=0.5来作为默认初始值。
最大宽度ρ快速进化过程如下:令r为第hr步后所创建的规则数,若规则数增长的速度较比率η快,即r>η,则
(22)
否则,若规则数增长速度小于η,即r≤η,则
(23)
若ρ=1,则进化粒度神经网络结构稳定,但无法捕捉模糊数据流中的突变现象;相反,若ρ=0,则进化粒度神经网络出现过度拟合而导致数据结构更加复杂。数据和粒度是进化粒度神经网络处理的对象,在此情况下,输入数据相似度的计算公式如下
(24)
(25)
式(25)用矩阵形式表示,可变形为
(26)
(27)
式中:E为奇异近似误差,其计算公式为
(28)
通过数学变换,参数向量可按下式进行递归:
(29)
(30)
输出层的权重δ∈[0,1],通过编码的方式有助于修剪分配到粒度γi的数据量,以δi=1开始学习训练,在第hr步中无论粒度γi是否被激活,δi都会被缩减,则
(31)
式中:ζ∈[0,1],否则,若γi在第hr步内至少被激活一次,则δi按以下公式增加:
(32)
(33)
新粒度γi将原粒度的关联函数和核函数组合起来,新局部函数pi的系数为
(34)
新粒度能够降低规则库的规模并消除冗余的规则,进而能够将模糊数据流进行有效的分类。
3仿真算例
3.1数据流描述
为了证明进化粒度神经网络对模糊数据流分类的有效性,本文仿真实验中的数据流采用高斯型模糊数据流[15-16],如图3所示,该数据流为围绕一个中心点逆时针旋转的阴性和阳性重叠的高斯流,其为典型的模糊数据流,因此,满足了仿真实验对数据集的要求。我们期待进化粒度神经网络对高斯流的分类表现低误差率、高速处理的能力,并能够在半监督分类规则和函数逼近规则下解决高斯流中的奇异问题,监督模糊数据流中的奇异部分也就是要对渐进和突变问题能够进行有效的处理。图3中实验的高斯流最初集聚在(4,3)和(6,-6)处,分散体固定在5 , 其围绕点(5,5)旋转运动,该运动学的分类问题可以采用下列公式评估:
第1类初始参考角度θ[0]为240°, 第2类初始参考角度为60°,从h=1,…,400,旋转速率φ保持为0,即模糊数据流中无漂移现象存在。以h=401和h=401,…,800,φ=0.45为旋转参数,因此,高斯型数据流的最终位置为第1类在(6,4)和第2类在(6,-6)的位置,总旋转角度为90°,这两类训练样本数据集按着随机和顺序输入。
图3 旋转高斯流问题Fig. 3 Rotating Gauss flow problem
假定图3中高斯流的第1类和第2类分别对应于阳性和阴性,考虑由一个混淆矩阵的两行和两列表示真阳性数量(TP)、假阳性数量(FP)、真阴性数量(TN)和假阴性数量(FN),其分类精度为
该式用来度量模糊数据流有效分类的精度。
3.2算法处理分析
为了使高斯流的决策边界清晰,在最新输入的模糊数据集时,令进化粒度神经网络参数以ρ=0.5、hr=200、η=2和ζ=ϑ=0.25开始,分别用Tmin与Smax、聚集神经元Ai和Af等参数作为初始条件,将图3中的高斯流经进化粒度神经网络进行处理,结果如图4所示。图4中的进化粒度神经网络决策边界的阈值为0.75,且在h=400时,进化粒度神经网络结构中,粒度数为10粒,3粒关联到第1类,7粒关联到第2类,此时高斯流的分类预测精度达到96.2%,如图4(a);旋转后,即在h=800步后,进化粒度神经网络采用15粒结构,6粒关联到第1类,9粒关联到第2类,此时分类预测的精度达到98.3%,如图4(b)。因此,进化粒度神经网络对如高斯流这类模糊数据流的分类效果是明显的。
图4 决策边界与1 000粒数据Fig. 4 Decision boundary and 1 000 grain data
进化粒度神经网络对模糊数据流有效分类很重要的一点,就是能够检测到其中的奇异即突变问题,突变问题作为模糊数据流中的一个新类,我们将本仿真算例中的高斯流引入到一个中心在(7,3)旋转、分散体为0.8、h=400,经过进化粒度神经网络的分类处理,该高斯流产生了新的数据类别,如图5所示。因此,只要相关信息显示在模糊数据流中,进化粒度神经网络都能检测到未知类别的数据。
图5 h=400步出现的第3类数据集Fig. 5 A third kinds of data sets at h=400
为了进一步研究进化粒度神经网络对模糊数据流中奇异问题的检测与评估效果,需要重新设置类别边界,如图6所示。在h=800处训练高斯流样本数据集,在前400步内,进化粒度神经网络进化集聚了10个粒度,3个粒度分别与第1类别中的10个奇异点相关联,在这些奇异点上,进化神经网络的分类精度为96.5%;第3类数据在h=400处开始达到,到h=800处进化粒度神经网络发展到20个粒度,其中5个粒度分配到第1类,8个粒度分配到第2类,7个粒度分配到第3类,假定第2类和第3类作为阴性类型,此时进化粒度神经网络分类精度达到99.1%。因此,没有经过重新设计和重新训练分类器的非进化方法是无法检测到模糊数据流中的新类型,即模糊数据流中的奇异问题。
图6 决策边界与h=400处的最后1 000个训练样本Fig. 6 Decision boundaries and last 1 000 samples at h=400
3.3结果讨论
进化粒度神经网络的奇异逼近、粒度近似功能以及半监督分类能力使其能够很好的处理类似于高斯流的模糊数据流,若一个未标的训练标记样本创建了一个粒度,则这类粒度仍然未被标记,直到新标记样本属于其范围之内,即新样本标签被标记粒度;相反,若未标记的训练样本仍处在现有标签已知的粒度边界之内,则其边界更新为粒度标签。在两三个非旋转高斯流问题中,从0%未标记的数据比例改变为100%,图7说明高斯流中每类问题平均超过5次进化粒度神经网络的训练结果,同时也说明进化粒度神经网络得益于高斯流中的所有信息,包括未标记数据(输入集信息),其分类精度比单纯放弃未标记的数据精度好,无标签数据引导进化粒度神经网络的分类,特别是那些代表整个模糊数据流很大比例的未标记数据,使用混合方法未标记数据的分类率达到70%,与有关标记的数据时进化粒度神经网络的分类精度略有下降——大约下降到30%左右,但其分类精度是可以提高的。
图7 不同比例的未标记数据的分类精度Fig. 7 Classification accuracy of different proportions of unlabeled data
4结束语
模糊数据流在很多领域都有着广泛的用应,如信息通信、计算机工程、股票市场、生物仿真、卫生医药等等,这些领域存在着类似于高斯流的海量模糊数据,能否对其进行有效的分类具有重要的意义。高斯流是一类典型的随时间变化而变化的模糊数据流,为了提取其中变化的奇异特征,需要考虑高斯流中的聚集规则与粒度的依赖关系,从而实现对其进行有效分类。总而言之,模糊数据流是杂乱的,且不同部分之间往往没有显著的依赖关系,若通过奇异逼近、粒度和半监督功能组合的方式,能够实现对其进行有效的分类。本文提出的进化粒度神经网络方法比以往模糊数据流的分类方法有更好的适应性和更好的分类能力,对高斯流的仿真实验证明了其可靠性和有效性。
参考文献:
[1]张杰, 赵峰. 流数据概念漂移的检测算法[J]. 控制与决策, 2013, 28(1): 29-35.
ZHANG Jie, ZHAO Feng. Detecting algorithm of concept drift from stream data[J]. Control and decision, 2013, 28(1): 29-35.
[2]SIMPSON P K. Fuzzy min-max neural networks-part 2: clustering[J]. IEEE transactions on fuzzy systems, 1993, 1(1): 32-45.
[3]ZHANG Yanqing, FRASER M D, GAGLIANO R A, et al. Granular neural networks for numerical-linguistic data fusion and knowledge discovery[J]. IEEE Transactions on neural networks, 2000, 11(3): 658-667.
[4]KABURLASOS V G, PAPADAKIS S E. Granular self-organizing map (grSOM) for structure identification[J]. Neural networks, 2006, 19(5): 623-643.
[5]NANDEDKAR A V, BISWAS P K. A granular reflex fuzzy min-max neural network for classification[J]. IEEE transactions on neural networks, 2009, 20(7): 1117-1134.
[6]CARPENTER G A, GROSSBERG S, MARKUZON N, et al. Fuzzy ARTMAP: a neural network architecture for incremental supervised learning of analog multidimensional maps[J]. IEEE transactions on neural networks, 1992, 3(5): 698-713.
[7]KASABOV N. Evolving fuzzy neural networks for supervised/unsupervised online knowledge-based learning[J]. IEEE transactions on systems, man, and cybernetics, part B: cybernetics, 2001, 31(6): 902-918.
[8]KASABOV N, SONG Qun. DENFIS: dynamic evolving neural-fuzzy inference system and its application for time-series prediction[J]. IEEE transactions on fuzzy systems, 2002, 10(2): 144-154.
[9]KASABOV N. Evolving connectionist systems: the knowledge engineering approach[M]. 2nd ed. London: Springer, 2007: 375-392.
[10]ANGELOV P, FILEV D P, KASABOV N. Series on computational intelligence: evolving intelligent systems: methodology and applications[M]. Hoboken: Wiley-IEEE Press, 2010: 221-243.
[11]李为华, 刘宏兵, 熊炎. 数据库中模糊数据的判别[J]. 信阳师范学院学报: 自然科学版, 2006, 19(1): 110-112.
LI Weihua, LIU Hongbing, XIONG Yan. Judgments of the fuzzy data in the database[J]. Journal of Xinyang normal university: natural science edition, 2006, 19(1): 110-112.
[12]ZADEH L A. Toward a theory of fuzzy information granulation and its centrality in human reasoning and fuzzy logic[J]. Fuzzy sets and systems, 1997, 90(2): 111-127.
[13]林富鹏, 吴英杰, 王一蕾, 等. 差分隐私二维数据流统计发布[J]. 计算机应用, 2015, 35(1): 88-92.
LIN Fupeng, WU Yingjie, WANG Yilei, et al. Differentially private statistical publication for two- dimensional data stream[J]. Journal of computer applications, 2015, 35(1): 88-92.
[14]PEDRYCZ W. Evolvable fuzzy systems: some insights and challenges[J]. Evolving systems, 2010, 1(2): 73-82.
[15]张杰, 赵峰. 基于基序及其时序关系的耦合流数据分类算法[J]. 情报学报, 2013, 32(2): 190-197.
ZHANG Jie, ZHAO Feng. Classification algorithm for coupled stream data based on motifs and their temporal relations[J]. Journal of the China society for scientific and technical information, 2013, 32(2): 190-197.
[16]LEITE D, BALLINI R, COSTA P, et al. Evolving fuzzy granular modeling from non-stationary fuzzy data streams[J]. Evolving systems, 2012, 3(2): 65-79.
Classification algorithm of the evolving granular neural network
LIU Zhijun1, ZHANG Jie2
(1. College of Economics and Management, Harbin Engineering University, Harbin 150001, China; 2. College of Economics and Management, Shandong University of Science and Technology, Qingdao 266590, China)
Abstract:Most previous research has classified fuzzy data flow on the basis of some typical features extracted from the fuzzy data flow and fails to consider the problems of concept drifting and imbalance. We used the fuzzy granularity neuron to construct a multilevel topology structure of an evolving granular neural network. Based on the information gathering rule, we propose a fuzzy encoding method and rapid evolution theory of the evolving granular neural network. In addition, we used the trapezoidal membership function to gather the evolving granular neurons and the recurring fuzzy reasoning function. We used correlation and kernel functions to evaluate the singular approximation and the approximate granularity results. We also used evolutionary iteration and the semi-supervised classification method to solve the concept drifting and imbalance problems of fuzzy data flow, in order to effectively classify the fuzzy data flow. The simulation results indicate that this method is reasonable and correct.
Keywords:fuzzy data flow; evolving granular neural network; granular computing; convex hull; evolutionary iteration
中图分类号:TP393.02
文献标志码:A
文章编号:1006-7043(2016)03-474-07
doi:10.11990/jheu.201508045
作者简介:刘志军(1980-),男,博士研究生;张杰(1975-),男,副教授.通信作者:张杰,E-mail: zhangjie0371@163.com.
基金项目:教育部高等学校博士学科点专项科研基金资助项目(2012371812 0004);中国博士后基金资助项目(2015M581757);山东省自然科学基金资助项目(2015ZRB019PR);全国统计科研计划重点资助项目(2015106).
收稿日期:2015-08-24.
网络出版地址:http://www.cnki.net/kcms/detail/23.1390.u.20151224.1405.008.html
网络出版日期:2015-12-24.