APP下载

基于小样本时间序列的数据挖掘技术研究

2014-07-24汤震刘珂

微型电脑应用 2014年12期
关键词:灰色数据挖掘神经网络

汤震,刘珂

基于小样本时间序列的数据挖掘技术研究

汤震,刘珂

时间序列数据是一类典型的关系型数据,尤其是小样本时间序列数据。针对其样本少、部分信息未知的特点,提出将灰色系统和神经网络相融合,构建灰色神经网络,充分利用两种方法的优势对小样本时间序列数据进行有效挖掘。实验表明:构建的这种网络具有较高的预测精度,非常适用于小样本时间序列数据的挖掘。

灰色模型;时间序列;数据挖掘;神经网络

0 引言

随着计算机和网络的应用普及,人类进入了一个信息爆炸的时代,每天都会直接或间接接触大量的数据信息。但并不是所有的信息都是人们用得着和感兴趣的,如何根据某种规则或是某种关联性从海量数据中提取出有用的信息成为研究的热点。要实现对其进行数据信息的挖掘,目前所使用的算法有多种[1]。其中对时间序列数据的挖掘,已经成为数据挖掘研究的一个重要分支,在时间序列数据中,不仅数据相互之间存在一定的时间相关性,而且数量少、部分信息未知。对于这类数据,由于其本身数据量较小,而且部分信息未知,所以数据挖掘的难度较大。为了解决这一问题,本文结合灰色系统理论处理小样本数据的能力,以及神经网络强大的数据分类能力,提出建立灰色神经网络模型,来实现对于小样本时间序列数据的挖掘。通过仿真实验,结果表明本文提出的这种方法对于小样本时间序列数据具有较好的分类能力。

1 时间序列数据基本定义

时间序列数据是一系列跟时间有关的数据[2-3],用t代表时间,d代表数据,因此可以将每一个单独的数据看作为一个二元组(t,d),它可以有多种意义,比如股票的价格、库区的水深、某种商品的价格等。那么,我们可以作如下定义:

如果集合R{(t1,d1),(t2,d2),…,(tn,dn)}是一个有限的时间序列集,并且满足条件ti

2 灰色神经网络

灰色理论善于处理小样本、贫信息问题,而神经网络则对复杂非线性映射问题比较有优势,将这两种方法结合起来,构建一个灰色神经网络,可以很好地对小样本时间序列数据进行分类挖掘,同时这两种方法可以互相弥补各自的缺陷[4-5]。

n个参数的灰色神经网络模型的微分方程表达式为公式(1):

其中,为方程系数,为网络输入参数,为网络输出参数。

式(1)的时间响应式为公式(2):

令公式(3):

则公式(3)可变为公式(4):

经过变换,将(4)式映射到一个扩展的 BP神经网络中,可以得到n个输入参数和1个输出参数的灰色神经网络,其拓扑结构如图1所示:

图1 灰色神经网络拓扑结构

依据上述分析,灰色神经网络的学习过程可以归纳如下:

步骤 1:确定网络结构,初始化网络,计算 a、b、u 参数;

步骤 2:计算网络权值;

步骤 3:按照下式计算各层输出:

步骤 4:按照下式计算网络输出误差,如果误差满足要求,训练停止;否则

转到步骤 5;

LC 层误差:

LB 层误差:

步骤 5:根据误差调整网络权值和阈值

调整阈值:

步骤 6:判断是否达到最大训练次数,如果是,训练停止;否则转到步骤3。

3 仿真试验和结果分析

本实验完成的是对某品牌空调销售订单的预测。对于空调的销售情况,有很多因素会对其销量产生影响。例如:品牌认知度、成本、售后服务、价格、性价比、竞争对手、宣传力度、产品结构、产品生命周期等。为了能够比较客观的完成该实验,同时检验本文所提方法的有效性,本文选取了该品牌空调近3年的销售订单数据,其中前30个月的数据用于训练网络,后6个月的数据用来评价所构建网络的预测性能。

首先,我们要对网络进行初始化,确定网络各层节点的数量。对于灰色神经网络模型来说,LA层只有一个节点,输入的是时间序列;LB层只是对LA层输入的变换因此也只有一个节点;确定LC层节点个数时需要综合考虑,本文选取对空调销售影响较大的5个因素,即价格、性价比、品牌认知度、售后以及市场份额,因此,LC层共有6个节点;LD层输出的为空调的预测销售订单,所以,也只有一个节点。根据以上分析,最终确定网络结构为1×1×6×1。

下面进行数据预处理以及权值/阈值初始化。数据预处理主要是LC层数据的预处理,由于各个节点输入的量纲不同,因此这里只需要做归一化处理即可。对于网络的初始权值,令则网络初始权值可表示为公式(5):

LD层中输出节点的阈值为公式(6):

将所有训练数据处理完成以后,将值输入到网络中,然后进行训练,网络进化次数设定为100,其网络训练结果如图2所示:

图2 灰色神经网络训练过程

仅考虑数据域:如果数据域使用浮点数进行表示,则为了表示倾斜角和方位角,共需要 12+12=24位二进制。Huffman编码压缩后平均长度也才是15.5,明显小于用浮点数表示时的长度24。

从图2可以明显看出网络的训练效果很好,很短的时间内就进化达到误差的要求。

首先,把已训练好的网络保存,然后将用于测试的后6个月的数据输入网络,同时将预测结果与实际的订单数进行比对,比对结果如图3所示:

图3 灰色神经网络预测结果对比

图3实验结果表明,本文建立的灰色神经网络的预测结果较好,与实际订单之间的平均误差仅为 8.9%,说明该网络对于小样本、贫信息的时间序列数据具有较好的挖掘性能。

4 总结

时间序列数据一直是数据挖掘中研究的一个热点,尤其是小样本、贫信息的时间序列数据。本文根据这类数据的特点,充分利用灰色理论处理小样本数据和神经网络强大的数据分类能力,将灰色系统理论与神经网络相融合,来构建灰色神经网络模型,通过仿真实验也充分反映出,对于小样本的时间序列数据,本文的灰色神经网络具有较好的挖掘能力,为这类数据的挖掘处理提供了一条新的思路。

[1] 罗芳琼,吴春梅.时间序列分析的理论与应用综述[J].柳州师专学报, 2009,24(03):113-117

[2] 陈湘涛,李明亮,陈玉娟.基于时间序列相似性聚类的应用研究综述[J].计算机工程与设计, 2010,31(3):577-581.

[3] 何典,梁英.金融时间序列数据挖掘的研究与应用[J].世界科技研究与发展, 2008,30(1):104-106.

[4] 李爱国,覃征.在线分割时间序列数据[J].软件学报,2004,15(11):1672-1679

[5] 李斌,谭立湘,章劲松等.面向数据挖掘的时间序列符号化方法研究[J].电路与系统学报,2000,5(2):9-14.

Research on Mining Technology for Small Sample Time Series Data

Tang Zhen, Liu Ke
(School of Information Engineering, Huanghuai University, Zhumadian 463000, China)

Time-series data is a kind of typical relational data, especially the small sample time-series data. According to the limited samples and part of unknown information, this paper integrates the gray system with neural network and build gray neural network. It makes full use of the advantages of these two methods to exavate small sample time series data mining effectively. Experiments show that the network has higher prediction accuracy. It is quite fit for small sample time-series data mining.

Gray Model; Time Series; Data Mining; Neural Networks

TP311.13

A

2014.09.08)

1007-757X(2014)12-0018-02

河南省教育厅科技攻关计划资助项目(14B520036)

汤震(1983-),男,汉,黄淮学院信息工程学院,讲师,硕士,研究方向:计算机网络,数据挖掘等,驻马店,463000

刘珂(1980-),男,汉,黄淮学院信息工程学院,讲师,硕士,研究方向:计算机网络,驻马店,463000

猜你喜欢

灰色数据挖掘神经网络
探讨人工智能与数据挖掘发展趋势
浅灰色的小猪
神经网络抑制无线通信干扰探究
基于并行计算的大数据挖掘在电网中的应用
灰色时代
她、它的灰色时髦观
感觉
基于神经网络的拉矫机控制模型建立
一种基于Hadoop的大数据挖掘云服务及应用
复数神经网络在基于WiFi的室内LBS应用