时间序列数据挖掘关键问题分析
2016-01-15段淑敏
段淑敏
[摘 要]时间序列作为当前人们生产和生活中常见的一类数据形式,被广泛应用于经济管理和工程设计等领域中。由于其本身所具备的动态性、繁杂性和高维性以及大规模的特征,所以如果直接对其进行数据挖掘,则不仅会花费高昂的价格来储存和计算相关数据,而且会影响算法的可靠性和准确性。本文以时间序列数据挖掘为研究对象,就其在实际应用中的几个关键问题进行了探究。
[关键词]数据挖掘;时间序列;数据库
[DOI]10.13939/j.cnki.zgsc.2016.03.038
在数据库技术迅猛发展和数据库管理系统日臻完善的今天,数据库的规模与日俱增,数量不断增多,并且这些激增的数据中包含着非常重要的信息,所以传统的数据库存储和查询方法已经无法满足人们对数据中隐含知识的渴求。而时间序列数据挖掘技术则可以有效地解决上述问题,并且可以在确保数据挖掘可靠性和准确性的基础上大大降低运行成本。因此,对于时间序列数据挖掘在实践应用中的关键问题进行分析和探究具有非常重要的意义。
1 时间序列数据挖掘概述
1.1 时间序列数据挖掘的含义
通常而言,各个数据单元均可以由一个数据变量和时间变量所组成的二元组来加以表示,比如股票价格和商品的销售金额等,所以可以将这些数据按照时间的顺序加以排列,这样就构成了所谓的时间序列数据库。在这些时间序列数据中包含着许多未知的有用信息,具有很高的挖掘价值。而时间序列数据挖掘就是从这些大型的时间序列数据库中找到人们所需要的各种有用数据。
1.2 时间序列数据挖掘的内容
在对当前国内外就时间序列数据挖掘方面的研究进行分析,可以将其归纳为时间序列数据变换、时间序列数据可视化、时间序列数据库相似搜索、时间序列聚类分类分析、时间序列预测以及时间序列分割与模式发现等几个主要的组成部分。其中的时间序列数据变换实际上就是将原始状态下所对应的时间序列在某个特征空间下的映像时间序列来对最初的原始时间序列进行描述,其可以有效地减少计算所花费的成本,并且实际的数据压缩率更高;时间序列数据可视化则是将那些繁杂的时间序列在数据挖掘技术、虚拟现实技术以及图形图像技术等先进技术的应用下而变得直观化、形象化,以便于人们更好地理解;时间序列聚类和分类分析则是根据时间粒度和模式长度的不同而将待处理的序列数据进行适当的分割和聚类处理,以便于更好地进行分析;时间序列数据库相似搜索则是遵循相应的搜索算法来对于那些相似性时间序列数据库进行搜索,以避免出现漏报问题;时间序列分割与模式发现主要用于时间序列的分割算法应用中以及系统模型变化的检测中,其已经成为当前我国在时间序列数据挖掘研究中的重要课题,具有很高的研究价值。
2 时间序列数据挖掘中若干关键问题的分析
2.1 传统时间序列数据挖掘的过程和分类分析
首先,从数据挖掘的过程来讲,传统时间序列数据挖掘过程可以主要分成以下几个步骤:数据准备、数据挖掘、结果分析和知识同化。其次,从数据挖掘的分类来讲,时间序列数据挖掘的主要任务就是从庞大的数据库中找寻到用户所需的数据。根据数据挖掘作用模式的不同,可以将其分成分类模式、偏差分析和序列模式等预测性模式和关联模式、聚类模式等描述型模式,并且描述型模式一般不能直接应用于预测。而就具体的时间序列数据挖掘的分类而言,其主要包括分类模式、关联规则、聚类模式偏差分析、序列模式和回归模式等几个部分,下面就这几个部分的主要内容进行详细的阐述。
第一,序列模式。序列模式是数据挖掘中一个非常重要的研究课题,其已经广泛应用于各行各业中,比如疾病诊断、DNA序列分析、自然灾害预测、Web访问模式的预测等,并且该种模式与管理规则之间比较类似,其也是重点把握数据间的联系。但是为了发现序列模式,相关人员必须要确定事件有无发生以及事件发生的时间。比如,在购买彩色电视的人群中,有50%的人群会选择在半年内购买影碟机。
第二,关联规则。关联规则又被称为管理模式,其实际上就是形如X→Y的逻辑关系式,并且其中的X和Y分别代表数据库中属性取值的判断。在当前的管理规则算法中,常用的关联规则算法策略是将其分解成两个主要的子任务,即频繁项集的产生和规则的产生。
第三,分类模式。分类的概念实际上就是在已有训练集或者数据集的基础上来构造一个分类模型或者分类函数,并将其应用于实际的数据预测中来确保数据的挖掘的质量。
第四,回归模式。与分类模式类似,回归模式的函数定义也是借助相应的数学集合模型来表示,但是其预测值是连续的,这点与分类模式预测值的离散性是相互区别的。
第五,偏差分析。在时间序列数据库中不可避免地会出现一些异常的记录,找出这些异常记录在确保数据挖掘质量方面具有重要的意义。偏差包含许多潜在的知识,比如分类中不规则的特例、反常实例或者偏差预测值过大的模型等。
第六,聚类模式。所谓的聚类实际上就是将一组时间序列数据按照差异性和相似性规程来进行合适的分类,以尽可能地减小同类别数据间的差异性,增强他们之间的相似性,提高数据挖掘的质量。
2.2 传统时间序列数据挖掘的方法分析
理论上来讲,传统时间序列数据挖掘方法主要包括决策树方法、神经网络方法、粗集方法、遗传算法、模糊集方法、统计分析方法、概念树方法、可视化技术和贝叶斯网络等几种常用的数据挖掘方法。比如其中的神经网络方法具有自适应性、自组织性和鲁棒性好的优势,非常适合用于解决数据挖掘中存在的各种问题,是近些年人们关注度比较大的一种方式,并且其更加适合于当前我国市场数据库的建模与分析;概念树方法则是对时间序列数据库中记录的属性字段按照归类的方法进行抽象所得到的层次结构,这点与我国所指定的省市县地区结构分布类似;可视化技术则大大拓宽了我国传统图表所具有的功能,可以使人们更加清楚地剖析时间序列数据,同时也可以更好地归纳数据中存在的规律性;粗集方法则是一种研究不确定、不精确数学知识的工具,其具有操作简便、算法简单等优点,所以是当前常用的一种方法。
2.3 传统时间序列数据挖掘的局限性
通常而言,建模是时间序列数据挖掘的前提和基础,但是所建模型大都局限于常参数、平稳的单变量CARMA模型或ARMA模型,所以实际的数据挖掘过程中可能存在一定的误差,准确性和可靠性无法得以保证。另外,其局限性还表现为以下几个方面:建模方法所采用的非线性最小二乘法或者最大似然法的计算量非常大,并且计算的可靠性比较低;没有考虑到噪声污染所对应的时间序列,即数据的滤波问题没有得到有效地估计处理;实际所用的分析方法主要为谱分析法(或频域方法)等,所以为了确保结果的可靠性和准确性,就必须要对这些局限性问题进行切实解决。而现代时间序列数据挖掘方式则可以有效地突破上述传统时间序列数据挖掘中存在的种种局限点,不仅可以简化建模及其计算的方法,也可以用新型的新息方法和状态空间方法来取代传统时间序列,还可以有效地应用自校正和自适应预测原理来分析现代时间序列,同时也可以有效地提升时间序列挖掘的质量。因此,在实际的应用中,相关人员必须要不断发展、改造和创新时间序列的分析方式和手段。
总之,随着数据收集技术和存储技术的快速发展以及数据库管理系统的日臻完善,人们所积累的数据也越来越多,同时这些与日俱增的数据背后也涵盖了大量的重要数据信息,但是传统的时间序列数据挖掘手段却无法深入分析这些数据。因此,相关人员必须要采用现代时间序列数据挖掘手段,同时要不断完善和创造新的方法,从而更好地使用当前与日倶增的时间序列数据。
参考文献:
[1]刘劲松.数据挖掘中的现代时间序列分析方法[J].信息技术,2014,11(7):100-102.
[2]贾澎涛.时间序列数据挖掘综述[J].计算机应用研究,2015,24(11):15-17.
[3]武红江,赵军平,等.基于波动特征的时间序列数据挖掘[J].控制与决策,2014,22(2):160-163.