数据挖掘的研究热点和发展趋势的浅谈
2019-05-23赵乌吉斯古楞
赵乌吉斯古楞
摘要:数据挖掘技术经过长时间的发展,丰富了许多学科的研究成果,并已经发展成为一个独立的研究分支。数据挖掘在数据流、互联网信息、生物信息等领域的研究已经成为人们的关注的热点。随着科学技术的发展,数据挖掘技术在机械学习、统计概率学习等学科方面取得可喜的成就,而且搜索出来了许多具有代表性的理论体系。
关键词:数据挖掘;热点;趋势
中图分类号:TP3 文献标识码:A
文章编号:1009-3044(2019)08-0207-03
1 数据挖掘的研究热点
目前,数据挖掘在数据流、互联网信息、生物信息等领域的研究已经成为人们的关注的焦点。
1.1 數据流挖掘(streaming data mining )
不同领域的数据流与传统的数据库中静态数据构成了一种新的数据形态。有数据流就有数据量,应用范围内这些数据量的增进速度是非常快的,通过广泛的使用大型小型无线传感设备,提高了数据流体积的增进速率。而产生数据流的应用要求及时在线处理这些数据量。倘若可以及时处理这些数据流,并从中挖掘有价值的信息,会对应用领域起到巨大推动作用[1]。
自20世纪开始,人们已经把研究方向转移到了数据流,研究者每年都会在著名的数据库会议上发表许多关于数据流的文章。
目前,关于数据流的研究主要集中在系统数据流管理和挖掘流数据两个领域。
为了满足数据流的这些特点,数据挖掘算法需要研究出新的方法解决存储空间小、运行时间长的问题,传统的数据挖掘算法很难解决这种问题。数据流对挖掘算法的有几个要求:单次线性扫描;低时间复杂度;低空间复杂度;能在理论上有良好的近似度计算结果;能适应动态变化的数据与流速;能达到实时回复用户在任意时间段提出的挖掘请求;组建的概要数据结构有通用性[1]。
1.2 文本挖掘(Text Mining)
数据挖掘在最近几年出现了新的研究热点,即文本挖掘。文本挖掘主要指的是在数据挖掘中发现文字与语法、语句之间的联系,以及文字的表现规律。文本1挖掘主要用于处理自然语言、文本聚类、信息获取、文本分类、如机器翻译等方面。国外在20世纪50年代末已经开始着手研究数据的文本挖掘,经过几十年的发展,文本挖掘已经转化为实用阶段,经常使用的文本器材主要包括IBM的文本智能挖掘机、Autonomy公司的Concept Agents,Teletech公司的Teletech等。但是在今年,国内才着手研究针对中文的文本挖掘,国内研究的最大问题是如何适应汉语重“意合”的特点与如何截取文本的完整“语义”[1]。
1.3 Web挖掘(Web Mining)
随着互联网的广泛使用,Web这一巨大的数据中隐含着极其丰富的有价值信息。Web挖掘是一种从大量的Web信息资本中挖掘那些未知隐藏起来的有价值的信息的挖掘技术。Web挖掘已经逐渐壮大,并得到了大家的关注,并且在搜索引擎、网站设计和电子商务等领域内得到了普遍应用。Web挖掘是借助数据挖掘技术,挖掘网站中的有用信息,Web挖掘涉及网页浏览记载、网站内容和链接结构等[1]。
1.4 生物信息数据挖掘(Bioinformatics Data Mining)
人类基因组计划的启动和实施使得核酸、蛋白质数据迅速增长,这些大量的数据需要被合理存储、组织和索引,信息科学被引入到这一领域从而构成了“生物信息学”。
生物信息学主要涉及生命科学与数学、计算机科学和信息科学等学科,并将这些学科进行融合最终形成生物信息学科。在各类生物信息的获取、存储、处理和分析在生物信息数据挖掘中应用到了数据采集技术计、计算机软硬件和数学分析模型等技术,目的在于能够发现与掌握复杂生命现象的组成模式与演化规律。生物信息数据挖掘同样是借助数据挖掘技术与方法对分子生物进行挖掘,并挖掘出有用有价值的知识,从而说数据挖掘在生物信息中起着重要的作用,并且在生物信息范围内引起了人们的重视。数据挖掘技术挖掘的是数据的本质,然而人们对生物学数据自身的特性,对于基因芯片数据质量和基因表达的正常颠簸规律等还没有足够的了解。所以生物学对于数据挖掘的应用、评估、深化存在着困难。
目前,数据挖掘对生物信息分析的应用有以下几点:开发生物信息数据挖掘工具;序列的相似性查找和比较;聚类分析;生物文献挖掘;开发可视化工具。
2 数据挖掘的发展趋势
数据挖掘技术经过长时间的发展,丰富了许多学科的研究成果,并已经发展成为一个独立的研究分支。但是数据挖掘技术还存在一定的问题,例如数据挖掘技术的理论发展不完善,没有形成完善的理论体系,在研究与应用方面还面临着重大的挑战。一项技术的发展都要经过概念的提出、受众的接受、研究、搜索、应用、普及等几个阶段数据挖掘技术也不例外。从目前阶段来看,虽然数据挖掘的概念已经被人们接受,但是在理论上被人们提出了质疑,所以数据挖掘技术仍处于研究与搜索阶段。数据挖掘技术的普遍应用还需要一段时间,需要实践的积累。伴随着数据挖掘技术在学术界与产业界作用的扩大,数据挖掘研究已经进入了适用技术发展的方向。目前,大学、研究机构的基础性研究大多数集中在数据挖掘理论、数据算法等探讨上,而企业中的研究人员则更注重将其与实际商业问题相结合。根据现阶段的研究和应用来看,数据挖掘的发展趋势如下[1] [2][3]。
2.1 数据挖掘技术的评估发现的模式
当前,数据挖掘技术和知识发现技术研究及应用有两个主要方向。第一个方向是应用行业知识来约束并引导行业和企业知识的发现;第二个方向是在数据挖掘过程嵌入商业逻辑。在引导发现过程中能够借助背景知识与范围信息,同时能够借助挖掘模式在不同的抽象层进行暗示,数据挖掘规模知识具有完整性约束与演绎性规则等功能,这些功能既支持聚焦和快速数据挖掘过程也支持评估发现的模式的爱好度。
2.2 数据挖掘技术与数据存储类型
数据挖掘中的实现机制、目标定位以及技术的有用性等方面会受到数据存储方法的影响。目前,还没有研究出一种适合所有存储方法的公用应用模式,而且这种公用模式是不现实的。因此,利用存储数据类型的特定,研究相对性,是解决存储方法的关键。
2.3 大型数据的选择与预处理问题
数据挖掘技术是大规模的技术了。但是在数据存储状态中还存在着诸如噪音、数据散步、稀疏等系列问题。数据挖掘技术是有目的性的,海量的数据必须有选择性地操作,应做好挖掘的前期工作。随着大量数据的出现,怎样快速、有效地对数据做预处理,使之适合特定的应用,需要更深入的研究。
2.4 数据挖掘的系统的构架与交互式挖掘技术
历经多年的探索与发展,数据挖掘系统已经有一个明确的框架与发展过程。但是由于受应用范围、挖掘数据类型、知识表明模式等因素的影响,数据挖掘技术的实现机制、技术道路、阶段或证件的功能定位还需要进一步的研究。由于数据挖掘挖掘的是那些隐藏的、预先不知道的价值信息,因此利用与用户的交互式方法进行搜索性的挖掘是非常有必要的。这种交互可能发生在数据挖掘的各阶段,从不同的角度或不同粒度进行交互。良好的交互式挖掘也是数据挖掘系统成功的前提。
2.5 数据挖掘语言与系统的可视化问题
结构化查询语言出现的比较晚,超出OLTP应用的难度,因此进行数据挖掘操作语言的开拓是一件高难度挑战性的工作。可视化是信息处理系统中的技术,并且对数据挖掘系统有着十分重要的作用。可视化挖掘不仅需要与交互式技术相联合,而且需要在挖掘成果或知识模式的可视化、挖掘过程的可视化以及可视化引导用户挖掘等方面进行深入研究。数据的可视化降低了人们发现知识的神秘感,推动了人们主动进行知识发觉的作用。
2.6 数据挖掘理论与算法研究
随着科学技术的发展,数据挖掘技术在机器学习、统计概率学习等学科方面取得可喜的成就,也搜索出来了许多具有代表性的理论体系。但是这不代表对数据挖掘理论的探索停止了,完全相反,还有很多理论 课题需要研究者进行深入研究。有了理论框架的指导,研究者还需要进一步搜索与创新面向现实的应用目标。挖掘技术不仅自身得到了不断发展,而且融合了其他领域的相关技术,这样的发展促进了应用行业的发展。新的挖掘算法就在这些新的理论知识的引导下出现了,而且新的挖掘算法拓展了挖掘技术的有用性,提高了数据挖掘的精度与效率,还很有可能会被应用在特定的领域,例如管理客户关系、电子商务等。所以说,数据挖掘理论的发展与算法的探究还有很长的一段路需要走,重点是对有针对性的定量转换、不确定性推理等问题还没有得到有效的解决,还需要研发一些具有针对性的数据算法。
2.7 与数据库数据仓库系统集成
数据挖掘会与数据库发生集成或耦合,有时候也会与数据仓库发生这样的集成或耦合,它们之间的集成或是耦合是设计数据挖掘的重点问题之一。在系统结构完整性的情况下,数据挖掘系统才能充分地应用软件环境,出色地完成数据挖掘任务,并且完成与其他系统的协同、信息的交互,符合用户的需求,并不断地进化。
2.8 与语言模型系统集成
当前,通过关系查询语言用户可以查到特定的数据,但是数据挖掘的功能实现还有一定的困难。高级数据挖掘的查询语言指的是让用户经过说明分析任务的相联的数据集、知识的限度和挖取的是什么类型的知识、被发现的模式能够满足的前提和约束,说明特定的数据挖掘任务。这种高级语言需要与数据库或是数据仓库的查询语言集成,并且對有用的、灵动的数据挖掘方面有优势。
2.9 挖掘各种复杂类型的数据
每个用户对差别类型的知识有不同的喜好,数据挖掘涵盖的数据分解和知识发觉任务应该非常广泛,涵盖特征化数据、化分、关联与相关分析、分类、预测、聚类、相差分析和演绎分析。虽然,这些任务可能使用的方法不同,但是使用的数据库是一样的。
2.10 支持移动环境
移动互联网引起了信息工业网巨大变化,日后主流计算环境会发展成移动式计算。移动计算属于一种分布式系统计算环境,通过移动终端来实现。数据挖掘技术可以把大量的数据资本转化成有价值的信息资本,是辅助人们做出决策的一种有用器材,大量的移动用户对数据挖掘服务的要求更加有深层次。基于移动互联网计算的数据挖掘成长成了时下的热门话题,通过移动互联网计算的数据挖掘可以快速地处理异常数据库和环球信息系统信息的问题。
3 数据挖掘要解决的问题
新数据集的到来给传统的数据分析技术带来了新的题目。这些题目引发了人们对数据挖掘开展研究【4】。
1)可伸缩
数据出产与网络技术的不断进步,大大提高了数吉字节、数太字节甚至数拍字节的数据集的普及程度。数据挖掘算法在处理这些巨大的数据集时,一定具有可伸缩性。指数级的探索问题会用到一些特别的数据挖掘。新的数据机构可以帮助数据挖掘算法实现可伸缩性,从而才可以有用的方法实现访问的每个记载。例如,需要处理的数据非常庞大,但是内存不够大,这时候就需要虚拟算法。数据挖掘算法的伸缩性水平还可以通过抽取样本技术、执行和分布算法来改善。
2)高维性
移动互联网时期遇到的数据集十分有难度,不是通常所指的数据集。在生物信息学范围,寡核甘酸阵列技术有了很大的进步,并且形成了牵涉数千特性的基因表达数据。数据集在时间与空间分量上有很高的维度。例如:一个包含不同地区的温度检测数据集,如果在某个特定的周期内进行重复检测,那么维度的增长与检测次数成正比。低维度研发的普通数据分析技术处理不了高维数据。此外,一部分数据分析算法跟着维度的增添,计算复杂性增长速度非常快。
3)异种数据和复杂数据
一般的数据分析方法处理的数据集都是属性相同、连续、分类的。数据挖掘技术在不同领域应用范围逐渐扩大,迫切需要之中可以处理异种属性的挖掘技术。和以往相比,数据对象难度越发大。
4)数据的所有权与分布
有时,分析存放在不同站点的数据,或归属一个机构,或多个机构的资源。这时需要分布式数据处理技术。分布式处理技术可以处理降低执行分布计算所需要的通信量、统一从多个资源得到的数据结构、数据安全性这些问题。
5)非传统的分析
传统的统计方式用于一种假设检验模式,即给出一种假设,通过做实验捕捉到相关数据,在针对假设对数据举行分析,这一过程十分费心。目前,数据分析面临着十分重大的任务,自动产生和评估的假设能够达到上千种才可以,因此激励着人们不中断的开拓新的数据挖掘技术,通常数据挖掘分析的数据集的实验成效无须费心设计,而且这些数据集会涉及非传统的数据类型和数据分布。
参考文献:
[1] 蒋盛益,李霞,郑琪编著.数据挖掘原理与实践[M].北京:电子工业出版社,2013:19,59-73.
[2] 任冷.数据挖掘应用研究前沿和发展趋势[J].科技与创新,2016(16).
[3] 任新社,陈静远.关于数据挖掘研究现状及发展趋势的探究[J].信息通信,2016(2).
[4] (美)陈封能,(美)斯坦巴赫,(美)库马尔.范明等译.数据挖掘导论:完整版[M],北京:人民邮电出版社,2011.
【通联编辑:张薇】