大数据条件下的数据挖掘技术及应用
2018-01-28李翼孟莉
李翼+孟莉
摘要
随着云计算、互联网、数据库等技术的快速发展和改进,人们已经进入到大数据时代,政企办公、电子商务、大健康、科学研究等领域积累了海量的数据资源,传统的人工分析模式已经无法满足需求,亟需引入BP神经网络、支持向量机、K均值等数据挖掘技术,进一步改进大数据的应用需求。
【关键词】大数据 支持向量机 BP神经网络 数据挖掘
1引言
大数据时代,电子政务、电子商务、智能家居、金融证券等领域己经引入了先进的云计算服务平台,积累了海量数据,信息资源从匮乏时代过渡到了丰富时代,有力提升了人们的生活质量和水平。面临数据量与数据评价维度的急剧增长,传统的人工分析模式已经无法满足需求,如何提高大数据挖掘结果的准确性和价值性,从大数据中挖掘潜在的、有价值的信息,提供合理的知识解释和决策信息,亟需引入先进的数据挖掘技术。本文重点描述大数据在多个领域的应用情况,同时分析了BP神经网络、深度学习、支持向量机、K均值等先进数据挖掘技术的应用特点和发展趋势。
2大数据发展及应用情况
大数据技术己经在智能制造、金融证券、电子商务等领域得到广泛应用,详细应用内容描述如下:
2.1智能制造
目前,我国正处于深化改革全面推进、重点攻坚的年代,传统的制造模式污染严重、成本浪费较大,不利于我国制造行业的转型和发展,因此通过对历史制造数据进行挖掘和分析,利用大数据技术构建需求分析模型,可以更加准确的获取现实社会对制造行业的需求,提高制造的效率和流转速度。
2.2金融证券
金融证券行业己经引入了网上银行管理系统、银行现金管理系统、股票交易系统、企业经营分析管理系统等,这些信息化系统的运行积累了海量的数据资源和信息,因此为了保证金融系统的安全运行,保证金融行业不发生系统性风险,金融行业监管单位开始利用大数据分析技术,比如BP神经网络构建一个风险分析模型,预判未来金融行业风险承受能力,确保金融行业在一个合理范围内稳定运行。
2.3电子商务
目前,淘宝、京东、蘑菇街、苏宁云商、一号店等互联网商务平台运行的逐渐成熟,这些平台入驻的商家己经超过了数百万,用户数量也己过亿,琳琅满目的商品更是不计其数。消费者浏览商品时,非常容易陷入一个眼花缭乱的局面,因此基于大数据分析技术可以构建一个推荐系统,该推荐系统可以读取用户浏览商品、购买商品的行为记录,定期为用户挑选类似商品进行推荐,既能够进行营销推广,也可以帮助消费者快速定位需求商品,提高电子商务的成交率。
3大数据条件下数据挖掘技术研究现状
大数据时代数据挖掘技术主要包括两个类别,分别是有监督学习方法,比如BP神经网络、支持向量机、贝叶斯理论;一种是无监督学习方法,比如谱聚类、密度聚类、K均值、信息论等方法。有监督数据挖掘方法需要利用人们的经验,预先构建一个分析模型,然后尽可能地提高这个学习模型的准确性,从而保证数据挖掘的精确度;无监督学习方法却不需要任何先验知识,系统自动地将数据按照不同的关注角度进行分类。
3.1BP神经网络
BP神经网络又被称为连接机模型,它是基于心理学、现代神经学等专业的研究成果建立的,是生物神经系统活动过程在其他领域的再现和表现,是模仿人的大脑神经系统活动的规律建立起来的计算模式,是对众多需要处理的单元进行互联形成的网络系统,其基本特点或特征与生物系统一样,很大程度上体现了人脑功能的反应,是生物系统的一定程度上的模拟和再现。目前,人工神经网络技术得到跨越式的发展,尤其是在深度学习领域。作为一种机器学习算法,深度学习是一个引入多个隐藏层的多层感知器神经网络,通过组合底层特征,可以形成一个抽象的高层表示属性,发现数据中的分布式特征,其优点是利用半监督或非监督特征学习、分层特征等高效提取特征。目前,深度学习己经在计算机视觉、自然语言处理和语音识别等领域取得显著应用成效。微软研究院将深度学习引入到声音识别模型中,训练了大量词汇,成功开发了语音识别系统,有效降低语音识别的错误率。IBM、谷歌、百度公司、阿里巴巴、科大讯飞、中科院自动化所等科研单位、企业均对深度学习在语音识别领域进行了研究,从声音特征提取、声音识别系统开发等领域取得显著应用成效。
3.2支持向量机
支持向量机是一种性能强大的数据分析技术,其可以解决样本数量较少、非线性或高维模式数据分析的问题,比如推广到函数拟合的其他类型数据分析问题中,可以更好地分析数据、识别模式,用于分类和回归分析。支持向量机作为一种先进的数据挖掘技术,数据挖掘过程中存在精确度地等问题,因此引入了自适应共振理论,进一步利用数据中蕴含的有价值信息,将这些信息进行分类和挖掘,从而可以从不同的角度进行分类和操作。
3.3K均值
K均值(K-means)算法是一种基于距离的聚类算法,其可以把距离作为相似性评价和度量指标,采用无监督学习模式,通常两个数据对象的距离越近,这两个数据对象的相似性就会越高,不需要指定数据的类别标签就可以获取内部结构,将数据汇聚在一起,实现数据解释。K均值作为一种成熟的数据挖掘技术,值采用无监督学习模式,不需要用户具有先验知识,只需要输入自己期望的类别即可獲取分析模式,己经在医学图像处理、文本信息检索、金融数据分析、药物利用等领域得到广泛应用。
4结束语
大数据时代,数据挖掘技术经过多年的研究和改进,己经逐渐向以深度学习为代表的机器学习转变,这种改变既提高了算法的准确度,也降低了处理时间,可以有效提升大数据处理能力,改进数据挖掘的可解释性,为人们决策提供辅助知识,具有重要的作用和意义。
参考文献
[1]王山海,景新幸,杨海燕.基于深度学习神经网络的孤立词语音识别的研究[J].计算机应用研究,2015,32(08):2289-2291.
[2]王瑜,苑津莎,尚海昆,等.组合核支持向量机在放电模式识别中的优化策略[J].电工技术学报,2015,30(02):229-236.
[3]刘小明,喻杰,刘俊,等.改进K均值与模糊置信度的脑部MRI分割[J].计算机工程与设计,2015(03):710-715.endprint