APP下载

大数据时代背景下数据挖掘技术的应用探讨

2018-03-30张凯萍

赤峰学院学报·自然科学版 2018年8期
关键词:预判数据源数据挖掘

张凯萍

互联网的发展、计算机通信技术的普及、网络购物的平民化,使传统实体经济越来越多地“搬运”到了网络上,这使得个人信息、通讯信息、消费信息等海量数据都成为了有迹可循的数据资源,这些数据资源已经演变成信息科学中一个非常重要的研究课题.但是,我们在享受信息技术带来的方便的同时,也存在一些问题,例如信息的处理速度跟不上数据增长的速度;信息的提取技术有待提高;信息的真实性难以确认;个人隐私的保密制度和技术急需完善等.因此,许多相关议题成为了学术界关注的热点,比如快速、高效率地在大数据中获取有价值的信息,再进一步利用这些信息反映出来的规律来指导市场经济、社会走向,以及快速、高效率地在大量的数据中找出隐藏的信息,使数据挖掘技术的发展速度进一步加快等.

1 什么是数据挖掘

数据挖掘的本质是在数据库中发现隐藏的知识内容,是当今社会人工智能和数据处理领域重点研究的课题.之所以称为“挖掘”,是因为这项技术所寻找的知识是之前并不确定的、具有潜在价值的、隐藏的内容.数据挖掘的过程就是决策支持的过程,数据挖掘就是以统计学、大数据技术为基础,以自动化学习、AI智能以及识别技术等为基础,非常规化地自动分析来自各行各业的数据,并总结出一定的关系网络,从中发现隐藏的模式或潜力,来协助决策人员引导市场发展、降低风险,做出正确的预判.

从技术上讲,数据挖掘是需要从一些大量的问题数据中提取隐藏的知识和有效信息,并且保证提取出来的信息和知识是之前不知道的,确保具有一定的潜在价值.这些问题数据包含不完整的数据,有缺损的数据,不能完全识别的数据,以及随机的应用数据.其中,数据的来源必须要真实,数据量要大,提取的信息必须是目标用户群所感兴趣的,并且在实际操作中要可行[1].

对于原始数据,可以是来自各行各业的数据库,例如关系数据库中的结构化数据;一些文本、视频资料等半结构化数据;例如在网络上散布的非常零散的没有任何关联的数据.针对提取有效信息和知识的方法包含演绎、归纳整理、数学模型、非数学模型等.提取出来的知识可以用在信息检索、快速查询、过程控制等,还可以用于维护数据本身.因此,数据挖掘是一项混合技术,它能够把数据充分利用起来,从简单的查询到复杂的演绎,从简单的表层知识到深入的隐藏知识,这都是当今社会进行决策和引导的关键技术知识.

2 数据挖掘的经常使用的技术

2.1 分类

分类技术指的是在数据源中寻找出一组数据对象,这组数据对象具有相同的特点,可以根据事先规定的模式进行不同的分类,把数据源中的数据对象联结到某种特殊的类别当中.例如可以把某一组数据对象联结到顾客的分类中,然后对顾客的属性进行分析,对顾客的特点进行分析,做满意度调查、然后评判顾客的购买意向以及购买力.以某一个汽车厂商为例,如果这个汽车厂商把数据源中的顾客依据对汽车的爱好分门别类,这样一线的销售人员便可以把握主动,直接向这类顾客销售相应的产品,投其所好,大大提高了效率.

2.2 聚类

这种分析方法是将一组数据源按照是否相似以及相似的程度分为几个层级,制定覆盖面广而又详尽的相似性判断制度,使相同类别的数据源具有极高的相似度,使不同类别的数据源具有极低的相似度.市场销售中经常用到聚类这种分析方法,例如寻找客户的时候,挖掘潜在客户的时候,维系与客户的联系的时候,分析商品周期的时候,预判销售情况的时候等等,都可以使用聚类的分析方法.

2.3 关联

关联是描述数据源中各项数据之间关系的规则,简单地说,就是一类数据源中出现某些项,很可能导致另一类数据源中产生相应的反映,有因而产生果,隐藏在数据源中的知识也随之被发现[2].例如,当你在维护和客户的关系的时候,就可以在该企业的客户数据源中挖掘有效信息,在大量的关系交流的记录中挖掘有效信息,挖掘有价值的线索,挖掘出不明显的影响市场的关键节点,这对商品价格预判、销售走势、客户类群分辨、销售整体方向的规划等具有重要的参考价值.

2.4 回归分析

该方法是利用数据源在时间上的特征性,制定一个把数据类别回归到预测变量的函数中,通过相关的数学理论,对变量和变量之间的关系进行挖掘分析,其中回归分析的重点有以下几点:数据类别之间的关系分析,预判的走向分析,以及数据变量的趋势分析等.

2.5 特征

数据源也可以根据特征进行数据分类,从中提取关于这些特征的特征式,这类公式可以提现该数据源的整体特点.例如在一线的销售人员在预防顾客流失的时候就可以先将顾客按照特征进行分类,然后再从中提取出顾客流失特征的特征式,就可以很快分找出造成顾客流失的很多原因以及特征了,然后再从特征中找出主要特征和次要特征,通过对这些顾客流失的特征分析就可以提前预防顾客流失的情况了.

2.6 变化以及偏差分析

数据源里面的偏差含有许多隐藏的知识和有效信息,例如模式中反常现象,数据分类中的反常现象,实际与期望的偏差等,对于偏差的分析旨在探究实际结果与参照之间有价值的差别.在大型企业的危机预警系统中,管理人员更应该注意的是一些反常现象和规则,对于这些偏差的分析以及深入挖掘,可以提前嗅探到危机,让企业提前应对,避免不良后果的产生.

2.7 Web页挖掘

随着互联网的普及,越来越多的人开始通过网络通信进行交互,这导致互联网上的数据极其丰富,通过对互联网的数据挖掘,可收集到有关经济的各种信息、有关金融的各种信息、有关对手企业的各种信息、有关人力资源供求的各种信息、以及潜在客户群体的各种信息等等,接下来再重点关注对企业会造成重大影响的内、外因素,或者潜在影响的内、外因素,根据数据挖掘的结果对危机进行预判和预警,合理利用,从而达到统筹运营、恰当决策的目的.

3 市场销售中数据挖掘的应用案例

在一些大型企业中,数据挖掘技术在市场销售中广受青睐,它的应用基础是市场细分原理,通过对顾客日常消费行为的分析来判断其将来的消费行为[3].

具体地说,就是先广泛的搜集一切和消费者的日常行为有关的信息,并进行加工处理,做好分类,通过不同分类的消费群体的消费水平,偏向爱好以及消费趋势来对消费群体的消费行为做出预判,然后以此为准,对每一类消费群体进行定向推销,类似于“漫灌”改“滴灌”,可以将销售的准确度大大提升,进而销售效率就会提升,企业积累的顾客越来越多,利润也就会越来越大.

其中的消费数据信息来自于多种渠道.当我们在申请办理借记卡时、购买商品进行登记时、邮寄物品填写表格时等等,只要是需要填写个人信息的公共场合,在填写信息之后,一些私人信息就会自动纳入相对应的数据库;例如当你每一次刷信用卡产生消费的时候,企业就会通过你的信用卡的账单来计算分析你的消费信息,并且还可以统计出每一次的消费时间,消费地点,消费内容,消费能力等;除了企业自身收集相关信息,也可以通过购买的形式从其他商业公司购买.

来源于多种渠道的用户信息被重组,利用计算机、AI智能分析、模型算法等多种信息处理办法进行综合处理,从中提取对于企业有利的决策性、判断性信息,用来对消费群体进行定向销售等.举例说明,当银行系统对交易业务进行数据挖掘后,筛选到一个银行用户要求办理双人关联账户,且明确这是该消费者第一次要求办理,那么数据挖掘软件会预判这名用户即将结婚,相应地便可以对其定向推荐房屋按揭等业务,甚至可能把这份资料售卖给婚庆服务行业.

在市场经济发达的国家,很多大型企业已经开始在原有信息基础上通过数据挖掘进行深层加工,从而建立起自己的优势,提升竞争力,扩大经营范围.比如美国运通公司,建立了一个记录信用卡消费记录的数据库,只要业务量在增加,数据库的内容就会一直更新.而美国运通公司就会在这些数据中挖掘隐藏的信息,制定出了非常有效的“关联结算优惠”策略,简单地说,就是一个用户在使用信用卡购买了一套衣服,如果在同一地方再买一双皮鞋,那么就会有巨大优惠.如此以来,商店和银行都赚取了更多的利润.

预判型推销,是以数据挖掘为基础,可以按照消费者之前的消费水平,向其推荐与之相当的产品.例如卡夫食品拥有一个几千万顾客资料的数据库,其内容是不同的消费人群对该公司曾经发放过的消费券、代金券等的反馈,卡夫食品以此为基础进行数据挖掘,向特定的人群发送其偏好的食品,并且进一步推荐与之有关的卡夫食谱.再例如美国读者出版公司,建立了一个业务数据库,并且已经累积了几十年,业务数据库的内容已经包含全球范围上亿个顾客的相关资料和信息,并且业务数据库还在7*24小时的运行,从来没有间断过,确保数据库的内容可以实时更新.所以正是因为有了数据库信息的挖掘技术,读者出版公司在高层决策中实行了方向引导,让公司的业务得到进一步拓展,从一开始的普通杂志扩展到专业杂志,从一开始的普通书刊扩展到音像制品,从而公司的利润也是得到了很大的提升.

4 数据安全保密

大数据在给人们带来方便的同时,也存在许多安全隐患,尤其是个人的隐私容易被不法分子进行数据化分析.

比如,通过对人口健康数据、基因测序数据的挖掘,可以预判国民身体健康走向;通过对移动消费的数据挖掘,可以得出国民消费的金融数据;通过对社会文化的分析可以得出国民的文娱喜好和思想文化偏好,这些分析结果很可能会被不法分子利用,进而影响国家层面的安全.

由于利益驱使,个人信息的售卖已经形成完整的产业链条,依据目前的网络法律法规,这些不法现象还很难得到整治.但换一个角度,大数据只有在充分流动和共享交换的模式下才能发挥最大作用,要用辩证的眼光看待当今社会大数据带来的利和弊,只有完善法规、合理引导,才能使大数据发挥其应有的作用.

结语

大数据时代的到来,使得数据挖掘技术成为极具影响力的工具,颠覆了以往各个领域的运作模式,使得各行各业能够把握更高效的运行方案.随着数据挖掘带给人们方便的同时,个人隐私的安全问题也亟待解决,只有建立完善的法律法规,加强数据基础设施保护,充分发挥标准的指导和引领作用,才能让数据挖掘技术更好地为社会服务.

猜你喜欢

预判数据源数据挖掘
探讨人工智能与数据挖掘发展趋势
2021年下半年集装箱海运市场走势预判
对书业的30个预判
整体供大于求 苹果行情预判
Web 大数据系统数据源选择*
基于并行计算的大数据挖掘在电网中的应用
基于不同网络数据源的期刊评价研究
一种基于Hadoop的大数据挖掘云服务及应用
基于真值发现的冲突数据源质量评价算法
把握现在 预判未来