浅谈大数据背景下数据挖掘技术应用的改进
2022-11-15刘颖
刘颖
(南京审计大学金审学院,江苏 南京 210000)
1 关于数据挖掘技术
数据挖掘是进行AI 或者进行机器学习的基础,它主要还是从复杂多变的数据出发,挖掘出多样的、有利用价值的信息供行业使用。通常把数据挖掘归纳为数据准备[1]、数据寻找和数据表示这3个步骤。由于数据挖掘技术涉及的领域甚广,所以不同研究方向的学者研究时使用的分类方法不同,这里要提到的是现阶段已经在专业知识课本上学过的数据挖掘分类方法,其大致可以分为以下4 类:统计学习的方法、机器学习的方法、神经网络和数据库的方法。
在大数据背景之下,“数据挖掘”这一技术已经被广泛地运用到生活的方方面面。不管是在医疗卫生方面或者是APP 开发方面,还是金融、教育等领域都可以到处看见数据挖掘技术留下的踪迹,各行各业使用数据挖掘技术显示出大数据在社会中的重要地位。比如说在金融方面,大部分银行都为客户提供了丰富多样的储蓄服务、保险服务或者投资服务等;在销售方面,数据挖掘技术在积累销售顾客、划分销售群体、统计销售数据等方面发挥了重要的作用;在科学研究方面,数据挖掘的应用如观测卫星、遥感器、DNA 分子技术等都有很重要的体现[2]。但是随着大数据的出现,数据挖掘技术在各行各业的应用更加广泛,如果能够在现有的基础上对数据进行更深入的分析,如对商店的客户销售数据进行分析,那么数据挖掘将会发挥更大的价值。具体分析,比如对客户进行细分与流失分析。企业利用数据挖掘技术对销售数据进行分析,可以识别哪些是重要客户,哪些是有价值的客户或者哪些是新来的客户,根据不同客户的属性以此来推断哪些客户可能会流失,随之可能会给部分商品的销售带来影响;还可以利用这一技术从客户价值的角度进行时间序列分析。简单来说就是根据来往客户的花销情况,以及客户本身的特征属性,利用数据挖掘通过不同维度进行综合分析,来推断出客户未来的消费情况。也就是说,还可以根据客户价值的进一步管理,来实现商店交叉销售分析、协同过滤推荐,深化客户购买,挖掘客户价值。同时,也可以通过大数据可视化技术,来分析推断客户在社会的影响力,商店可以由此来进行一对一精准销售,例如对不同影响力的客户可以给予不同的折扣和优惠力度[3]。特别地,还可以利用这一技术根据客户特征提供个性化的服务模式,这样,在提升服务质量的同时也提升了商店的销售利润。
综上所述,不管是在金融领域、医疗方面,还是在电信行业、教育机构等,无时无刻都会产生大量的数据,也正是由于如今社会上存在太多的无法确定的因素,导致每天处理的数据类型逐渐多样化,那么即便通过计算机来辅助,就拿过去使用的办法来说,如最常用的Excel,用它来解决实际问题依然有一定的局限性,其对数据量、数据处理的功能等方面都有一定的要求。但是换个角度思考,如果可以通过数据挖掘技术来解决这一系列大数据的难题,想必会达到事半功倍的效果。
2 大数据的出现给数据挖掘技术的应用带来的变化
随着数据变化速率的加快以及数据种类的不断增加,这意味着“大数据”(Big Data,IT 行业术语)时代的到来。2011年,互联网数据中心(Internet Data Center,IDC)将大数据的定义增加了另一个新的特征——“价值”。至此,“大数据时代”的专属特征为数量(Volume)、多样(Variety)、速度(Velocity)和价值(Value),简称为“4V”。
现阶段,在大数据的背景下数据挖掘技术在相关行业的应用也有了很大的改进,下面以可视化、高性能计算(HPC)、数据存储框架、云计算速度提升这4个方面为例,将其对数据挖掘技术的影响进行具体探索分析。
2.1 大数据可视化给数据挖掘技术带来的影响
通常情况下所理解的大数据可视化技术指的是在类型多样或者数量很大的数据中迅速获得信息这一技术,大数据并不意味着全是数据,它实际上指的是能够支持企业进行全面分析和管理,并且效率更甚从前的一种能力。当然,不同的数据种类经过大数据可视化技术的分析后可以展示出不同的洞察力,可以用在不同企业的不同用途。所以,即便是一模一样的数据,不同类型的企业看到的结果也是不一样的。此外,大数据可视化技术能够使企业知道它持有的一切数据,从而生出迅速的洞察力,进而采取最佳行动,提升数据处理的能力,实际应用到日常生产运营中,从而提升企业的价值。
2.2 高性能计算(HPC)给数据挖掘技术带来的影响
通常情况下接触到的高性能计算技术,目的是达到处理数据密集型任务的时候实现花费少并且功能多的目标。一般情况下,大部分企业的高管和董事不一定要求是高性能计算领域的人才,但在企业进行工作运转时,绝对不可以没有这些人的支持。这些企业的管理层必须对高性能计算有足够多的了解,以及可以为当前企业明确提供可能的大规模硬件。其实在大数据的作用下,并不是每个企业都需要高性能计算,有的企业即使没有高性能计算也可以正常运行,但是如果每个公司在运营时都采用大数据的高性能计算技术,那么我们有理由相信公司的运营一定会达到最佳效果。这是因为在高性能计算实施过程中,数据文件的容量要大得多,并且数据存储集中,这就在一定程度上满足了企业的日常运营需求,进一步提高了数据处理时的工作效率,方便企业对各部门、各流水线、各个项目进行管理,对各种资料进行收集处理、分类汇总。
2.3 数据存储框架给数据挖掘技术带来的影响
目前在研究中常用到的大数据存储框架有数据分组、聚类、描述、负责数据挖掘的内容等。这些方法对数据处理过程中的不同需求提供了相应的解决办法,例如,数据分组是把大数据根据不同的标准、不同的需求进行分类,这一功能技术使用最频繁的场景就是商店的精准营销,其在这一方面发挥着很大的作用。在目前大数据技术背景的支撑下,网络优化其实就是一个对系统数据进行采集提取、收集预处理以及变换整合分析的过程。当数据分组这一技术以客户维度为主要特征时,分析所得的结果通常作为下一次交易时客户行为的基础。总的来说,数据存储框架这一技术的使用也在一定程度上提高了数据挖掘过程的准确度。
2.4 云计算速度提高给数据挖掘技术带来的影响
众所周知,云计算属于大数据分布式计算的一种。一方面,其服务器虚拟化可以提高信息资源的利用率,简化系统的管理,实现服务器整合[4],从而达到减少运营成本、提高资源利用率的目的;另一方面,其纵向伸缩性是指在相同的逻辑单元内比以往增加更多的资源来提高处理速度、容量和能力。因此,伴随云计算速度的提高,其服务器的虚拟化可以使信息资料被使用得更加充分,从而使得管理更简单,运营成本更低,资产利用率和资源处理能力更强,这对于数据挖掘技术来说,大大提升了数据挖掘技术的应用范围和使用效率,使得数据挖掘技术在原有的基础上更高效地帮助企业处理数据,让企业得到更多有价值的、可使用的数据,最重要的是,对于企业而言,获得最大的利润是其终极目标,数据挖掘技术恰巧可以使企业在这方面消耗比以往更低的成本、人力和物力,无疑,企业可以在原有基础上获得更多的利润,同时也可以提高自身的价值。
3 大数据背景下数据挖掘技术的发展趋势
不管是学者研究领域,还是商业营销领域,用数据挖掘技术来处理数据一直以来都是热点话题,当下也一直源源不断地被越来越多的人们所关注。大家先了解认识这一技术,然后进行技术学习,最后自主使用到特定的应用场景,长此以往使得这一领域在各行各业越来越成熟。在利用数据挖掘技术处理和解决实际问题时,相关学者提出了3个值得人们关注的角度:①用数据挖掘技术解决问题的类型;②解决数据挖掘的数据准备工作;③数据挖掘的理论基础。因为数据挖掘技术可以给使用者带来巨大的经济利润,不管是在哪个领域,都有人在利用数据挖掘技术帮助管理客户生命周期的各个阶段,其中包括根据客户属性制造营销手段来拉拢新的客户、在已有客户的身上获得更多的利润以及保证已有客户资源不流失等。如果能够确定好不同销售客户的特征属性,那么就能为这些客户提供针对性的个性化服务。比如,已经通过以往的销售记录分析得出购买某些商品的客户的性格或者他们选择的商品的价格、质量、品质等,那么就可以向那些具有这些特征属性但还没有购买商品的客户在购物时推荐这些他们可能会心仪的商品,可以推测,他们大有可能会购买,这样,在原有的销售模式之上,可以更高效地提升商店的利润。总的来说,就是用数据挖掘这一技术为商店在更短的时间内创造更多的价值。因为保留一个客户要比争取一个客户来的更容易,且成本花销更小。同样,证券公司也采用数据挖掘来降低欺诈行为出现的概率,简单地说,可以把每个投资样本标准化处理为可测的信息,再进行聚类分析,聚类中样本较小的簇确定是否为异常样本。此外,运营商还可以大量地使用数据挖掘技术处理的数据结果来作为不同类型的商品在不同仓库的放置存量的依据,例如像沃尔玛这样的全球大型超市,有了这一技术,总部的技术控制中心便可以更快更好地掌握各种商品在不同地方、同一商品在不同时间段的销售情况,从而进一步制定更多的销售手段来获取更多的利润。以上这些是现阶段数据挖掘技术在相关行业应用的实例。
在以大数据为背景的前提下,数据挖掘技术在以后发展的大体走向具体如下。
一方面,现如今社会信息化发展速度太快了,以至于人们越来越关心未来会怎样,也越来越关心信息的处理手段。这也从另一方面说明人们现在不仅接受现有的事物来适应社会的发展趋势,更希望通过更为先进的技术手段去预测未来的发展趋势,去更加准确地掌控自己的未来。对信息社会中的任何一个单位而言,其最大的资本就是掌握可靠、真实且有价值的信息,要不想被大量的信息所迷惑,并在如此激烈的企业竞争中脱颖而出,这就要求每一个单位不得不加强自身信息处理的能力。因此,未来,数据挖掘技术的使用会越来越广泛,不仅仅是上述提到的教育领域、商业领域、电信领域、医疗卫生领域,甚至以后可能会出现的一些新型领域。
另一方面,随着人们对信息技术需求不断提升,随之而来的是计算机性能的不断优化,再加上各学者对数据挖掘技术研究力度不断加深,数据挖掘在各行各业都已经占据着越来越重要的地位。可以说,在这种背景下,种种迹象都表明数据挖掘技术代表未来面对大量数据处理技术的一个大体趋向,其所涉及的数据采集、数据预处理、聚类分析和数据变换等各种核心技术和算法都将会成为未来各行业处理数据不可或缺的一部分,有了这些技术,无论是学者的研究还是各行业的运营,都将会达到事半功倍的效果。因此,数据挖掘技术在很大程度上有可能会成为将来人们驾驭大数据的一块法宝。
4 结论
一言以蔽之,因为很多学者和各行业的运营者迫切想要将存在于现有数据库中的大数据转化为对于研究和企业运营有使用价值的知识和资源,因此数据挖掘技术被认为是一门尤其重要的、有很广的应用前景的学科,当然也是极具挑战意义的一项技术。随着数据挖掘技术的深入发展,技术人员的不断研究以及在各领域的大量应用,有理由相信,未来这项技术势必会带给使用者更大更多的利益,造福于各行各业。