数据挖掘技术的应用
2021-11-20杨雁莹
杨雁莹
(南京森林警察学院 江苏省南京市 210023)
1 数据挖掘的技术方法
对数据挖掘的技术方法进行分类,主要可以分为两个类别,首先是统计型,统计型类别里的技术主要有概率分析、相关性以及判别分析等等,其二是人工智能当中的机器学习型,这种技术主要是经过发亮的训练和学习,在样品当中得出相应的参数或者是模式[1]。在数据挖掘技术应用的过程当中,需要不断对具有价值的信息进行挖掘,不同的数据挖掘技术基本都秉持着相同的思路和步骤,但是实际操作起来也有一定的区别。不同的数据挖掘技术都有着突出性的功能特点,并且应用的领域范围也是并不相同的,在对相应的数据进行挖掘的时候,需要针对数据的类型对数据挖掘技术进行合理的选择,选择不同的数据挖掘技术会直接影响到最后数据得出的效果,但是在实际进行数据挖掘的过程中,往往会采用多种技术结合的方式对数据进行挖掘,这样多种技术之间可以进行优势的互补。文章以下将针对数据挖掘当中常用的集中技术进行分析,并对其中的优缺点,以及主要的应用领域进行分析[2]。
1.1 关联分析
关联分析是一种常用的数据挖掘技术,并且具有着非常强的实用性。关联分析主要是从大量的数据当中依照一定的基本思路,发现其中具有关联性或者是依赖性的知识。关联分析的基板思路就是:由W 到B,其中W 表示为属性集,而B 表示为性个体,对此进行简单的解释就是,在一个数据库当中,W 属性集是具有真值的,但是个体B 是具有真值的可能性以及一定趋势的。关联分析当中常常会使用到货篮分析这种形式,也是最常用的一种形式,其中会使用到两种属性值进行度量,也就是支持度以及置信度,这样以来就构建出了一个“支持度-置信度”的框架结构。比如将这种模型放在零售业当中,分析客户在购买完电脑之后,再购买打印机的概率是多少,这对于零售业之后产品的布局以及产品的管理具有着非常重要的现实意义[3]。将这种模型用于制造业当中,就可以分析事件A与事件B 发生之后,在发生事件C 的概率是多少,这样的计算具有着非常大的作用,并且这种关联分析技术常常会用于事故的检修和检测工作当中。关联规则可以对大量的数据,尤其是关系数据进行分析,对大量数据当中的信息和知识进行分析,这样可以对相应事件的概率进行估计,这在零售业、制造业以及通讯行业当中都得到了较为广泛的应用。
1.2 决策树
决策树这种数据挖掘方法,主要是根据大量数据的属性值分别进行分类,最常用的分类方式就是“If-then”模式。决策树这种方式具有着极强的可理解性,可以比较直观的理解数据之间的联系,决策树和神经网络是有一定的区别的,决策树可以对得出结论的整个过程进行解释,但是也存在一定的缺点,也就是在处理一些相对复杂的数据的时候,决策树具有着较大的分支,在实际进行管理的过程中具有着较大的管理难度,不仅如此决策树还存在着数据缺值的问题。决策树具有着CART、CHAID 等多种算法,但是目前还出现了SLIQ 以及SPRINT 这两种新的算法,可以使用到很大的训练集对整个决策树进行归纳,同时处理分类属性以及连续性属性[4]。
1.3 遗传算法
遗传算法是基于生物进化而得出的一种组合优化的方式,也是计算机科学和生物学结合得出的一种数据挖掘技术。遗传算法是智能计算技术当中非常重要的一种,遗传算法最早是从生物进化论当中引出的,遗传算法具有随机搜索以及优化处理的作用。在1975年美国的密西根大学D.J.Holland教授,根据自然界的适者生存原则,并结合生命进化的机制,逐渐形成了由当前群体中最适合的规则组成的新的群体,以及这些这些规则的后代[5]。根据这个思路,得出了遗传算法这个新的概念,并获取了相应的模型,并在后续的实验当中对这个数据模型进一步进行了优化。遗传算法从根本上来看是一种弱方法,并且对信息数据并没有过高的要求,所以遗传算法具有着极强的灵活性,实际使用起来具有极强的高效性。并且在进行数据挖掘的过程中,遗传算法也可以用于评估其他算法的适合度。遗传算法擅长于数据聚类,并且可以从时间和空间两个方面对数据进行类比,这样可以将大量的信息数据进行系统化的处理,梳理数据之间的内在联系并建立相应的概念。在进行数据挖掘模型的过程中,需要将遗传算法和神经网络两种方式有效的结合到一起,这样可以提升数据模型的可理解性。首先,遗传算法在进行计算的时候会形成串集的数字,并且秉持着问题分析的原理,对其中的串集进行搜索,在进行分析的时候时刻注重对计算整体进行处理,并不是对其中单一的问题进行解释。所以这也是遗传算法非常明显的优势,和传统算法当中对单个初始值计算的方式不同,遗传算法注重整体的计算分析,并且遗传算法的搜索范围涉及面极广,可以覆盖到整个问题的体系,针对全局对问题进行解答和分析。其次,遗传算法的搜索往往都是以整体作为出发点,和传统单点搜索的搜索算法相比,遗传算法的运作更加节省搜索的时间,并且搜索的范围从局部逐渐扩展到整体当中,所以遗传算法在进行计算的过程当中,往往是依靠处理群体为主要的基础,并随整个问题的空间进行逐个的搜索和计算,并随整体进行分析,所以可以从根本上降低处理问题的风险,由此实现问题计算化的处理[6]。
2 数据挖掘技术的实际应用
数据挖掘技术近几年来得到较为广泛的应用,各行各业也开始对数据挖掘技术引起一定的重视。数据挖掘技术最早应用于商业领域当中,数据挖掘技术的应用可以帮助企业提升自身的竞争优势,并且尽可能的缩短自身的销售周期,从而降低企业生产过程当中的成本,对于企业未来的规划以及战略方针的制定起到了非常重要的作用。当前,数据挖掘技术已经成为了电子商务当中非常重要的核心技术,数据挖掘技术在开发信息资源领域当中具有着较强的优越性,随着数据挖掘技术的不断发展,数据挖掘技术已经被逐渐应用于制造业、保险领域以及医疗领域等行业当中。
2.1 数据挖掘技术在零售业当中的应用
目前零售业对数据挖掘技术的应用相对活跃,并且借助数据挖掘技术可以更加清楚的了解到客户的喜好,以及购买的趋向,这对于零售行业未来销售策略的制定起到了非常重要的作用。往往会采用关联规则对客户数据进行挖掘,并针对客户对邮件的回应效率分析出客户的特征,以此针对性的开展后续的销售业务,并对广告工作的开展起到了指导性的作用。除此之外,借助数据挖掘技术还可以对顾客的忠诚度进行有效的分析,根据分析得出的结果实时的调整相应的数据,以及产品的类型,后续根据顾客的喜好调整销售服务。这样的过程不仅可以最大程度上保留现有的客户,并不断挖掘潜在的客户。所以数据挖掘技术在零售行业的应用,可以进一步扩大自身的销售规模以及销售范围,并从根本上增加销售量,线上销售得出的数据,可以通过数据挖掘技术得出产品的相关信息,并且得出客户的购买习惯,这样可以实时调整后续的销售策略。
2.2 数据挖掘技术在保险行业的应用
随着我国经济的不断发展,社会保障体系也在不断的完善当中,在这样的背景之下保险业得到了进一步的发展,并且发挥出越来越重要的作用。保险行业目前面临最重要的问题,就是如何尽可能的维系现有的客户,并尽可能挖掘到潜在的客户,并及时识别到可能存在的诈骗行为。数据挖掘技术可以有效的解决这些问题,数据挖掘技术可以对保险行业当中的业务数据以及客户数据等多个类别的数据进行分析,综合性的分析可以对保险公司后续的发展给予一定的帮助,可以对保险公司的市场进行分析,并进行风险评估、财务预算等多种工作,所以数据挖掘技术的运用极大程度上提升了保险企业的抗经营风险的能力和水平,这也为保险企业开展科学决策提供合理、科学的评判依据。基于此,保险企业可以建立相应的预测模型,并对投保人根据一定的类别和层次进行归类,并对索赔投保人的特征进行总结,建立相应的模型之后对索赔的相关信息和次数进行统计,这样可以更加科学合理的了解到客户行为。除此之外,数据挖掘技术的应用,可以有效分析欺诈案件内部的线索以及特征,这样可以从根本上预防欺诈案件的发生,尽可能的减少保险公司的资金损失。基于此,需要对投保人的各方面的状况进行有效的记录,这样可以从内在因素找出索赔的关联性。
2.3 数据挖掘技术在金融行业当中的应用
金融行业的数据相对是完整的,并且数据的质量是非常高的,数据挖掘技术最早应用于商业领域,也因此数据挖掘在金融领域当中的应用相对成熟,数据挖掘技术的应用取得了较好的社会效益以及经济效益。数据挖掘技术可以有效分析金融行业市场波动的主要因素,并基于此建立相应的预测模型,并根据模型进行相应的投资分析以及预测,这样可以尽可能的避免由于市场波动而造成的不良影响,为后续的投资和相关决策提供合理且科学的依据。预测模型需要综合客户端额教育水平、工资收入以及个人信誉等各种因素,最终分析得出影响信贷的主要原因,这样可以更加针对性的调整相应的贷款开放政策。不仅如此,可以根据信用欺诈等各类信息,建立相应的预测模型,这样可以极大程度上帮助银行预防具有潜在欺诈性的事件,并且可以极大程度上预防银行资金的非法流失。除此之外,预测模型的建立还可以帮助银行尽可能的挖掘潜在的、有价值的客户,并开展跨区域销售业务,并最大程度上加强用户和银行之间的关系。在进行证券交易的过程当中,可以科学的对股票进行预测,并尽早的发现账务造价以及利润超重等问题,这样可以极大程度上避免严重的经济损失。
2.4 数据挖掘技术在医疗行业当中的应用
在医疗保健行业当中,医学以及生物工艺学在对基因进行分析的过程当中,需要对大量的基因数据进行处理,数据挖掘技术的应用可以极大程度上挖掘基因数据当中潜在的价值,有助于对数据的研究和理解。在医学领域当中,在针对一些疑难杂症进行研究的过程中,也可以使用到数据挖掘技术,并基于此建立相应的医疗数据模型,根据模型进行分析,找出医疗数据内在一些联系,得出线索之后可以针对性的进行研究,这对于推动医学研究的发展起到了非常重要的作用。不仅如此,数据挖掘技术还可以应用于医学历史数据的处理当中,这样可以尽快的找到疾病产生的原因,并且根据数据的分析,更加合理的搭配药物,并针对病人的状况制定相应的治疗方案。
3 结束语
数据挖掘技术的诞生顺应了这个时代的发展,目前数据挖掘技术在金融领域、医疗领域以及电信等领域都得到了较为广泛的应用,数据挖掘成为挖掘信息资源非常有效的一种方式,也因此数据挖掘具有着非常广阔的市场发展前景。但是目前数据挖掘技术还存在着很多的问题,并且数据挖掘技术存在着很大的潜在应用市场以及应用领域,所以数据挖掘技术应当尽可能减少其盲目性,并在不断完善该项技术过程中,找到数据挖掘技术的核心的价值,这对于数据挖掘技术实际的应用具有十分重要的指导意义。