计算机数据挖掘技术及应用
2022-11-13郭畅
郭 畅
(沈阳现代制造服务学校,沈阳 110045)
0 引言
随着计算机技术的高速发展,我国已经迈入信息化高速发展时代,计算机数据挖掘技术应运而生,助力我国各行各业的创新发展与变革,能够有效促进我国社会经济的增长和企业行业的转型。数据挖掘技术的运用能够使数据库技术不断升级与发展,实现数据信息的检索、查询更加便利,并且还能够直接对大量数据信息之中的隐藏数据进行辨别,使数据运用更加高效,推动了整体信息技术的发展。
1 数据挖掘技术的开发
1.1 传统方法
在计算机数据挖掘技术的开发过程之中,统计是一种较为常见的使用方式,属于传统型,主要有以下三种方法。第一种是“抽样分析法”,这种方式主要是通过在全部数据之中抽取一部分的数据内容来进行研究,从而帮助人们减轻工作压力,并且减少对数据分析的工作量;第二种是“多元统计分析法”,这种方式主要是对一些结构较为复杂并且高位数的因子进行数据分析;第三种是“统计预测法”,这种方式主要是对数据内容进行回归分析预测,并且进行序列分析。
1.2 数据挖掘技术中的算法论述
数据挖掘技术是通过对各种算法的融合从而有效提升数据处理的效率。针对传统的数据分析处理方式来说,运用数据挖掘技术可实现更加高效的工作效率,并且能够更加全面进行数据分析。对日常的实际运用来说,数据挖掘技术能够直接将可视化数据的处理能力运用到企业当中,给企业带来更多的便利。所以数据之中一些有价值的信息内容就是数据挖掘的重点对象,也是具有数据加工能力的人员需要特别重视的地方。当前的数据挖掘算法有很多种,主要有六大类,主要是回归算法、神经网络算法及聚类分析等。其中回归算法是指分析因变量和其他多个自变量之间的关系,从而发掘出变量的属性值是否具有一定的规律性,这样就能够迅速得到两个数据点之间的联系,然后进行计算。分类算法指的是根据不同数据的类型将数据进行分类。文章只针对个别常用算法进行了说明,其他算法在此不予详细说明。数据挖掘技术是运用这六种算法之中的单独一个或者几个去满足自身需求,并不是只使用一种算法,对数据形成了一套规定,其中具有通用性的算法,能够解决数据的相关问题,相较于传统方式来说,更加容易满足客户的实际需求。
1.3 数据挖掘法之轴线型
轴线型方式:数据挖掘的整个过程就是将数据的整个处理过程看成一条轴线。从数据输入开始,通过数据的预处理分析,然后把数据输出。这个方式虽然能够使数据处理的各部分分工十分明确,并且具有较强的便利性,但是存在的问题就是如果前一个步骤出现了问题,那么就会直接导致后面的步骤也无法正常开展,较为浪费时间。
1.4 数据挖掘法之环形
环形处理方式:把数据处理的过程分布在环中环的周长,就是实际数据发掘的工作时间。其中的数据也就是数据的输入和输出之间,在通过预处理和分析之后就能够形成数据的挖掘,而这种方式相较于轴线型来说效率更加显著。由于数据挖掘工作在完成一次挖掘工作之后就可以立刻进行下一次挖掘工作,不断持续开展工作,中间没有间隔时间,但是整体的挖掘工作流程较为复杂,因此在实施上会有一定的难度。
1.5 数据挖掘法之决策树
决策树数据挖掘法具有较大的数据量,并且按照这些数据进行分析,同类之后采取计算预测,就能够根据相关的数据内容展开数据操作。决策树中有许多数据分析方式,较为完善的就是CHAID 和RINT 这两种计算方式。当前我国的计算机技术发展十分迅速,而相关数据统计的模式也开始逐渐趋于科学化,如SLIQ 技术就已经对连续属性的处理提出了相关的解决措施,能够使复杂的数据内容更加有序地统一在决策树上。
2 数据挖掘技术的应用
2.1 市场需求
市场需求统计工作较为复杂,在一个企业推出产品之前,首先就要对市场上使用该产品的用户和用户的实际需求进行分析,这样才能了解到市场的实际情况。但是想要更好地了解市场人群的实际需求,就需要通过数据挖掘技术的运用,对用户实际的偏好进行统计与计算,然后按照用户实际的需求设计产品。例如:当前人们日常生活中经常用到的购物平台淘宝、京东等,都会根据用户的偏好给用户推荐一些相关的产品,而这些数据都是依据用户的历史行为进行建模,如经常浏览的产品、习惯性购买的商品、收藏并加载购物车的物品等,然后对用户的喜爱物品进行推测,从而将用户感兴趣的商品直接呈现在用户面前,这样既能减少用户搜索商品浪费的时间,还能提升购买率。
2.2 电信行业
电信行业对数据的依赖性较强,所以通过数据挖掘技术的运用能够促进电信行业的发展。根据我国当前电信行业的整体发展现状进行分析可知,电信行业价格竞争十分激烈,并且我国通信市场发展十分迅速,对电信行业的运营商提出了更高的要求。当前我国的电信行业正处在一个改革的关键时期,这种改革能够有效促进市场环境更加有序推动电信行业的发展。当前电信行业正朝着信息化方向发展,已经成为行业整体发展趋势,并且移动、联通和电信等各大运营商之间的竞争越来越激烈。随着我国5G 技术的应用,客户服务的水准得到了显著提升,所以当前移动信息化对全球信息化服务具有重要的影响。通过数据挖掘技术的运用能够检索数据信息,其中包括数据统计、业务数据及交易数据分析等,并且能够预测预警和数据试验模型结合在一起,从而使客户具有更好的体验,促进行业经济整体发展。数据挖掘所使用的工具通常都是共享、开源的模式,所以,运营商要以数据挖掘工具应用为契机,创新升级、不断改造,增强自身市场竞争力。
2.3 半导体行业
计算机数据挖掘技术运用在半导体行业之中,能够对软件内容进行精确的检测。生产半导体元件可以直接采集到元件的相关数据信息内容,并且通过使用数据挖掘技术对元件进行更加精准的分析,从而判断出其是否符合质量标准、能否正常使用,所以计算机数据挖掘技术能够有效提升元件的合格率。
2.4 财经行业
数据挖掘方式在我国的各行各业之中都有着广泛的运用,不同的企业都需要开展财经管理工作,企业的资金支撑着企业整体运转,因此企业规模与财经管理分析之间具有密切的联系。比如:可以通过对数据的分析和处理,预测企业股票,防止投资风险的发生。企业在投资股票之前,可以首先通过对数据的挖掘,将股票周期之中的相关数据进行建模,进而能够预测出相对来说可能性较大的风险,防止企业出现投资失误,从而为企业的资金起到保障作用,减少企业投资风险带来的损失。
2.5 政府治理
2020 年开年并不平静,新冠疫情汹涌而至,给人们的生活带来了严重冲击。在全民共抗疫情的斗争中,为了控制疫情的蔓延态势,大数据挖掘技术真正起到了助力作用,通过数据追踪、数据分析、数据预判,有效预防并控制了疫情。疫情的全球蔓延变异,导致全球政治、经济格局出现变革与演变,进而转变了人类的思维模式,加速改变了人们的生产生活方式。疫情大大加快了数字化转型进程,有望让大数据、人工智能、工业互联网、物联网等的发展步入快车道——从疫情监测、病毒溯源、行程跟踪到物资调配、医疗救治、疫苗研发,再到政府决策、产业转型、政务服务,台前幕后随处可见大数据挖掘技术的力量。大数据驱动政府由“权力本位”向“数据本位”转型,政府则要树立大数据观,注重数据治理,做到凡事心中有“数”,形成“用数据说话、用数据决策、用数据管理、用数据创新”的思维。通过大数据体系把政府建设成为系统战略型政府、科学管理型政府、高效实施型政府及精准服务型政府。
2.6 医疗行业
伴随着生物技术、大数据技术的发展,个体基因检测治疗疾病已经成为现实。最广为人知的是美国好莱坞女星安吉丽娜·朱莉,经过检测,她发现自身携带致癌基因——BRCA1 基因,为防止罹患卵巢癌,切除了卵巢和输卵管。目前,国内外已经有多家基因检测机构,如我国的华大基因、贝瑞和康、美国的23andMe、Illumina 公司等。华大基因一直致力于肿瘤基因组学研究,已经研究20 多类癌症。近日,华大基因推出了自主研究的肿瘤基因检测服务,采用了高通量测序手段对肿瘤病人的癌组织进行相关基因分析,对肺癌、乳腺癌、胃癌等多种常见高发癌症进行早期、无创伤检测。智慧医疗应以人为本,以第一性原理回归医疗本质,集成大数据、人工智能等现代智慧科技手段,深度融合健康医疗体系,直击医疗实践的痛点,破解健康医疗服务的难题,通过全要素、全流程、全链条的系统优化,实施覆盖全人群、全生涯、全维度的全域照护,实现优质、高效、经济的价值医疗,打造全新的国家大健康生态体系。
2.7 其他领域
除此之外,数据挖掘技术还能够运用在网络安全的未知威胁检测之中。通过混合算法对模型进行检测,在网络安全未知威胁检测中发挥数据挖掘技术效能。首先使用KDD CUP99 中的数据对入侵的检测进行分析,并且对数据之中的484 027 条网络链接数据进行选择,然后根据网络之中的32 个特点,对484 027条网络链接数据中随机选择的6 000 条数据内容进行异常检测。在检测之前,首先对数据开展分散化处理,处理之后的数据就可以使用决策树混合算法,形成规则库。然后把最小支持度设置为0.4,置信度设置为100%。实验结果表明,关联规则和决策树的混合算法对异常数据的检测准确率达到了97.23%,说明采用这种方式进行网络安全未知威胁检测能够起到较好的效果。
3 结语
数据挖掘是一个对海量数据“沙里淘金”的过程,它能将多元、异构的信息转化成可以直接运用的知识和商业价值。随着我国信息科技的飞速发展与数据技术的创新突破,互联网之中的数据越来越多,数据挖掘能够有效地对数据之中存在的问题进行处理。综合以上分析能够得知,数据挖掘技术对我国的各行各业都能够起到重要的作用,能够有效提升各行各业的运营效率,改变其工作模式,推动我国经济快速发展。