计算机数据挖掘技术的开发及其应用分析
2022-11-26南阳市中心医院孟维成
南阳市中心医院 孟维成
本文首先对大数据技术、大数据需求、数据挖掘技术相关概念简要叙述,然后从传统方法、常用算法、轴线型数据挖掘法、环形数据挖掘法、决策树数据挖掘法、可视化技术、数据联机处理、决策树与神经网络等方面阐述计算机数据挖掘技术开发技术。最后从市场、电信、金融、人事、档案、安全、教育、开发、科技等领域阐述计算机数据挖掘技术的应用方向。
计算机数据挖掘技术极大地提高了人们的生活质量,满足了人们对物质和精神需求,推动了社会的进步和发展。但是计算机数据挖掘技术也会对人们的生活带来一定的困扰,人们的隐私安全在计算机数据挖掘技术下无法得到保障,因此计算机数据挖掘技术这把双刃剑必须得到合理应用。
1 计算机数据挖掘技术概述
1.1 大数据技术
大数据或称巨量资料,指的是所涉及的资料量规模巨大到无法透过目前主流软件工具,在合理时间内达到撷取、管理、处理、并整理成为帮助企业经营决策更积极目的的资讯。大数据具有大量、高速、多样、低价值密度、真实等特点,大数据技术可以掌握庞大的数据信息,并且对这些数据进行专业化处理,最终实现数据增值盈利,信息化时代下大数据技术的重要性还会逐渐提高。
1.2 大数据需求
大数据需求必须以用户为中心进行分析,以企业用户为例,企业必须通过市场挖掘潜在客户,然后通过市场操作和商业谈判获取经济效益,大数据技术在企业中可以发挥出信息数据收集分析的作用。企业在市场操作和商业谈判过程中必须对合作伙伴、竞争对手、市场行业发展方向详细了解才能作出正确决策,大数据技术可以在此过程中信息统计汇总的方式得到准确调查结果。这样企业管理人员才能对市场发展方向加深了解,最终企业才能研发出合适的产品,为企业创造更大经济效益。
1.3 数据挖掘技术
数据挖掘是指从大量的数据中通过算法搜索隐藏于其中信息的过程。数据挖掘通常与计算机科学有关,并通过统计、在线分析处理、情报检索、机器学习、专家系统(依靠过去的经验法则)和模式识别等诸多方法来实现上述目标。数据挖掘技术可以将大量数据转换成有用的信息和知识,并将其广泛用于商务管理、生产控制、市场分析、工程设计和科学探索等领域中。
2 计算机数据挖掘技术开发技术
2.1 传统方法
计算机数据挖掘技术开发使用的传统方法包括抽样分析法、多元统计分析法、统计预测法等,抽样分析法通过抽样分析降低数据挖掘工作量,但是最终得到的数据分析结果与总体结果差异不大;多元统计分析法通过对复杂结构和较高维数的因子和数据进行分析,最终得到比较科学准确的数据分析结果;统计预测法主要通过回归分析和序列分析预测数据发展规律,为相关人员提供参考。
2.2 常用算法
计算机数据挖掘技术开发常用算法包括回归算法、分类算法、聚类分析、神经网络方法、关联规则和Web数据挖掘,这些算法具有高效性、优越性和全面性,能够使用当前计算机数据挖掘技术的各个应用方向。回归算法主要分析数据之间的规则或者相似性;分类算法主要根据数据属性之间的不同之处对其进行分类;聚类分析主要根据数据属性之间的相似处对其进行分类;神经网络方法通过集中测试对数据进行处理;关联规则通过数据之间的联系进行数据处理;Web数据挖掘通过网页收集各类数据。
2.3 轴线型数据挖掘法
计算机数据挖掘技术开发中,轴线型数据挖掘法指的是按照轴线总结数据挖掘信息输入、信息处理、信息研究、信息输出各个流程,其中信息输入在轴线型数据挖掘法中作为起点,信息输出在轴线型数据挖掘法中作为终点,从起点到终点即可完成数据挖掘。轴线型数据挖掘法的优点是时效性强、技术原理简单、操作便捷,但是该技术没有对挖掘的数据进行分类,因此数据挖掘时间过长是该方法的缺点,总体来说轴线型数据挖掘法在开发中的应用比较普遍。
2.4 环形数据挖掘法
计算机数据挖掘技术开发中,环形数据挖掘法指的是将信息输入、信息处理、信息研究、信息输出各个数据挖掘流程与实时操作联系起来,将每个数据挖掘流程分别打造成不同的数据挖掘闭环,最终信息输出流程可以得到相对精准的信息数据。环形数据挖掘法的优点是持续性强、目标性强、数据挖掘效率高,但是该方法的环形数据挖掘流程相对于轴线型数据挖掘流程来说更加复杂,因此该方法的缺点是对开发技术人员的要求较高且实际应用可行性低。
2.5 决策树数据挖掘法
计算机数据挖掘技术开发中,决策树数据挖掘法指的是按照决策树统计分类方法对体量庞大的数据进行挖掘,该方法中包括了对其他计算统计方法的应用,否则无法得到科学准确的分类结果。决策树数据挖掘法的优点是可以处理体量庞大的数据,而且能够直接利用统计方法对数据进行挖掘和分类,数据挖掘的目标性比较强,但是该技术对计算机技术的依赖性比较强,目前计算机技术仍然在不断发展,未来该技术仍然较大进步和发展空间。
2.6 可视化技术
计算机数据挖掘技术极大地提高了可视化技术的应用效果,可视化技术可以通过图表等更加直观的方式将数据特征完全展现出来,给人带来更加强烈的视觉感受。而计算机数据挖掘技术本身无法将数据特征展现出来,只有将该技术与可视化技术相结合,才能提高可视化技术和计算机数据挖掘技术的效率,进而充分展现二者的优势,因此可视化技术在计算机数据挖掘技术开发中的使用比较常见。
2.7 数据联机处理
计算机数据挖掘技术可以极大地提高数据信息处理效率,当数据挖掘过程中遇到体量庞大的数据时往往效率不如人意,此时可以通过数据联机处理充分将计算机的数据处理能力利用起来,以达到提高整个数据挖掘技术数据效率的目的。正常情况下,只有计算机数据挖掘技术数据体量庞大时才会采用该种方法,该方法的使用对计算机的协同性具有较高要求,因此数据联机处理并不会对数据处理效果造成负面影响。
2.8 决策树与神经网络
计算机数据挖掘技术开发可以将决策树与神经网络算法共合使用,决策树是一种数据整合和分类的高效统计方法,神经网络可以通过输入层、隐藏层和输出层得到较为科学准确的数据,决策树与神经网络下计算机数据挖掘技术可以通过分析数据属性与数据值之间的映射关系,凭借决策树的分类优势实现数据的单一输出。目前该技术在计算机数据挖掘技术开发中比较常见,研究人员可以通过决策树与神经网络对数据进行预测分析。
3 计算机数据挖掘技术的应用方向
3.1 统计分析技术
计算机数据挖掘技术在市场领域中可以使用常用传统方法中的抽样分析法和多元统计分析法,基于以上两种计算机数据挖掘技术可以分别对用户的搜索行为、连续访问网页行为、交易行为进行分析,然后根据数据统计结果即可分析出用户的购物需求,最后根据环形数据挖掘法不断为用户推荐商品数据,直到用户完成交易。在信息化时代下,企业经营管理面临的风险比较大,如果企业不能与时俱进提高计算机数据挖掘技术效果,则在市场竞争中必然处于不利地位。
3.2 信息识别技术
电信企业可以基于环形数据挖掘法对客户欺诈进行识别、对客户流失进行预测、对客户进行细分、辅助完成交叉捆绑销售。客户欺诈识别需要先基于用户属性信息、企业服务内容、客户消费数据等信息构建欺诈关联模型,通过量化欺诈及时发现恶意欠费的客户;客户流失预测需要根据用户的历史行为数据构建忠诚度评估模型,判断用户是否会转投其他电信运营商;客户细分需要通过对用户地位、使用率、使用场合、忠诚度、购买态度等信息进行挖掘,进而进行针对性营销;交叉捆绑销售可以对用户的消费特征进行提取,如果用户消费特征与其他套餐重合,则可以对该客户推销对应套餐。
3.3 聚类分析技术
计算机数据挖掘技术在金融领域可以采用常用算法中的回归算法、分类算法、聚类分析、神经网络方法对目标市场客户进行分类与聚类分析,然后通过数据处理转换以及人工智能数据挖掘得到该用户的金融产品使用频率信息,最后根据忠诚度模型判断用户是否会流失,若用户存在流失可能则需要通过特征提取寻找相似的用户进行替代。除此之外,金融领域还可与基于多维数据分析和数据挖掘设计技术构造金融数据库,对负债和收入等数据仓库、数据特征、数据立方体进行孤立点分析,推动金融数据仓库的构造。
计算机数据挖掘技术在人事领域可以为人才匹配合适的岗位,首先各类招聘软件企业可以基于环形数据挖掘法不断提取各个企业岗位的特征和人才档案关键词,然后不断使用聚类和分类算法对人才和岗位进行匹配,若始终无法匹配成功则对其他关键词特征再次提炼,直到人才和岗位匹配成功,最后将人事信息储存到数据库。如果该网站发现该人事简历再次启用,则重新提炼档案关键词,持续利用决策树与神经网络算法为其推荐更加优质的企业岗位信息。
计算机数据挖掘技术在开发领域可以基于抽样分析法和多元统计分析法分析开发系统所需要的功能,然后确定开发系统的框架、算法、数据库架构技术,若采用神经网络架构则可以将开发系统分为输入层、隐藏层和输出层,最后基于网络神经算法和决策树算法构建开发系统数据库,这样根据提取的特征即可分别实现开发系统的各个功能。
3.4 信息检测技术
计算机数据挖掘技术在档案领域对数据信息处理效率具有较高要求,因此可以基于数据联机处理计算机数据挖掘技术提高对档案的处理能力。档案数据体量非常庞大,而且档案数据量基本只增不减,因此必须采用数据联机处理此类协同性和处理效率都比较高的计算机数据挖掘技术。但是档案领域对计算机数据挖掘技术的保密性也具有一定要求,因此档案领域必须设置检测模块,利用档案录入计算机设备接口对档案信息安全性进行审计。其中涉及到档案特征的提取,如果档案特征与档案数据库中的病毒数据库信息一致则会发出对应警报。
3.5 病毒防御技术
计算机数据挖掘技术在安全领域可以用于网络病毒防御,企业必须在利用计算机数据挖掘技术收集处理数据的同时,做好网络病毒防御工作,防止企业自身关键数据泄露。技术人员可以基于轴线型数据挖掘法和环型数据挖掘法构建病毒预防流程,首先使用嗅探器、解码器对网络信息数据进行预处理,然后使用异常分析器对网络信息数据是否安全进行判断,如果受到攻击则记录未知攻击日志,并使用特征提取器提取病毒特征,最后完善规则库对具备该特征的病毒进行预防,若再次受到已知攻击则发出报警信号。
3.6 数据预测模型
计算机数据挖掘技术在教育领域可以基于神经网络算法、决策树、回归分析、聚类分析建立教育行业相关信息数据预测模型,对学生的学习成绩变动情况进行统计。其中贝叶斯分类和裁判分析也可以应用其中,用于对学生特征的提取,有利于分析学生的心理状态和消费情况,学生选课系统可以作为分析学生专业方向专业的依据,专业特征与学生行为特征一致时学生有很大可能选择该专业课程。
计算机数据挖掘技术在科技生产领域可以基于神经网络与决策树算法提取科学技术的参数特征,然后基于各个精度参数构建对应数据库,最后对生产出来的产品进行精度检测后将数据传输到神经网络算法的输入层,经过与隐藏层中的数据参数进行比对,最后即可在输出层输出精度参数是否符合要求的结论。除此之外,还可以通过该回归算法、分类算法、聚类分析等计算机数据挖掘技术分析精度参数数据不符合要求的原因,这样即可使用算法替代人工决策。
综上所述,计算机数据挖掘技术的重要性随着社会的发展越来越高,各个行业、领域对计算机数据挖掘技术的依赖性越来越强。因此,各个企业必须加强计算机数据挖掘技术的研究和应用,尽量利用该技术提高企业经济效益和市场竞争力,让企业决策管理水平得到增强,进而促进企业可持续发展。