APP下载

大数据时代的数据挖掘技术与实践

2021-02-26张鹏

中国新通信 2021年22期
关键词:数据挖掘技术应用实践大数据时代

张鹏

【摘要】    结合时代背景,各行各业都随着大数据技术的发展得到便利,随着大数据时代的来临,数据应用及数据共享得到迅速发展。在当前阶段,数据蕴含重要价值。而如何将数据价值挖掘出来,使其得到充分利用是重点思考内容,数据挖掘技术的发展为此问题地解决提供巨大支持。在此结合实际情况,探究大数据时代下数据挖掘技术具体内容及应用实践,以期为我国的社会发展提供些许参考。

【关键词】    大数据时代    数据挖掘技术    应用实践

引言:

随着人类文明发展,信息化、自动化、智能化成为发展方向,信息技术和大数据技术得到广泛应用。越来越多的行业着眼于时代发展,并结合社会变化,尝试探究现代化社会面临的挑战和困境,从而针对性的提出应对策略。无数企业结合数据挖掘技术,综合探究行业发展规律及市场需求变化,从而全面调整自身综合实力。此外,结合数据筛选技术实现海量数据科学化筛选,可进一步梳理分析相关信息内容,从而深度挖掘数据蕴含的价值,为企业实现高效管理以及科学决策夯实基础。

一、大数据时代数据挖掘技术具体内容阐述

数据挖掘技术在20世纪80年代逐渐得到发展,其最初主要应用于人工智能技术相关的产品开发和活动中,此时期相关技术手段尚未成熟,很多设施相对落后,与先进新时代的人工智能有较大差别。在大数据时代背景下,人工智能技术与数据挖掘技术的应用有紧密联系,通过先进技术手段,借助机器的深度学习能力,从而实现对复杂、不可控、无规律的数据信息进行深层次挖掘,从而获得数据信息隐藏的信息内容[1]。从技术角度分析,数据挖掘技术可深度挖掘信息数据潜藏的线索及内涵,在当前大数据时代,为企业发展提供更多助力。具体来讲,数据挖掘技术主要针对随意性较强、信息内容较为模糊的数据进行处理,从而实现更为精确的深层次数据价值分析。通常来讲,数据挖掘是一项繁琐复杂的过程,其具体运作流程环节复杂繁琐,随着实践研究,目前有多种方法。例如统计分析方法、遗传算法、神经网络方法等,这些方法各有特点。

二、大数据时代常见的数据挖掘方法详细阐述

2.1统计分析方法

数据库中的字段之间存在两种关系,其一是可以通过函数公式表示出具有明确联系的关系,其二是虽然字段项之间可以具有确定性,但不能用函数公式表述出来。因此结合数据库中的字段项关系内涵,将具有确定性且可用函数公式表示的认定为函数关系,只具有确定性但不能与函数公式表示的认定为相关关系。具有明确的判定标准后,便可以借助统计学原理分析方法对符合上述两种关系的信息数据进行分析,例如借助统计学原理对数据内容进行求和、最大值、最小值、平均值等内容的计算,或者借助回归方程来表述数据之间的数量关系等,通过这些统计学方法对数据进行深度挖掘,将信息数据看作样本,进行统计学计算,从而根据数值差异等来体现深层次信息的方法。

2.2遗传算法

此种方法是当前有效进行数据挖掘的方法之一,目前以此种方法为基础开发的数据挖掘工具应用面较广,“数据挖掘工具”的价值明确展示了此种方法在数据挖掘中具有实际价值。所谓的遗传算法是一种以生物自然选择和遗传机理为基础开发的随机搜索方法,其具有高度融合性特点,经过实践探索,目前与神经网络、粗集技术等融合性发展较为流行,受到社会大众广泛青睐[2]。

2.3神经网络方法

与其他数据挖掘方法进行比较发现,神经网络方法十分适用解决数据挖掘问题,因此在进行数据挖掘工作时,也是较为受欢迎的方式之一。此种方法具有自适应性及容错性高等特点,且此种方式还可以支持并行处理运作,因此,在现今社会是数据挖掘研究中重点关注内容之一。

2.4粗集方法

粗集方法的基础依据是集合论,其是一种基于数学理论形成的数据挖掘方法,由于数学理论的特点,此种方法难以处理数据连续属性。具体来讲,在需要获取信息表的连续属性时,需要采用其他方法进行配合才能准确、全面的得到所求内容。此种方式局限性较为明显,但同时也具有明显的优点,借助粗集方法不需要得到额外信息便能进行数据挖掘,可适当简化信息表述度,缩减表达空间,最后此种方法操作简便,应用难度较低。基于此,粗计算法也在数据挖掘工作中占据一席之地,受到部分人群青睐。

2.5决策树方法

此种方法主要利用决策树来对数据进行描述,此种方法深刻体現了决策树的优点,例如分类速度快、方法简便、可以支持大量数据处理等,此种方法自从出现以来,以Quinlan提出的基于信息熵的ID3算法影响力最大,在其之后经过实践探索,Schlimmer和Fisher又在ID3算法的基础上设计了ID4递增式学习算法,新设计的ID4算法很好的补充了ID3算法中的漏洞,使得此种方法应用效果大幅度提高。

2.6聚类分析方法

所谓的聚类分析方法是在进行数据信息挖掘过程中,结合数据类型等特点将其划分为多个类似组别,然后在对不同组别进行详细分析。此种方法一定程度上大幅度提高了各组别数据内容之间的关联性。此种方式十分适合应用客户群挖掘等方面。目前我国的心理学、医学等多个领域广泛应用此种模式挖掘可用信息。

2.7关联分析

自然界中各事物运行具有一定的联系,这一特征可作为数据挖掘的入手点,不同数据由于分类标准区别会具有千丝万缕的联系,所以可充分借助不同数据之间的联系判断集合与对象集合之间的因果关系,从而深度探析可能存在的问题和不足,此种方法可用于企业产品优化工作方面,可通过探究商品和消费者之间的关系,从而督促企业改良产品特性,进而实现效益提升目标。

2.8特征分析方法

特征分析方法主要是从数据库中选出一组数据,并结合此组数据具体内容筛选出关键词,然后以关键词代指整组数据进行深入分析,以关键词分析结果代指整组数据的特点。此种方法可有效缩减数据处理时间,并降低工作人员压力,但应用此种方法时也存在很多不足,例如关键词选择存在误差,无法代表整体数据,这会导致数据挖掘的准确度下降。此种方法目前多用于建筑领域,建筑企业借助特征分析方法结合以往数据从而判断出问题所在,这可为企业发展带来更多助力。

三、数据挖掘技术具体流程

3.1合理收集所需信息数据

结合数据分析的具体目的,选择最优信息采集方案,并得出数据分析的具体详细特征,将这些内容准确输入信息库中,做好数据挖掘准备工作。

3.2结合实际进行数据集成

信息收集完成后,将不同渠道、不同属性、不同格式以及不同特征的数据进行整合,结合一定标准实现数据有机結合,从而构建高效的数据共享。

3.3灵活运用数据规约技术

企业运营过程中灵活借助数据规约技术可有效缩减数据空间。此技术应用后,可对企业原始数据的庞大信息数据进行整合,在保证完整的前提下,尽可能缩减原油数据体量[3]。

3.4“无用”数据高效清理

数据库中会收录大量的信息数据,这些数据中一部分内容由于多种因素影响具有“特殊性”,例如数据不完整、数据信息属性存在错误内容、数据信息重复等,这些信息在数据库汇总不仅不能发挥价值,反而影响数据库正常运作,因此应采取合适的方法进行数据清理,从而确保数据库中的信息具有“真实”价值。

3.5合适方法进行数据变换

为了方便数据挖掘,需要对数据库中的信息数据格式进行调整,采用合适方法将数据内容转换成适合数据挖掘技术应用的格式。现今常用的数据转换方式主要有平滑聚集、数据概化、规范化、概念分层及数据离散化等方式实现合理转换。

3.6结合目标选择分析工具

正式开展数据挖掘之前,应结合数据库中的信息数据以及信息挖掘目的选择最佳分析工具,综合考虑各方面内容,合适选择最适宜的处理方法落实数据挖掘工作。

3.7模式评估以及信息公示

针对某一目标进行数据挖掘后,针对获得的结果不能直接进行应用,需要邀请具有丰富经验的行业专家进行检验,对得到的数据信息进行科学验证,从而确保得到的结果真实可靠,具有参考价值。确定数据的真实性后,可将数据挖掘信息以可视化的方式向大众展示,便于用户应用。也可将这些信息作为新内容保存于数据库中,方面信息数据进行共享。

四、大数据时代的数据挖掘技术应用实践

4.1在科研领域的应用

科学研究活动开展过程中,几乎任何成功的科研成果都需要经过多失败的打磨才能得到,尤其是实验类成果,需要经多大量实验的验证才能得到准确数据,因此对于科研领域而言,数据具有重要作用。但具体来讲,这些数据包含大部分内容,有最开始的原始资料数据、失败数据、实验数据等多种内容,这些数据的处理效果与科研活动成败有紧密联系,此过程中进行的数据处理不仅需要分析彼此之间的关系也需要进行统计学分析。因此,利用数据挖掘技术可协助科研人员以科研项目基础数据为参照,然后快速实现需求数据深度挖掘,可大幅度降低科研人员的工作量,缩短数据分析处理时间[4]。

4.2在电信领域的应用

随着计算机网络飞速发展,电信产业得到迅速发展。电信企业发展过程中需要以海量数据作为基础,通过分析数据内容才能更为合理地调整服务内容,为客户·带来更优质的服务。利用数据挖掘技术可实现相关数据条理化处理,确保用户信息得到全面地记录和了解,尽可能规避服务过程中出现意外。因此,合理利用数据挖掘技术可助力电信企业更为精准地抓住用户需求,为大众带来各加贴心的服务。

4.3在教育领域的应用

现代化教育工作开展过程中,各种先进技术得到大面积应用,对学生情况的掌握程度也得到大幅度提升。在中学阶段,学生的成绩、在校表现情况等,均包含在收集信息内容之中。应用数据挖掘技术,可更为准确的理清学生各项素质情况,通过此种方法,可快速得到结果,为学校教师及管理层的工作提供参考。

4.4在制造业领域的应用

随着社会发展,我国综合国力得到质的飞跃,人们生活水平大幅度上升,与此用时,对产品的质量和性能等提出更多要求。制造业领域中,企业想要实现稳定发展,消费者需求是关键。通过数据挖掘技术科学地对产品数据进行分类整理,并采用合适的方法进行深度分析,从而得出市场产品的优缺点,以此为依据合理进行产品优化,这对于制造企业而言有实际意义。

4.5在医疗领域的应用

随着人们生活水平地提高,大众对自身健康安全关注度有了显著提高。在此种背景下,医疗行业得到迅速发展,医疗水平逐渐发达,但精确诊断疾病依旧是难点。通过数据挖掘技术可有效提升疾病监测准确度,帮助医生等快速确定病人病情,实现高效、准确诊断。此种方式不仅能帮助医生降低不必要的劳动量,也能提高医疗诊治效率,在有限的时间内帮助更多的病患恢复健康。

4.6在计算机安全领域的应用

现阶段,网络技术得到迅速发展,但与此同时网络安全也成为重点问题。越来越多的不法分子借助网络虚拟性特点隐藏自己,这为大众财产安全带来极大威胁。借助数据挖掘技术可实现对网络存在隐患的软件等进行筛选和甄别,有效预防“病毒软件”和“钓鱼网站”威胁,帮助网络民众营造更加安全、和谐的网络环境。

五、结束语

在大数据时代背景下,数据挖掘技术有重要价值,其在多个行业领域得到应用。结合具体情况来看,合理应用数据挖掘技术成为社会发展必然趋势,积极探究数据挖掘技术的内涵及应用方法,可为我国社会发展提供坚实助力。

参  考  文  献

[1]李玉玲.大数据时代下数据挖掘技术的应用[J].计算机与网络,2020,46(24):46.

[2]张博.大数据时代的数据挖掘技术与应用[J].数字技术与应用,2020,38(12):35-37.

[3]郭伟伟,吴文臣,隋亮.大数据时代的数据挖掘技术与应用[J].数字技术与应用,2020,38(08):103-105.

[4]谢盛嘉.大数据时代背景下数据挖掘技术的应用研究[J].计算机产品与流通,2020(05):128.

猜你喜欢

数据挖掘技术应用实践大数据时代
基于Web的数据挖掘技术与相关研究
大数据背景下疫苗制造业的财务共享应用实践
问题导学法用于初中数学教学的实践探究
大数据时代下图书馆的服务创新与发展
大数据时代高校学生知识管理
从“数据新闻”看当前互联网新闻信息传播生态