“互联网+”时代下数据挖掘技术在软件工程中的应用研究
2021-12-03王彬彬
王彬彬
(阜阳幼儿师范高等专科学校基础教学部,阜阳 236000)
随着信息技术和云计算技术的快速发展,“互联网+”这一新概念的产生引起了社会公众的广泛关注和讨论。 目前,随着我国社会经济的不断进步,互联网所囊括的内容逐渐完善,衍生了许多新兴技术,“互联网+”时代已经来临。 在当前时代背景下,传统数据处理技术无法实现海量数据的存储和传递,已不能满足现代化数据处理的要求,更无法解决软件工程开发与应用过程中数据传输不稳定的问题。 数据挖掘技术能够实现海量有价值数据的提取、存储和整合,剔除无效信息,确保数据来源的安全性,有利于软件工程中软件开发、项目管理等各项工作的开展,具有现实性意义。
一、数据挖掘与软件工程数据的基本概念
数据挖掘技术实际上就是一种现代化信息处理技术,具备数据转化、数据处理、数据分析等功能,凭借独特的优势已广泛应用于各个领域。 现阶段,很多互联网企业由于缺乏对数据挖掘技术的理解,仍使用传统信息处理技术来处理数据,导致信息处理效率低下。 数据挖掘也就是收集数据的整个过程,应用于软件工程中能够借助其驱动分析技术实现数据验证,筛选出符合条件的相关数据。 可以说,数据挖掘采用了一种发现驱动分析数据机制,能够实现对海量数据的价值分析,最终挖掘出有价值的数据。 在软件工程领域应用数据挖掘技术不仅能为软件研发提供依据,提高信息处理效率,还能对开发产品进行修正,促进企业稳定发展。
软件工程数据是指在软件研发过程中各种算法的运算所产生的系统数据。 运用这些系统数据可以对软件内部进行测评,维护软件正常运行。 这些信息是软件研发人员测评软件采用的最安全的方式,通过算法来获取数据不仅能保证数据的完整性,还能维护软件正常运行。
二、数据挖掘过程及其在软件工程中的应用意义
(一)数据挖掘过程
数据挖掘过程是一系列算法与程序的综合运算过程,复杂度高、运算量大。 其流程包括数据预处理、数据挖掘、数据整合。 在处理大规模数据时,任何软件的运行都需要具备强大的运算后台来维护数据的安全性和稳定性。 价值信息的提取实际上就是对数据的二次选择。 在数据预处理环节,主要运用合适的算法对原始数据进行识别和转化,预处理后的数据可供用户直接获取或使用。 数据收集,即数据的吸收,经过前期对数据的预处理,确保数据是安全可靠的。 用户获取数据后可结合实际需求对数据进行删除或存储,进而提升用户的体验感。
(二)数据挖掘技术在软件工程中的应用意义
1.有利于信息的正确录入
运用传统信息处理技术处理数据的过程中,由于数据量庞大,运算系统往往会崩溃,耗费大量时间,而运用数据挖掘技术开展数据处理工作不仅能够解决这些问题,还能提高运算效率,保证数据采集的准确性和有效性,更不会出现数据破损、丢失等问题,能够有效提升数据的完整性。 在海量数据资源中,数据分布杂乱、种类繁多,存在一些无使用价值的垃圾数据,在进行数据处理时会将所有原始数据存储在数据处理系统中,从而导致系统运算效率降低,而采用数据挖掘技术能够有效剔除其中的垃圾数据,将目标数据准确提取出来,保存在数据系统中,提高数据整体质量。
2.有利于各项信息的了解
传统信息处理技术所具备的功能都包含于数据挖掘技术之中。 数据挖掘技术通过采集原始数据,对数据种类进行识别,从而进行分类管理。 在整个数据采集过程中,如果涉及的范围够大,那么可以通过分析数据特征,建立全面的数据管理平台,为用户提供便捷、快速的数据查询服务。 将数据挖掘技术应用于软件工程,实现了数据资源的整合,有利于企业深入了解并掌握各种数据,为企业决策提供有价值的依据。
3.有利于节省数据处理时间
利用数据挖掘技术处理数据的过程中,能够将杂乱无章的数据转换成试用形式,用户通过数据处理系统能够直接进行调用。 在软件工程中运用数据挖掘技术,能够自主实现分析功能的选择,对原始数据进行处理、清洗,确保提取的数据能够有效应用于软件开发或项目管理中。 整个数据分析环节看似简单,但实际流程十分烦琐,需要对数据的真实有效性进行多次反复验证,直到提取出符合条件的运算结果为止。 与传统信息处理技术相比,数据挖掘技术应用于软件工程领域中有利于提升数据质量、节省数据处理时间。
三、数据挖掘技术在软件工程中的应用范围
(一)软件研发
软件工程是一门工程学科,其工作流程为根据用户的实际需求和项目资金、项目指标开发出相应的产品。 在传统的软件工程开发模式中,产品研发流程十分烦琐,但随着社会需求的不断变化,软件工程已普遍应用于各行各业中。 在软件工程中应用数据挖掘技术,可以借助其强大的数据存储功能,保存大量具有探究价值的数据,对于软件工程项目研发具有重要促进作用。 软件工程通过将研发过程中涉及的系统数据进行处理、整合,以实现数据的实时更新,提高软件研发质量。 目前,软件研发中通过数据挖掘实现了软件内部的划分,为用户查找并处理相关问题提供了便捷,有利于研发目标的顺利实现。 开源软件是指可供用户免费试用的软件,还可以为用户提供源代码,其缺点在于管理难度较大。 随着数据挖掘技术与软件开发的融合,软件呈现出多元化的特征,开源思想逐渐形成,Web 软件开发呈现大众化发展趋势。 开源软件研发是一个动态、开放的过程,导致数据挖掘难度大幅度提升,而利用数据挖掘技术能够有效提高软件研发效率,便于进行软件管理。
(二)结构与程序代码
在结构与程序代码应用中,数据挖掘技术的使用价值主要体现在克隆代码检测上,也就是根据软件工程相关标准,实现代码的复制粘贴,然后结合实际情况对复制的代码进行修改、管理以及检测,预防错误代码的传递,维护系统正常运行。 现阶段,克隆代码检测主要有文本对比、标识符对比、程序结构、语义应用和索引四种方法,每种检测方法的评估与诊断形式各不相同,在软件工程中应结合实际情况选择合适的检测方式;其次,数据挖掘技术通常会应用于横切关注点中,在横切关注点的程序也有类似的代码或者是相同的代码。 在软件工程中运用该技术能够实现系统的改造,提供多种问题处理方式,但这些方法必须重新构建选集才能实现对横切点挖掘问题的处理。 软件工程数据十分复杂,在数据挖掘技术的应用上难度较大,虽然我国对该技术的应用更多体现在数据库上,但想要找到相似的代码,还需要有效应用聚类技术,为数据挖掘技术的发展提供空间。
(三)软件项目管理
在软件项目管理中应用数据挖掘技术可以从版本控制信息挖掘和组织关系挖掘两个方面入手。软件项目管理流程较为烦琐,且具备较强的系统性,对组织关系结构标准要求较高,挖掘出明确的组织关系是实现信息资源灵活调用的关键。 在软件项目管理过程中,可利用数据挖掘技术对项目管理所涉及的邮件信息或文件信息进行挖掘,找出项目参与人员之间的关联,生成对应的组织关系,避免出现管理混乱的情况,保证软件项目管理活动顺利有序开展。 软件项目管理中的版本控制信息反映了文件内部信息的实际变化情况,运用数据挖掘技术对其进行管理,有利于减少系统维护成本,充分体现信息披露情况,提高软件项目管理水平。
目前,软件工程融合了多项学科,已发展成一门综合性学科,涉及的知识和技术越来越复杂。 企业在软件开发过程中不仅要注重开发产品的创新性,还要注重软件项目管理方面,包括项目参与人员、项目经费、项目研发进度以及控制信息的变化等内容。
(四)软件故障检测
在软件工程领域中,数据挖掘技术的有效应用有利于检测软件故障。 软件故障检测的主要内容包括数据收集、转化、处理、采集和选取,还包括各项软件测试项目。 软件故障检测的前提是,选择合理有效的软件数据,利用数据挖掘技术挖掘有效数据并对其真实性进行验证,经过一系列整合与训练操作后,对软件存在的漏洞或缺陷进行定位、识别及描述。 在软件开发过程中,参与人员会对程序运行情况进行记录,保证后续工作中数据挖掘环节的正常开展。 软件运行过程中,难免会受到内部与外部环境的影响而存在缺陷或漏洞,使用传统故障检测技术虽然能够解决故障检测问题,但该方法处理效率较低,且效果不佳。 而采用数据挖掘技术能够实现对代码定位,快速找出故障原因,及时进行处理。 比如,针对发动机的稳态故障问题,利用数据挖掘技术能够有效集成引发故障的所有因素,构造故障因素参数集合,通过观察参数的变化情况,根据变化情况分析其存在的规律,从而判断发动机是否存在故障。
四、数据挖掘技术在软件工程中的应用对策
(一)强化软件开发数据技术
软件工程项目能够顺利、高效进行,取决于企业对数据挖掘技术的有效应用。 首先,企业必须加强对数据挖掘技术应用价值的认识,深入了解并掌握该技术中涉及的编程知识,同时对软件项目给予高度重视,确保软件工程各项流程和系统数据是规范合理的。 在代码库选择环节,企业应严格控制软件项目的研发成本,结合代码关键词生成相应的体系,根据数据之间的重载、调用关系,找出具有关联的、可靠的目标数据,以满足其实际需求。 此外,根据挖掘目标设置静态代码,确保数据的存储功能最大化。 如果出现代码缺失,则进一步对测试代码进行检测,针对检测结果制定相应的处理策略,提高系统整体框架的完整性以及合理性。
(二)强化性能数据挖掘技术
将数据挖掘技术应用于软件工程中时,企业可以通过构建现代化体系来指导软件开发工作的开展,提升软件研发质量,并利用静态网络模型及系统网络框架为软件开发中链结构的建立提供依据,提升数据查询效果。 同时,还要加强对软件工程实际效果的评估,重视病毒处理工作,确保软件开发各个环节中数据的时效性,通过实现各项功能的整合,从而促使软件工程高效、稳定发展。 除此之外,在整合缺陷项目时,必须建立相应的缺陷定位标准,保证缺陷评估工作能够顺利有序开展,同时确保评估分析结果的真实性、合理性。
(三)提高软件维护数据挖掘水平
软件的长期稳定运行需要具备安全、可靠的维护技术。 在软件维护过程中,必须严格按照工作流程及维护标准来开展维护工作,确保修复项目及框架的全面性,尤其是缺陷处理上,必须确保软件处理与维修的质量,提升维护效果,实现对软件管理、软件研发环节的综合处理。 利用实时跟踪的形式,检查所有工作体系是否全面落实,并且在代码复用的情况下,实现对网络模型的合理划分,以确保软件功能、软件结构的作用得以充分发挥,为软件故障检测和数据处理等环节提供完善的依据。 还可以借助数据挖掘技术的整合功能,对数据处理流程及工作体系进行完善,提高软件工程整体效率及质量。 但在应用数据挖掘技术时,必须结合实际模型来对关联数据进行整合,保证数据描述相关性和定位信息的完整性,确保软件安全,及时发现软件漏洞并对其进行处理。
(四)优化挖掘开源软件
目前,开源软件是软件工程中常见的开发项目之一,挖掘开源软件技术的应用具有较大优势。 与传统软件不同,开源软件的研发过程具有动态性、开放性、全局性等特征。 因此,在开源软件研发过程中,必须对软件进行类型划分,对不同类型的软件采取对应的分析方法、研发理念以及管理对策。比如:在开发开源软件时,其开发环境是开放性的,那么研发人员应该根据实际情况,进行多次改变,让其置身于改变环境中;针对全局性的特征,开发人员应根据实际情况进行记录,为后续网络形成营造良好的条件;针对动态性的特征,开发工作人员应该具备较强的管理能力和专业素养,保证开发过程的严谨性、科学性。
四、结语
在软件工程中应用数据挖掘技术,能够进一步改善数据烦琐导致的数据挖掘困难问题,促进软件工程的可持续开发。 同时,数据挖掘技术在程序代码中的应用有助于提高程序代码的可重复性,在故障检测的应用中能够加强两两对比的频率,进一步确保故障检测的精确度。 要想有效将数据挖掘技术应用于开源软件开发,就必须加强开源软件的科学管理与控制,了解人员组织关系与版本控制信息,从而有效发挥项目管理作用。