基于人工智能的大数据分析方法
2023-09-14天津航天长征火箭制造有限公司石杉郑伟李晓鹏
天津航天长征火箭制造有限公司 石杉 郑伟 李晓鹏
信息智能化技术的发展速度和衍生的各种技术工具成为社会转型发展的技术支持,尤其在大数据领域,人工智能技术的应用为数据采集速率、数据识别准确率等方面带来极大提升。基于此,本文对当前时代下大数据分析的重要性进行探讨,并围绕人工智能技术分析以此为基础的大数据发展网络技术设计,在掌握数据挖掘人物之后对大数据人工智能分析方法进行研究,具体包括及其学习、深度学习、计算智能等方面。
目前,大数据已经成为人类发展的重要经济资产,然而海量的数据仍对挖掘、分析和计算技术提出更高要求。人工智能技术作为大数据分析的重要方式之一,其深度学习、机器学习等技术均有效满足了日益复杂的大数据分析。因此,为拓展大数据分析的应用范围,优化大数据分析任务,以人工智能为基础研究大数据分析方法并掌握其技术要点是必要的。
1 探讨大数据分析的重要性
所谓大数据,指的是非结构化数据的集合,相较于传统数据管理工具,其具有鲜明的数据采集、存储与处理能力,在对其开展目标信息的提取工作时,必须通过处理海量数据方可实现。但是一旦有效挖掘数据信息,就能够获得大量的内在价值信息和科学知识,促进数字经济的快速发展。新时期下,新媒体技术、移动通信网络几乎覆盖全球,数据信息无处不在,在经济发展方面,通过对产业、工业发展相关数据进行深入分析,能够为产业经济结构的调整提供有效支持;在制造方面,通过结合物联网、BIM等技术,能够为制造业转型和社会发展提供强有力的技术支持;在人们日常生活中,大数据分析的落实能够优化网络体验,得到更为人性化、智能化的信息获取体验。总而言之,大数据分析的重要性是显而易见的,它不仅体现在经济社会发展层面,也作用于人们的日常生活[1]。
2 分析以人工智能为基础的大数据发展网络技术设计
2.1 大数据网络扫描
大数据技术下的网络扫描主要是利用电子系统对相关数据信息进行准确识别、读取和记录的过程,从而能够针对那些尚未通过授权的信息数据实施综合检测,做好数据验证,提升数据信息安全性,但立足于人工智能技术层面分析,查询相关信息数据中存在较高难度,为此想要进一步处理该种问题,需要针对相关数据信息实施全面扫描。通过大数据对相关信息数据实施全面扫描,是对浏览数据实施定性分析和分类活动,整个操作中所用数据参数为分辨率,也是数据扫描关键。
2.2 大数据信息提取
提取大数据信息即通过人工智能技术平台对相关数据信息进行全面浏览,从中提取价值信息。现有数字技术是基于人工智能技术进行网络识别,相关操作思路如下,率先采集目标客户相关浏览信息数据,并对具体数据实施预处理,初步确定大数据属性特征,顺利过滤无用信息[2]。
2.3 数据分析方法
数据分析法主要包括聚类分析、特征数据分析、相关性分析和人工神经网络等分析方法,其中聚类分析法主要针对相似性采集信息数据实施有效分类和科学分组,促进相关信息按照分段形式展现。该种方法论尽管看起来是分析各种杂乱数据信息,结合分析目标对各种数据信息实施科学分组,并结合各种数据集内在联系提取有用信息,明确信息价值。在实施聚类分析中存在一定问题,数据具有个性化特征,导致数据统计无法进行合理分析,影响数据识别。人工神经网络分析即通过模拟大脑神经网络的信息存储、处理方法,对原本混乱、复杂的数据信息实施全面抽象分析,顺利接收计算结果,提取价值信息。比如基于数学模型形成的人工神经网络技术通过创建全新算法,将神经网络数值输入其中。采集各种数据信息中联系现实需求合理分析相关数据,通过数据分析保障人工智能技术合理应用。相关性分析即借助大数据对数据库内各种数据联系实施科学分析和揭示,借助相关性分析可以帮助针对所采集信息数据实施科学分析,深入挖掘处理各种隐藏信息,准确辨别隐藏数据唯一性,应用该种方法具有较高准确性和目的性,可以支持数据进行精准分析。
2.4 大数据属性确定
为进一步提高大数据识别简易性,需要在实施大数据识别中对相关搜寻数据信息进行完整、全面描述,但对于大数据识别网络的描述也具有重要作用。除此之外,因为大数据最终输出结果为基础数据集,需要对相关操作进行合理定义,进一步迎合广大用户多样需求。为此需要准确把握大数据识别主要数据来源。
2.5 建设大数据检测网络
基于人工智能技术诞生的大数据技术应用于大数据网络检测当中可以提高相关信息检验速度,提高传输数据安全性。对目标数据进行提取挖掘大数据属性特征,利用大数据技术来提取相关性,融合属性检测,实现预期数据检验目标,创建大数据挖掘系统。
3 研究以人工智能为基础的大数据分析方法
3.1 以机器学习为基础的大数据分析
对于人工智能技术而言,机器学习在大数据分析中的应用主要体现在4个方面,具体如下。
3.1.1 大数据聚类
将机器学习技术应用于大数据分析工作时,初步就是大数据聚类,只有这样才能保证数据分析结果的全面性,但是由于大数据聚类与传统聚类不同,其具有跨学科、跨领域的特点,所以以往的传统聚类算法难以直接应用。因此,当研究人员开展以机器学习为基础的大数据分析工作时,应对聚类算法进行优化,或是直接选择新型算法,其中,若是采用传统聚类算法,应先对现有数据进行阻塞与简化,然后通过计算结果重新组合的方式实现大数据分析,或是采用并行聚类算法,依托于计算机处理数据速度的提升实现经典大数据的分析。
从目前主流计算框架来看,Map Reduce作为常用的分布式计算框架之一,其主要方式是简化处理数据分块,然后将各个分块的分析结果进行合并,最终实现数据的并行化;或是以Hadoop平台为基础的K-means聚类算法,依托于Map、Combine、Reduce的划分实现自下而上的凝聚式层次聚类分析,强化文本类数据聚类时的准确性。除此之外,还有在Map Reduce的发展下,基于密度的聚类方法,即DB-SCAN,这一聚类算法分为4个阶段,阶段一为数据预处理;阶段二是局部DB SCAN;阶段三为合并集群获得;阶段四是全局集群处理,在依次落实处理环节后将其应用于轨迹聚类[3]。通过上述分析可知,不同的大数据聚类算法,其侧重点存在差异性,以Map Reduce为基础的大数据聚类算法主要是强化聚类效果,并对海量数据计算的复杂度进行有效降低;而K-means算法则注重大数据分析速度与性能的提升。而且,目前传统聚类算法优化研究也处于持续状态,尤其是面对越来越大的数据量以及难度不断提高的数据分析难题,通过采用并行聚类算法和改进传统聚类算法,是目前以人工智能机械学习为基础的,大数据聚类算法研究与发展的主要方向。
3.1.2 大数据关联挖掘
在面对海量数据查找任务时,主要采用关联挖掘对数据集合之间的关联、因果等信息进行查找与整合。目前,常用的关联分析算法有Apriori关联规则分析、FPGrowth关联规则分析等,但是在算法的实际应用过程中,传统串行算法将给I/O带来过大的负载,且数据关联挖掘时间成本较大,随着数据量的增加,需要查找的数据规模越来越大,对计算能力和存储容量的要求越来越高。因此,在算法实际应用过程中,可融入Map Reduce或Spark分布式计算框架,依托于分布式、并行化的处理优化,提升数据计算速度,从而使大数据关联挖掘得以广泛应用,比如日志分析领域、医疗疾病诊断领域、交通智能管理领域、数值分析领域等,极大地满足了多个社会行业对数据分析与利用的需求。
3.1.3 大数据分类
大数据分类也是数据挖掘的一种技术手段,因而与其他技术工具相同,分类算法丰富且先进。比如主要应用于非均衡数据的分类工作的,以Map Reduce为基础的随机森林算法,通过依托于决策树算法的并行化,能够有效加快最佳分裂属性的选择过程;再如结合了Mahout的随机森林,为实时检测点对点僵尸网络的工作提供技术支持。除此之外,还包括Map Reduce与K近邻分类器的结合应用等,有效提升了大数据分类的泛化性能,使其能够应用的更为宽泛[4]。
3.1.4 大数据预测
作为大数据研究的核心内容,以机器学习为基础的大数据预测应用也十分广泛,涉及的学习算法也十分丰富。比如应用于金融领域的机器学习算法,通过针对流式大数据以及市场结构的差异性进行可扩展交易模型的建立,最后结合运用逻辑回归方法实时预测目标市场产品的价格。或是对HDFS、集合特征学习等技术进行整合,依托于支持向量机运用的网络对入侵攻击进行预测的算法等;再如应用于医疗领域的流感预测指数模型、结合向量机方法的综合分析预测等,为该领域精准个性化医疗的实现提供技术支持;亦或是应用于电网负荷的以动态需求响应为基础的预测平台,依托于语义信息的集成采集获得目标动态数据,然后利用回归树模型对海量历史数据进行训练,最后对Web端的电能消耗进行预测,从而实现智能用电需求管理。
3.2 以深度学习为基础的大数据分析
自2006年开始,深度学习成为机器学习的重要学习方法之一,在大数据分析中,其主要应用于图像、自然语言处理以及语音等领域。在大数据分析过程中,评价其明显的计算密集性特点,深度学习训练的使用需要确定隐层权值与阈值参数等,然后依托于大量的迭代计算完成相关分析工作。
以中等规模的数据为例,即便仅有几个隐层,但每个隐层均具有几百个节点的深层网络,学习时间在几天或几周之间。数据规模与模型训练时间存在正比关系,在庞大的训练量下,主要采用分布式的方式降低深度学习训练成本,具体实现方式包括:(1)以Map Reduce为基础的深度学习分布式方式,能够有效提升大量数据的处理速度,解决深度学习的可拓展问题,减少网络节点的通信代价;(2)以Spark为基础的深度学习分布式方式,以内存为基础开展大数据计算工作,相较于第一种算法,这种学习方法更适用于迭代型计算任务,目前常用的学习模式有R_CRBN模型、卷积神经网络等。因而,通过在大数据分析中运用该技术功能,能够直观的将复杂信息呈现给用户,帮助其根据分析结果对未来做出精准预测[5]。
除此之外,现有的以大数据分析优化为目标的深度学习算法正处于不断改进状态,针对样本数量缺乏、质量不足等常见问题,固定模型重用策略被提出并应用,能够很好地获取判别信息,降低数据分析过程中需要投入的训练样本数量。此外,强化检测器性能、改进训练样本质量的方法不断丰富,根据深度学习一训练步骤实现对各种数据的迭代计算,从而改变当前的工作质量。
3.3 以计算智能为基础的大数据分析
计算智能为人工智能分支之一,其具有随机性、启发式特征,在大规模优化方面能够发挥良好作用,而传统算法以收敛速度为侧重点,强调集中化思想,若所需分析的数据过于庞大,则会使传统算法难以处理,即使能够处理分析也会形成较大时间消耗,数据分析效率严重不足。而当前数据复杂性、规模化程度日益增加,此时可在大数据分析时引入分布式算法,从群智能、进化算法两个方面展开大数据分析。(1)群智能算法分析。其构建了分布式计算环境,对算法搜索过程具有较强加速效果,其主要借助粒子群算法、布谷鸟算法、蚁群算法、萤火虫算法等顺利完成大数据分析。(2)进化算法分析。该算法分析方式含有大量迭代计算,在具体大数据分析过程中,主要通过大数据分组保障运算分析效率,通过长期的进化算法研究,进化算法现已能够实现差分自动分组,降低不同分组内的变量依赖程度,借助智能化分析提高算法分析效率,以此解决传统算法在预算效率方面的不足。除此之外,大数据分析时还可混合运用多种算法,如贪心算法、遗传算法、模拟退火算法等,同时融入加速技术、分布式计算等,对原算法精准优化,继而提高数据分析效率。
4 结语
综上所述,人工智能在大数据分析中发挥的作用日益关键,所取得的成果也日益丰富。为促进大数据的更好发展,强化其智能化水平,应对大数据积累、关联分析、分类、预测挖掘任务进行分析,并研究分布式深度学习及其算法的改进,最后从群智能、进化算法两方面开展分析研究,以此更好应对大数据分析带来的挑战。
引用
[1]金晶.基于大数据分析的5G-Advanced节能演进创新应用方法研究[J].广东通信技术,2022,42(2):24-29.
[2]郭文欣,吴忭.人工智能视域下基于设计的实施研究方法:框架及案例分析[J].中国教育信息化,2022,28(6):54-63.
[3]高长元,张晓星,张树臣.多维邻近性对跨界联盟协同创新的影响研究——基于人工智能合作专利的数据分析[J].科学学与科学技术管理,2021,42(5):100-117.
[4]杨伟,刘健.基于生态流量的数字创新生态系统演化模式——人工智能行业的探索性研究[J].技术经济,2021,40(9):34-44.
[5]赵婷婷,韩雅杰,杨梦楠,等.基于机器学习的时序数据预测方法研究综述[J].天津科技大学学报,2021,36(5):1-9.