APP下载

基于AI大数据抓取下的电力企业员工培训系统设计

2024-12-06崔艳芳

中国新技术新产品 2024年21期
关键词:可视化大数据

摘 要:供电企业职工技术素质直接关系到电网的正常运转,因此对职工进行专业训练是十分必要的。本文针对电力企业员工培训系统培训问题、技术发展等现状进行探讨,结合AI和大数据设计电力企业员工培训系统。本文采用FCM聚类算法、特征选择算法、随机森林算法以及协同过滤算法对数据进行处理。结果表明,AI大数据抓取下的电力企业员工培训系统数据可视化,能够了解培训系统方向,员工掌握状况,并提供最优推荐方案。

关键词:电力企业员工培训系统;大数据;可视化

中图分类号:F 27" 文献标志码:A

大数据人工智能(Big Data AI)是运用大数据对数据进行智能加工与自动管理,从而提升企业与社会的工作效能与智慧水平。在当前的数字化时代,随着数据规模快速增加以及人工智能的飞速发展,大数据的人工智能已经是企业和社会不可或缺的一项技术。大数据的研究重点在于对海量的海量数据进行深度挖掘与分析,进而为企业与社会实现智能化的决策支撑与自动管理。这就要求综合运用大数据、人工智能、计算机科学技术以及计算机技术等多学科的理论与技术,实现更加高效、智能化的数据分析与应用。

大数据AI正逐渐渗透到人们的日常工作中。互联网已经不再只是一项科技,更是一股巨大的变革力,正在逐步地影响企业的经营和社会运行。对大数据进行深度挖掘,发现其中蕴含的深层规律,从而帮助企业与社会作出更加准确的决策,互联网、物联网等新兴科技的快速发展使海量的数据呈现爆炸式增长,而现有的分析手段已难以适应新时代的需要。大数据具有巨大的数据规模和复杂的组织形式,为人工智能的发展创造了条件。利用机器学习、深度学习等人工智能方法,将海量的大数据转换成有价值的知识,并从中挖掘出规律与关联。

大数据AI最大的优点就是对海量数据有深刻理解。该算法不但可以对一般的统计资料进行处理,还可以对图像、声音、文字等进行有效处理。随着信息时代的到来,智能化正在逐步向社会的各个领域深入发展,包括电力企业在内。在此基础上,结合人工智能技术和大数据技术,提出了一种基于人工智能技术的人才培养模式。本文提出了一种面向大规模并行计算的方法,为了提高职工的工作能力,提高企业的效率和绩效,是非常重要的。

1 基于AI大数据抓取下的电力企业员工培训系统算法研究

1.1 功能分析

在电力企业员工培训系统建设中,重点是应用人工智能大数据分析技术。在训练过程中,数据量非常大,因此要求对其功能与架构进行设计。在电力企业员工培训系统中,有基本的功能模块,也有以信息显示、课程管理、培训管理等为主要作用的,其中,培训管理和员工管理是以员工的学习信息和课程信息为中心的。针对企业员工的多元化培训需要,在培训内容和方法上进行个性化定制,提升培训效果。在此基础上,本文提出了一种基于网络的新型人力资源管理方法,可以对培训课程进行选择,参与培训等方面的操作。

1.2 相关算法

1.2.1 特征指标的提取

NCA算法的原理是以度量方式为马氏距离的KNN分类算法为基础,不断对算法进行处理,最终获得数据降维后的转换矩阵[4]。其中,KNN分类算法随机选取两个样本为列向量,将原始数据集中的任意两个样本表示为xi (1≤i≤n)和xj(1≤j≤n)。Axi和Axj表示两个样本的转换矩阵,行数均为,列数均为D,其中d为降维后的维度,D为原始数据维度。

设pij为映射空间中欧式距离的归一化指数函数的概率值,其计算过程如公式(1)所示。

(1)

设pi为样本i能被正确分类的概率,其计算过程如公式(2)所示。

(2)

式中:Ci 为与样本i属于同一类样本的集合。

则优化目标函数f(A)的计算过程如公式(3)所示。

(3)

根据公式(3),连续可微的矩阵函数结合算法,使f(A)最大化。对f(A)进行求偏导来优化学习,用梯度法计算矩阵A,其梯度的计算过程如公式(4)、公式(5)所示。

(4)

xij=xi-xj " " " " " " " " " " " "(5)

简化后的表达式如公式(6)所示。

(6)

根据公式(6)得出,传达室可设定迭代次数和矩阵A的初始值A0。

假设学习率为β,A0的表达式如公式(7)所示。

A0=A0+βf '(A0) " " " " " " " " " "(7)

当求得矩阵A为非方阵时,即D≠d时,其维度为d。当D=d时,不用降维,但可实现距离测度学习,NCA分析方法降维时,分类模型可不设参数,矩阵计算不复杂。

1.2.2 随机森林算法

随机森林包括多棵决策树,可以用来执行回归和分类任务的机器学习算法。其输出类别是由多棵决策树的输出类别的众数所决定。

用N表示样本个数,M表示特征个数。从容量为N的原样本集中进行重复抽样,每次抽取的样本容量也都为N ,抽样N次,形成N个训练集。这样每次抽样时原样本集中数据未被抽中的概率为。

当N很大时,1/e为概率值,趋于0.368,如公式(8)所示。

(8)

这表示每次抽样时,原样本集中的数据有大概37%的样本不会被抽中,这些数据是袋外数据。未被抽中的数据集可直接作为测试集,用于测试模型的预测精度。

按一定比例确定特征数(通常取总特征数的平方根),输入k(k<K)个特征,作为决策树上的决策点。以基尼系数下降最快来确定最优的特征,将其作为决策点。用公式(9)求得基尼系数。

(9)

训练完成形成N棵决策树,用这N棵决策树对分类结果进行简单投票决定随机森林模型最后输出的分类结果。

例如现有由h1(x),h2(x),…,hk(x)构成的随机森林,边际函数定义如公式(10)所示。

(10)

式中:mg(X,Y)为边际函数;avk(I(hk(X)=j))为正确分类下得到的票数;为不正确分类的情况下得到得票数多。

边际函数的意思是在正确分类的情况下得到的票数比在不正确分类的情况下得到的票数多的程度,函数越大,说明原分类器分类效果越可靠。

泛化误差PE*定义如公式(11)所示。

PE*=PX,Y(mg(X,Y)lt;0)" " " " " " " " " " (11)

式中:X、Y为概率定义空间。

随机森林边缘函数如公式(12)所示。

(12)

式中:P(hk(X)=Y)是正确判断的概率;为错误判断的概率最大值。

当每棵决策树生成随机森林时,总是有一个初始数据集和没有被抽取的数据集Ok(x)。 Q(x,yi)的计算过程如公式(13)所示。

(13)

式中: Q(x,yi)为x在Ok(x)中yj的比例,为正确分类的概率估计,由此可对随机森林强度和相关性进行分析。

随机森林强度定义如公式(14)所示。

(14)

将公式(13)代入公式(14),得到公式(15)。

(15)

随机森林相关度定义如公式(16)所示。

(16)

式中:pu为I(ku(xi)=y) 的OBB估计。

pu和的计算过程如公式(17)、公式(18)所示。

(17)

(18)

式中:I为指示函数;ku(xi)=y为观测的真实结果;ku(xi)为观测的预测结果。

按照上述运算,得到公式(19)。

(19)

随机森林的性能体现在其收敛程度、强度和相关程度。收敛性体现在决策树的泛化误差都收敛,出差会有上限,说明随机森林对未知事物具有良好的适应性,不会造成很大的误差,也不易造成过拟合。

1.2.3 FCM聚类算法

高职院校创新创业课程电力企业员工培训系统的主要算法为FCM聚类算法,利用算法可将同一类型的数据进行整合。FCM聚类算法[5]的基本原理是模糊理论,这种模糊理论是从客观事实出发的,以处理模糊不确定的实物,又称为模糊C均值算法。在确定了电力企业员工培训系统模型的输入输出后,需要对输入的数据进行形式化定义。FCM是将n个用户数据作为n个向量xi,其中涉及隶属关系,FCM算法的模糊隶属度的取值为[0,1],FCM聚类算法的实质是构建模糊矩阵U,矩阵中每个要素都是各矢量的糊隶属度,值为[0,1],归类后的每一个元素的模糊隶属度之和均为1。

FCM聚类算法[1]的表达式如公式(20)所示。

(20)

FCM聚类算法的目标函数的表达式如公式(21)所示。

(21)

式中:dij=||cj-xj||;uij为[0,1];dij为第i个聚类中心到第j之间的欧式距离;m为加权指数,其取值为[1,∞]。

为使目标函数取得最小值,须作出改进,如公式(22)所示。

(22)

式中:λj为n个约束式的拉格朗日因子。

目标函数取得最小值需要前提,其必要条件如公式(23)、公式(24)所示。

(23)

(24)

1.2.4 协同过滤推荐算法

UCF的主要做法是找到一群爱好相似的用户,即基于电力企业员工培训系统用户的(User-based)的CF或基于相邻者的CF(Neighbor-based Collaborativen Filtering)[2]。用户与用户之间相似度通常用Jaccard公式或余弦相似度来计算。这样两个用户的相似度可以更直观的观察到。设M(u)是用户u的中意的项目的集合,M(v)为用户v中意的项目的集合,则u和v相似度的计算公式如下。

余弦相似度的计算过程如公式(25)所示。

(25)

Jaccard的计算过程如公式(26)所示。

(26)

其中,UCF是对相关数据进行搜集,掌握使用者对员工培训数据;再根据用户间的相似性,找出与此用户相近的一群人,并根据员工培训数据信息,推送相关员工培训内容。

基于项目的CF(Item-Based CF,ICF):随着用户数量增加,UCF所消耗的计算时间越来越长,这时出现另一种CF,即基于项目的协同过滤算法(Item-based Collaborative Filtering Algorithms)。ICF的基本假设:若用户中意一个项目,则与该项目相似的其他项目也有可能引起用户的兴趣。用数学的方法计算项目之间的相似性[3]。项目的相似度的计算过程如公式(27)所示。

(27)

式中:|M(i)|是喜欢项目i的用户数,|M(j)|是喜欢项目j的用户数[4]。

ICF的方法步骤如下。收集相应信息,计算已评价的项目和预测项目的相似度,并以此为基础,得到预测项目的预测分数,最终产生推荐结果。

分类准确度:指判断一个项目是否迎合了用户的偏好,并且结果正确的比例,包括召回率和准确率。

设U为用户集,Ru为用户u的推荐列表,Bu为测试集中用户给予正反馈的项目[5]。

准确率是指在推荐的结果中,用户在现实中给过正反馈的项目所占的比例。单个用户u准确率的计算过程如公式(28)所示。

(28)

整个推荐系统的准确率的计算过程如公式(29)所示。

(29)

召回率是指在测试集中,用户给过正反馈的项目占测试集的比例。单个用户u的召回率的计算过程如公式(30)所示。

(30)

整个系统的召回率的计算过程如公式(31)所示。

(31)

预测准确度:预测用户对项目的评分的行为,包括均方根误差(Root Mean Square Error,RMSE)和平均绝对误差(Mean Absolute Error,MAE)。

均方根误差RMSE的计算过程如公式(32)所示。

(32)

式中:Ωtest为测试集;ruv为用户u对项目v的实际评分;yuv为预测评分。

平均绝对误差MAE的计算过程如公式(33)所示。

(33)

2 基于AI大数据抓取下的电力企业员工培训系统设计

2.1 系统聚类分析

电力企业员工培训系统在进行聚类分析的过程中,需要确定分类效果,聚类有效度函数是评价聚类效果的一种方法,它能较好地评价聚类的分类效果,增强了对电力企业员工培训的表示能力。计算时,其特性值并不是固定的,因此可以通过类间分离性和类内紧性来间接判定聚类的效果,对聚类有效性函数进行分析,可以判定它们之间的相关性。

用户与类内用户之间的相似度表达式[6]如公式(34)所示。

(34)

类内平均值的表达式如公式(35)所示。

(35)

某一类数据的类内紧密度表达式如公式(36)所示。

(36)

2.1.1 聚类评价指标

MIA指标:MIA函数的表达式[7]如公式(37)所示。

(37)

式中:N为用户的个数;MIA为类内距离和的平均值,MIA的值越小,聚类效果越好。

CDI指标:函数的表达式如公式(38)所示。

(38)

式中:Xc为第c类用户;CDI为类内紧密度的平均值,CDI的值越小,聚类效果越好。

SI指标:函数的表达式如公式(39)所示。

(39)

式中:为每个向量与平均值之间距离和;为每一个聚类中心与平均值之间的距离和;SI的值越小,聚类效果越好。

DBI指标:函数的表达式如公式(40)所示。

(40)

式中:DBI为类内距离与类间距离的比值,DBI的值越小,聚类效果越好。

2.1.2 聚类效果

该模型对电力企业员工培训系统1000个员工样本进行验证,结合四项指标和聚类数目2~9,模型的指标或者模型样本特征提取可作为模型输入变量,下列指标分析见表1,利用FCM算法,对用户数据(X3)、输入数据(X1)和输出数据(X2)进行论述。

由表1可知,当聚类数目为4时,各类指标值都达到了最小值,聚类效果最好。聚类时,电力企业员工培训系统可结合需求,达到最好的聚类效果。

2.2 系统数据处理

数据采集:本次试验使用的数据集是某电力企业数据集。通过AI和大数据,收集培训数据,包括培训进度、成绩、反馈等信息。

数据处理:利用大数据AI技术对收集的数据进行清洗、分类、分析和挖掘,提取有价值的信息,为教学提供决策支持。

当数据爬取时,需要导入Requests库和BeautifulSoup库函数。

使用Requests抓取某电力企业数据库,把要爬取的整个页面抓取下来。

使用BeautifulSoup中的find()和find_all()抓取需要的标签内容。

2.3 试验结果分析

使用上述设计的模型对处理好的数据进行训练。其中,训练数据用于训练LDA模型,用测试数据对训练好的模型测试推荐结果。在测试集上计算正确率,给定一组三元组<q,p,ngt;,若D(q,p)<D(p,n)则算正确,否则错误,具体结果见表2。

由试验结果可以看到模型更能根据细粒度的内容进行推荐,与传统的推荐算法相比更具有优势,同时也不需要细粒度的标签就能获得这样的效果。

2.4 系统实现

电力企业员工培训系统可以提供丰富的培训资源,包括课程资料、案例分析、实践项目等,方便员工自主学习和团队协作。为电力企业员工提供一个在线学习交流的平台,方便电力企业员工之间的互动和讨论,提高电力企业员工的参与度和学习效果。利用人工智能技术,根据电力企业员工的学习情况和兴趣爱好,为电力企业员工推荐相关的培训资源和项目,提高电力企业员工的学习效率,帮助他们改进学习和教学。平台如图1所示。

3 结论

结合上述分析,需要进一步完善电力企业员工培训系统,并利用AI云计算技术对其进行设计。提高电力企业员工参与度,对其进行总体规划,本文运用AI大数据技术对其进行了详细分析,追根溯源,分析基于AI大数据抓取下的电力企业员工培训系统的基本算法,包括特征指标选取、随机森林算法、聚类分析算法以及协同过滤算法,对电力企业员工培训数据进行整合,分析电力企业员工培训信息,能够根据电力企业员工情况进行数理分析,对冗杂的数据进行聚类分析,根据聚类分析结果进行协同过滤,能够分析电力企业员工培训信息,并提供相关培训课程,有利于提升电力企业员工能力。

参考文献

[1]张宏展,赵辉,于鹏.AI在大数据技术中的创新与应用[J].科技创新与应用,2024,14(21):16-19.

[2]曾剑文.基于AI技术的煤矿井下视频智能分析系统设计[J].煤炭科技,2024,45(3):202-206.

[3]徐俊婷.基于大数据与AI的高校图书馆数字阅读推广优化策略与实施路径[J].造纸装备及材料,2024,53(6):184-186.

[4]汪生福.科技向善:大数据技术与AI如何扶贫[J].中国外资,2024(11):79-83.

[5]王强,刘海德,牛清娜,等.基于场景化的大数据+AI算法仓平台研究[J].电脑知识与技术,2024,20(14):73-75.

[6]罗鹏举,王彪,闫林,等.基于AI大数据的无线基站节能系统的设计与应用[J].数字通信世界,2024(3):114-117.

[7]黄陈,胡汉桥,罗如意,等.基于大数据与AI计算的收费稽核系统[J].中国交通信息化,2024(增刊1):303-305.

猜你喜欢

可视化大数据
自然资源可视化决策系统
思维可视化
基于Power BI的油田注水运行动态分析与可视化展示
自然资源可视化决策系统
基于CGAL和OpenGL的海底地形三维可视化
“融评”:党媒评论的可视化创新
大数据环境下基于移动客户端的传统媒体转型思路
基于大数据背景下的智慧城市建设研究
数据+舆情:南方报业创新转型提高服务能力的探索