基于朴素贝叶斯算法的电网建设资源自动化分类模型研究
2021-01-07夏常明
夏常明
摘 要:提出基于朴素贝叶斯算法的电网建设人力资源自动化分类模型研究。通过网络爬虫技术,采集电网建设资源,在采集的资源信息中提取资源特征,并应用随机森林算法在特征项中选取合适的特征项,生成特征子集。采用朴素贝叶斯算法,构建基于属性相关性度量的分类模型,实现电网建设人力资源自动化分类。结果表明,在两分类和多分类条件下,文中提出的分类模型的平均适应度值分别为89.78和97.47,该分类模型能够获取准確的自动化分类结果,提高模型的适应度值,满足电网建设需求。
关键词:朴素贝叶斯算法;电网建设;自动化分类模型;特征属性
中图分类号:TP301 文献标识码:A 文章编号:1001-5922(2021)12-0093-05
Research on Automatic Classification Model of Power Grid Construction Resources based on Naive Bayes Algorithm
Xia Changming
(State Grid Gansu Electric Power Company, Lanzhou 730030, China)
Abstract:The automatic classification model of power grid construction resources based on naive Bayesian algorithm is proposed. The network crawler technology is used to collect the power grid construction resources, and the resource features are extracted from the collected resource information. In addition, the random forest algorithm is applied to select the appropriate feature items, which are used to generate the feature subset. The naive Bayes algorithm is adopted to construct a classification model based on attribute correlation measurement. Thus the automatic classification of human resources in power grid construction is realize. The results show that under two classification and multiple classification conditions, the average fitness of the proposed classification model is 89.78 and 97.47, respectively. The classification model can obtain accurate automatic classification results, improve the fitness of the model, and meet the requirements of power grid construction.
Key words:Naive Bayes algorithm; Power grid construction; Automatic classification model; Feature attributes
0 引言
考虑到电网建设的复杂性,施工过程中需要大量工作人员进行配合,电网建设资源中人力资源分类管理成为研究重点问题。其中,不同类型的工作人员需要在不同的施工阶段进行有效配合,根据人力资源分类结果,明确人员经验和熟练程度,将其分配至合理岗位,保证电网建设项目的高效开展,并且有利于成本控制[1-2]。
目前相关领域学者针对电网建设资源管理中的分类模型进行了研究,并取得了一定的研究成果。文献[3]利用强化学习技术中的Q学习算法,建立增量分类模型。通过对样本增量序列的有效选取,将分类数据中包含的噪声影响降低,完成高精度的样本自主标记。结合批量增量计算方法,保证分类模型计算复杂度的降低,但该模型的分类精度较低。文献[4]以CNN网络为核心,构建分类模型。在卷积网络的作用下,将资源信息的局部特征提取出来,融合双向门控循环单元获取筛选后的特征属性。利用多头注意力机制计算特征权重,基于权重加高的特征进行分类处理。但是,该模型的适应度值较低。针对上述问题,提出基于朴素贝叶斯算法的电网建设资源自动化分类模型。文中针对电网建设资源中人力资源管理的特点和需求,利用网络爬虫技术采集电网建设资源,采用随机森林算法获取资源特征。结合朴素贝叶斯算法,构建新的自动化分类模型,能够获取准确的自动化分类结果。
1 模型研究背景
1.1 采集电网建设资源
由于文中设计的分类模型,主要针对电网建设资源中的人力资源展开设计[5-6]。所以,在电网建设资源采集过程中,选择网络爬虫技术,在内部网站中获取人力资源信息[7]。并按照网页链接不断查找,将查找的资源信息进行自动下载。网络爬虫的工作原理如图1所示。
由图1可知,网络爬虫技术采集电网建设资源,包括选择界面、核查URL、提取链接以及文本下载等多个步骤。所以,该技术的主体模块由网页解析器和网页下载器构成。
在实际应用中,需要按照实际采集需要,获取主题爬行范围保证采集信息符合电网建设资源中人力资源信息采集要求[8]。本文应用Shark-Search算法作为判断引擎,在向量空间模型的作用下计算采集电网建设资源与人力资源信息之间的相关度。将相关度的取值范围限定在0-1之间,越靠近1则表明采集信息越符合要求;反之则需要重新采集资源信息。信息采集过程中,子节点的主题相关性完全取决于父节点的相关度,则URL列表的相关度得分计算公式为:
式中,x表示子节点;P表示得分;Y 表示系数;λ表示遗传算子;xa表示相邻节点。考虑到父节点遗传作用,得出:
式中,F表示相关性得分;Sim表示相似度;t表示预定义主题;c表示父节点;δ表示衰减因子; 表示相似度判定阈值;if表示计算函数。由于邻近链接的相关性得分很大程度上取决于锚文本、链接附近文本,则邻近链接的主题相关性计算公式为
式中,β表示预定义常量;v表示链接上下文文本;b表示锚文本。通过上述计算,确保网络爬虫采集的电网建设资源信息,属于人力资源信息,将其作为后续分类操作的数据支撑。
1.2 提取和选择电网建设资源特征
资源自动化分类需要以资源特征为依据,考虑到电网建设人力资源信息文本中所包含的词汇较多[9],为了降低模型计算复杂度,文中利用机器学习方法提取特征项。根据资源信息中不同词汇与主题的关系进行分析,在特征提取时需要将贡献较小和无贡献的词汇剔除,将贡献较大的词汇作为特征提取出来[10]。文中采用词频统计的方法明确停用词,将其从资源内去除后,按照TF.IDF方法计算词汇的权重,将权重计算结果较高的词汇充当特征项。
式中,s表示随机选取文本;r表示特征项;w表示特征权重;A表示文本中特征项出现频率;N表示为文本集个数;n表示含有特征项的文本数。由于上述计算提取出来的特征项较多,为了保证模型分类结果的准确性和实时性,应用随机森林方法选择合适的特征项构成特征子集,随机森林的基本思想如图2所示。
利用随机森林模型对原始样本集进行迭代训练,并在训练开始前在样本集中随机抽取多个样本,构成全新的训练样本集[11]。通过上述方法生成多个训练样本集,将每个训练样本集生成的决策树组合而成随机森林。最后,利用投票结果对特征项进行分类。针对每一类型的特征数据,计算最小袋外数据误差率,根据误差率计算结果选择合适的特征,保证分类精度。在随机森林构建过程中,定义样本集S:
式中,a、m表示子样本,通过抽样计算获取袋外样本集,并利用自助样本集生成相应的分类器,获取以下分类结果:
式中,i表示任意样本;C 表示组合分类器;σ表示示性函数;K 表示样本抽取次数;表示样本分类结果。应用随机森林算法选择电网建设资源特征,实际上是分析某个特征中影响RF准确率的关键因素,计算单个特征重要性[12]。目标特征子集构建过程中应用RF选择特征,本质上是基于Wrapper法选取特征如图3所示。
根据随机森林算法得出特征重要性度量值,将不符合计算要求的特征从特征空间中去除,生成新的特征子集。并重复计算OOB误差率,直到仅剩两个特征子集,获取最终特征。
1.3 朴素贝叶斯算法的电网建设资源自动化分类模型
基于上述电网建设人力资源特征选取结果,设计基于朴素贝叶斯算法的分类模型[13],朴素贝叶斯分类模型结构示意图如图4所示。
在图4中,A1,A2,…Aε表示特征属性变量,对变量集按照属性进行类变量划分。将类变量作为唯一父节点,根据属性变量的差异,生成朴素贝叶斯分类模型[14]。以属性为基础进行朴素贝叶斯分类时,需要计算不同人力资源信息变量的相关性,针对两个基本属性R、E,应用o2统计量计算方式,获取行列变量的相关性:
式中,o表示统计量;l、p表示属性值;f 表示样本容量;flp表示两个基本属性同时出现的频度。根据统计量计算结果,将数据列表中行列变量属性相关性计算公式表示为:
式中,Ψ 表示属性相关性度量值;u表示属性频度列表行数;z 表示属性频度列表列数。属性相关性度量值越大表明电网资源信息之间的属性相关性更强[15]。为了加强资源分类的可伸缩性和正确性,文中采用属性约简的方法进行预处理。通过属性约简過程,将最优属性从电网建设资源属性集合中提取出来。电网建设人力资源集合在属性约简后需要达到两个目的:其一,确保决策属性与条件属性具有较大相关性;其二,保证各个条件属性之间相关性极小。
两项属性约简目的之间存在一定的矛盾性,倘若某一个属性与相邻属性之间存在较强关联,表明该属性与其他属性之间关联度不会太弱[16]。所以,参考该属性与决策属性之间的关联程度衡量与其他属性的相关性。之后,利用第一个属性约简目的,进行相关属性的取舍。
电网建设人力资源类型较多,对某一个未知的数据样本,利用朴素贝叶斯分类算法对数据样本进行分配,将朴素贝叶斯分类定义为V,获取如下所示计算公式:
式中,μ表示未知数据样本;ω表示样本类型;表示泛化函数;V 表示朴素贝叶斯分类;η表示常数。由于所有类常数保持一致,计算过程中仅需要获取最大值,η(ω)计算公式为:
式中,ζ 表示训练样本总数;ζj 表示某一类中的训练样本数量。通过上述计算,获取电网建设资源自动化分类结果,实现基于朴素贝叶斯算法的电网建设资源自动化分类。
2 实验分析
为了验证基于朴素贝叶斯算法的电网建设资源自动化分类模型的有效性,以及在电网建设资源管理中的应用效果,在文中提出的自动化分类模型设计完成后,在实际环境中展开实验,验证模型的应用性能。
2.1 实验环境分析
为了符合模型应用环境,文中针对某市电网项目应用设计模型,对电网建设资源进行自动化分类。当前某市电网存在较为严重的设备重过载问题,该电网中各电压等级设备运行状况如表1所示。
由表1可知,某市电网运行状态已经对居民生活用电产生负面影响。为了提升电网运行稳定性,需要对电网进行重新建设。通过分析可知,该电网建设扩建项目内有43项改造工程,包括220 kV线路扩建,110 kV配网出线改造以及220、110 kV配电站保护及综自改造等多项扩建工程。文中在上述电网建设工程中选取一段建设区域,应用文中设计的基于朴素贝叶斯算法的电网建设资源自动化分类模型,对项目相关人力资源进行分类管理。
2.2 选取分类特征
文中设计的电网建设资源分类模型在实际应用中,需要以资源特征采集为核心。针对采集汇总的项目人力资源信息提取特征信息,并在资源特征中选取经验、学历、技能职称等合适的特征属性项,作为资源分类的依据,获取特征属性重要性度量值如图5所示。
由图5可知,Mean Decrease Gini表示特征属性重要性度量值,按照重要程度从大到小的顺序,对10个特征属性进行排列。之后,设定特征子集为排序靠前的多个特征项,并将其作为后续分类处理的基础。为了保证特征选取数量符合计算要求,实验过程中采用10折交叉验证法,计算OOB误差率,得到RF特征选择如图6所示。
按照最小误差率准则,选取符合要求的特征子集,该集合中包括经验、学历、技能职称、管理能力和沟通能力五项特征。以此为依据,应用文中设计的自动化分类模型,获取电网建设资源中人力资源分类结果。
2.3 模型性能分析
为了有效评价文中设计模型的实际分类效果,选用文献[3]、文献[4]提出的分类模型,针对该项目的电网建设人力资源进行分类,将文献[3]、文献[4]提出的模型应用效果与文中设计模型的应用效果进行对比,进一步验证基于朴素贝叶斯算法的自动化分类模型的性能。首先,按照技术人员和管理人员两个类别,划分电网建设人力资源,两分类条件下不同模型适应度值对比曲线如图7所示。
由图7可知,在两分类条件下,随着样本数量的增长,不同模型适应度值随之增大。其中,文中提出的分类模型的适应度值在初始状态下始终高于文献[3]、文献[4]模型的。文中提出的设计模型的平均适应度值为89.78,相比文献[3]、文献[4]模型提升了10.52、12.63。应用3种模型对电网建设资源进行细化多分类操作,获取多分类条件下不同模型适应度值对比如图8所示。
由图8可知,在多分类条件下,文中设计模型、文献[3]和文献[4]提出的模型的平均适应度值分别为97.47、84.18和83.64。文中设计模型使得分类结果的平均适应度值提升了13.29、13.83。
综上所述,文中提出的基于朴素贝叶斯算法的自动化分类模型,应用于电网建设人力资源内,展现了较大的适应度值。因此,在实际应用中,该模型的应用可以更好地平衡样本特征子集与分类正确率,面对多种分类问题时,均可以得到更加准确的分类结果。
3 结语
电网建设过程中,工程质量与建设速度在很大程度上取决于人力资源配置管理情况。因此,文中对电网建设资源进行研究,以其中的人力资源管理为重点,结合朴素贝叶斯算法设计一种新的分类模型。通过实验结果可知,文中设计的模型在实际应用中展现出了极好的性能,使得模型适应度值有所提升,即使面对不同的分类要求,也能够获取准确的自动化分类结果。
参考文献
[1]胡玉琦,李 婧,常艳鹏,等. 引入注意力机制的BiGRU-CNN情感分类模型[J]. 小型微型计算机系统,2020,41(08):1 602-1 607.
[2]张小莉,程 光,张慰慈. 基于改进深度卷积神经网络的网络流量分类方法[J]. 中国科学:信息科学,2021,51(01):56-74.
[3]刘凌云,钱 辉,邢红杰,等. 一种基于Q-学习算法的增量分类模型[J]. 计算机科学,2020,47(08):171-177.
[4]马建红,刘亚培,刘言东,等. CGGA:一种CNN与并行门控机制混合的文本分类模型[J]. 小型微型计算机系统,2021,42(03):516-521.
[5]佘 维,杨晓宇,田 钊,等. 基于用户偏好的电力资源去中心化配置方法[J]. 電力系统自动化,2019,43(13):98-104+138.
[6]翁梦娟,姚长青,韩红旗,等. 不均衡数据集下基于CNN的中图分类标引方法[J]. 数据分析与知识发现,2020,4(07):87-95.
[7]邱宁佳,贺金彪,薛丽娇,等. 融合语义特征的加权朴素贝叶斯分类算法[J]. 计算机工程与设计,2020,41(09):2523-2529.
[8]方炯焜,陈平华,廖文雄. 结合GloVe和GRU的文本分类模型[J]. 计算机工程与应用,2020,56(20):98-103.
[9]潘东行,袁景凌,李 琳,等. 一种融合上下文特征的中文隐式情感分类模型[J]. 计算机工程与科学,2020,42(02):341-350.
[10]张 柳,王晰巍,黄 博,等. 基于字词向量的多尺度卷积神经网络微博评论的情感分类模型及实验研究[J]. 图书情报工作,2019,63(18):99-108.
[11]葛继科,陈 栋,王文和,等. 基于改进朴素贝叶斯分类算法的火灾分类[J]. 安全与环境学报,2019,19(04):1122-1127.
[12]崔良中,郭福亮,宋建新. 基于Map/Reduce的朴素贝叶斯数据分类算法研究[J]. 海军工程大学学报,2019,31(04):7-10.
[13]赵博文,王灵矫,郭 华. 基于泊松分布的加权朴素贝叶斯文本分类算法[J]. 计算机工程,2020,46(04):91-96.