基于文本语义分类的广播电视自动化分类系统设计
2023-03-07贺晓琳
贺晓琳
(河南工业和信息化职业学院,河南 焦作 454000)
0 引 言
广播电视节目的分类工作对于任何一种数字化的广播电视内容管理系统而言都是一项必备的功能。而在实际的广播电视节目分类操作中,系统往往是通过广播电视节目的文本内容介绍进行类别的划分。随着广播电视节目朝着多样化的方向发展,针对广播电视节目的介绍也逐渐变得复杂化和多维化。这使得采用传统广播电视分类模型的系统往往会出现对广播电视内容介绍特征提取单一进而导致广播电视内容分类精确度不理想等问题。
因此,本文针对传统广播电视自动分类系统存在的内容特征提取单一、内容分类精确度不理想的问题,提出了一种基于文本语义的混合多层分类模型。该改进的模型以广播电视节目介绍的文本内容为分类依据,通过引入TextRank算法来完成对广播电视文本介绍内容的关键语义特征词提取,进而通过BM25算法对冗余的特征语义词进行降维,最终通过FastText模型处理,完成对广播电视节目的自动化分类工作。
1 相关技术介绍
1.1 TextRank算法
TextRank算法是一种基于图的用于文本语义关键词提取和排序的算法[1]。该算法由Google公司通过对PageRank算法进行优化而来。算法的核心是通过利用目标文档中不同词组间的语义信息来完成对关键词的提取工作,因此该算法可以对目标文本内容进行语义关键词按照重要程度排序,进而完成对关键语义短语的抽取工作。
TextRank算法的设计思想在于将目标文档解析为拥有大量词的网络结构[2],而词与词之间的语义联系通过网络中的链接方式进行表示。该算法的计算方式如式(1)所示:
式中:S(Vi)表示目标文档中句子Vi的权重值,d代表阻尼系数,其默认值大小为0.85,Wji表示不同的两个目标短语Vi与Vj的相似度,S(Vi)代表上次迭代出句子Vj的权重值,In(Vi)表示句子Vi的前驱集合,而Out(Vi)表示句子Vj的后继节点集合,右侧中的求和表示每个相邻句子对目标句子的贡献程度。
1.2 BM25算法
BM25算法是一种用于计算关键查询词相对于目标文档或者文件相关性评分的算法,最早用于计算机信息检索领域,其主要思想是对给定查询的关键词进行语素解析,进而生成相对应的语素词,之后对于每个给定的目标文档,计算不同语素词与文档之间的相关性的大小,最后通过将关键词相对于目标文档的相关性评分按照权重进行求和,从而获得查询关键词与文档的相关性得分[3]。通过对不同关键词同文档之间的相关性评分进行排序,进而获得较为精确的、能够代表当前文档类型的核心语义词。该算法的一般性公式如式(2)所示。
式中:Q表示查询的语义关键词,qi表示对Q进行解析之后所获取到的一个语素,d表示目标的文档集,Wi表示语素qi的权重值,R(qi,d)表示语素qi与文档d的相关性评分值。
1.3 FastText模型
FastText是有美国FaceBook公司开发的一种词向量与文本分类的工具[4]。由于该模型在表征学习和文本分类方面具备极强的高效性,因此在带有监督的文本分类的问题场景下有着广泛的应用。FastText的模型架构如图1所示。从模型图中可以看出,FastText主要由输入层、隐含层和输出层构成,其中输入量为经向量表示的多个单词,输出的结果为一个特定的目标类别,而隐含层则是对多个词向量的叠加平局值。
图1 FastText模型架构
从模型图可以看出,从输入层到输出层,主要是通过将目标文档标识为一个由词构成的集合网络,进而叠加构成目标文档中所有词的向量,对叠加的值求平均值,来获得表征文档类型的向量,而在隐藏层输出类型到输出层过程中使用softmax线性分类器,用以提升分类的整体效率。
2 基于文本语义分类的广播电视内容自动分类模型
2.1 模型架构设计
由于广播电视分类的主要方式是通过对广播电视内容的文本介绍进行关键词提取进而以关键词为基础来对广播电视的类型进行类别划分,而传统的分类方式往往只是通过提取内容介绍文本的关键词来对广播电视内容类型进行直接划分,而未对这些关键词所代表的文档语义关联性进行判定,因此传统广播电视在内容介绍的特征关键词提取上显得过于单一,进而影响广播电视最终的分类准确性[5]。对此,本文通过借助FastText模型在文本分类上的快速准确的优势,以TextRank算法作为语义特征关键词的提取与排序的基础,通过BM25算法进行语义特征降维,来去除冗余无用的特征向量,提升最终分类效果的准确性。本文提出的基于文本语义分类的广播电视内容自动分类模型架构如图2所示。
图2 基于文本语义分类的广播电视内容自动分类模型架构
2.2 流程分析
由于广播电视节目的分类依据是对内容文本的关键词类别判定,因此准确的关键词提取是类别判定正确与否的关键性因素。而针对关键词的判定仅仅从其自身所表达的表层信息上很难对文本内容做出准确判定,因此就需要深入挖掘关键词所表达的深入语义信息与目标文本之间的相关性大小。
在确定目标分类文本的前提下,使用TextRank算法对目标文本的关键子句进行提取。由于该算法主要应用于无监督学习状态,因此在提取关键词过程中不需要进行过多的额外训练。通过将目标文本内容看成词的网络集合并且通过不断地迭代,来计算核心关键字的权重值,对关键子句排序,最后将分值排序靠前的子句或者关键词抽取出来,作为语义特征关键字冗余处理的输入值进行保存。
考虑到针对广播电视内容文本语义关键词的初步提取往往会出现相关性不强的冗余特征值,因此本文通过BM25算法对输入的关键词从语义层面计算其与目标文档的相关性,并将排序后相关性较低的关键词进行去除,以提升语义特征关键词的准确性[6]。
最终的分类过程使用已经提前训练好的TextFast模型进行。通过该模型处理最终获得语义关键词所对应类型的概率,最后选择概率最大的值所对应的类型,作为广播电视所对应的类别,完成最终的分类工作。
3 实验环境搭建与测试
3.1 实验环境的搭建
本文搭建的实验环境硬件配置为:Intel Core i5-10300H的CPU,1 TB硬盘,32 GB RAM,运行的系统环境为Windows 10 X64专业版,使用Python3.8版本作为编程语言进行实验环境架构的构建。
3.2 评价指标
由于本文针对广播电视分类系统的改进主要是在分类准确性上进行的改善,因此本次实验将采用分类准确率作为核心数据进行比较,分类准确率ACC的计算方式如式(3)所示:
式中:TP表示实际为正且被准确分类的样本数量,TN表示实际为负且被正确分类的样本数量,FP表示实际为负而被错误分类的样本数量,FN表示实际为正而被错误分类的样本数量。
3.3 实验方式与结果分析
本文采用的数据为广播迷网站的多媒体数据集。该数据集包含了25 480条广播电视内容介绍信息,平均每个条目的内容介绍为328个字符。数据测试的方式采用单纯FastText的传统广播电视分类模型和改进后的混合多层分类模型,来对数据分类的准确性进行对比实验,结果如图3所示。从实验结果可以看出,随着测试数据条目的不断增加,改进后的广播电视分类的准确率在不断提升,而同量级的测试数据下,改进后方式的分类准确率较改进前平均提升7.2%左右。
图3 实验结果
4 结 语
本文针对传统广播电视分类系统由于内容特征提取单一所导致分类准确率不理想的问题,提出构建基于文本语义分类的广播电视分类模型,通过借助FastText模型在文本分类上的快速准确的优势,以TextRank算法提取的语义关键字为基础,结合BM25算法进行文档语义相关性计算,最后通过实验对提出的基于文本语义分类模型进行仿真。实验结果表明,改进后的方式能够有效提升广播电视分类系统的分类准确性。