基于TI-Rank的弹幕关键词提取方法
2022-03-01何梓源张仰森吴云芳亓文法
何梓源,张仰森+,吴云芳,亓文法
(1.北京信息科技大学 智能信息处理研究所,北京 100192;2.北京大学 计算语言学研究所, 北京 100871;3.北京大学 王选计算机研究所,北京 100080)
0 引 言
弹幕文本包含了大量用户对视频的实时反馈,为了使尚未观看视频的用户提前准确把握视频内容,弹幕文本的关键词提取便尤为重要。无监督的关键词提取主要包括3种方法:基于主题模型的关机词提取方法[1-5]、基于统计特征的关键词提取方法[6-9]和基于图模型的关键词提取方法[10-13]。
本文选取了B站10种不同领域的近千部优质视频对其进行分析,发现B站官方提供的视频关键词范围过大与用户反馈的关键词存在较大偏差。本文基于传统TF-IDF和TextRank算法,针对网络视频弹幕信息文本较短、内容稀疏、话题分散、未登陆词较多等问题,提出一种基于TI-Rank(term theme frequency-inverse character document frequency-distance wordvector TextRank)的关键词提取模型。该模型能有效过滤弹幕中的干扰词汇,并基于弹幕文本的词频词义提取出更准确且贴近日常用语的文本关键词。考虑到关键词本身具有降序排列的特点,为突出排序靠前的关键词对提取准确率的影响,提出了三级梯度评价标准,并对已抽取关键词和人工抽取关键词进行准确率计算,实验结果表明,本模型抽取效果明显优于传统算法的效果。
1 基于TTF-ICDF模型的关键词提取
目前,传统的TF-IDF(term frequency-inverse document frequency)模型在处理关键词任务时是以词袋的形式获取关键词。它通过一种针对关键词的统计方法,评估某个词对完整文章或相关语料的重要程度,即一个词语的重要程度与它在文章中的出现次数成正比例关系,与语料库文章含有它的文章数频率成反比例关系。然而,由于弹幕具有无效高频词干扰较重、数据稀疏、内容分散等特点,传统的TF-IDF对当今网络视频平台的弹幕内容进行关键词提取的效果过于单一化。本文在传统TF-IDF算法的基础上引入三元组表示词特征并通过分段函数对字数与篇张数进一步划分,最终构建了TTF-ICDF关键词提取模型。
1.1 TF-IDF模型
传统的TF-IDF模型可分为TF(词频)与IDF(逆向文件频率)两个部分。TF指的是某词在文章中出现的总次数,该指标通常会被归一化定义为TF=某词在文档中出现的次数/文档的总词量。其公式如式(1)所示
(1)
其中,ni,j为该词在文件dj中出现的次数, ∑knk,j是文件dj中所有词汇的出现次数总和。IDF是逆向文件频率,即包含词语t的文档越少则说明词语t具有较高的类别区分能力且IDF值相应增大。IDF和TF-IDF算法如式(2)、式(3)所示
(2)
(3)
1.2 TTF-ICDF模型
针对传统TF-IDF在视频网站提取弹幕关键词结果过于单一化,总体效果较差的问题,本文对TF与IDF均进行了改进。TF方面,通过考虑不同类别视频弹幕的特征以及弹幕与其视频标题及原有标签的关系构建了三元组 〈wi,titj,tipj〉 表示词特征,并通过对B站中新闻、医疗、军事、科技、美食、明星等10个类别视频标题进行综合分析,最终建立词性表Tibletit。 词性表可以用来过滤标题中的非关键信息,并将关键信息标记为titj。 本文采用word2vec模型对MSR(微软亚洲研究院语料库)进行训练得到字向量,并利用余弦相似度计算公式计算出与titj所含词语最接近的3个词并将其标记为tipj。 TTF通过titj与tipj综合考虑视频关键信息对词频统计结果的影响,其分段函数为
(4)
其中,wi为词语i,γ为标题所占权重,δ为标题延伸词所占权重。 ∑knk,j为文件dj中所有词汇的出现次数总和,titi,j为基于标题词性及视频原有标签所构建的数据集中词i在文件dj中出现的次数,tipi,j为通过word2vec模型构建的标题近义词数据集的词i在文件dj中出现次数。若计算时出现未登陆词情况则通过编辑距离公式进行词语形似度计算。
IDF方面,其只是通过包含候选词的文本在语料中出现的频率判定单词的重要程度。此外,由于弹幕的信息中还含有大量网络词汇以及未登陆词,也很可能导致语料文档中没有出现对应词语从而导致关键词提取准确率较低的问题。这里通过分段函数给出基于字数与篇章数相结合的ICDF算法在改进了篇章比例算法的同时引入了候选词与文章总字数比。其公式如式(5)所示
(5)
其中,w为文档中任意词语,wi,j为第j篇文档中位置为i的词语, ∑j∑iwi,j表示语料库中所有词语总和,αj,i为某词语在文档j中的个数, ∑jαj,i表示语料库中某个词语的总和,js为语料库总文档数,jv为出现词语wi,j的文档数。本文采用复旦大学中文语料库20类文档中的10类文档共1000篇文本构成文本语料训练库,因此TTF-ICDF模型公式可以表示为
TTF-ICDFi,j=ttf*ICDFi,j=
(6)
利用三元组信息特征与字数篇章数相结合的方法对网络视频弹幕文本进行提取的关键词是基于词频的关键词提取。由于文本中出现次数少但语义层面十分重要的词无法通过基于词频的关键词抽取得到,所以我们将通过DWTextRank对弹幕文本进行语义层面的关键词提取以得到与全文主题相近但出现频次较少的关键词。
2 基于DWTextRank模型的关键词提取
弹幕文本是由不同用户对视频内容的看法组成,其内容无先后逻辑顺序。如果仅依靠基于词频的关键词抽取难以表达文本语义信息,可能会遗失与弹幕主题相关但词频出现次数较少的词语。因此,针对弹幕文本的关键词提取不能只依靠词频这一个维度。针对上述问题,本文提出了一种基于语义信息提取弹幕文本关键词的模型—DWText-Rank模型,其利用改进后的词语相似度计算与编辑距离的方法完成语义层面的关键词信息提取。由于弹幕文本无先后逻辑顺序,并且爬取到的弹幕内容总和较多,对任意两个词均进行相似度计算费时费力且得不到理想的效果。为了提高关键词的提取效率,本文利用DWTextRank模型结合标题所蕴含的关键信息对弹幕文本进行语义维度上的关键词提取。
2.1 基于编辑距离与词向量的相似度计算
编辑距离算法由俄罗斯科学家在1965年提出,它用来度量两个序列相似程度的指标。弹幕文本内容经过分词后长度通常为2或3个字符,如果直接利用编辑距离计算相似度,所得结果只能为0、1、2。该结果无法清晰体现相似度关系并且会造成较大误差。本文提出基于拼音维度的编辑距离算法并通过归一化运算体现文本相似度关系,再通过上文提到的词向量模型,综合计算出文本词语相似度,公式如式(7)、式(8)、式(9)所示
(7)
(8)
Sim=Simpin(si,sj)+Vec(a,b)
(9)
其中,pina,b(i,j) 为字符串a,b转化为拼音形式。Simpin(si,sj) 为拼音形式编辑距离计算后归一化的结果。lmax是si与sj中拼音字符串的最大长度。Vec(a,b) 表示词与词之间的相似度。Sim表示词语总相似度。
2.2 基于DWTextRank的关键词抽取
TextRank算法的思想来源于Google公司的PageRank算法,它利用词共现的方法把文本中的句子或词语看作图中的节点,如果句子或词语具有相关性则认为两个句子或词语对应节点间存在带权边。根据连接关系图并依据词语的重要程度对词语进行排名获得关键词。使用传统Text-Rank算法处理弹幕文本时,弹幕文本无前后逻辑顺序会导致处理结果产生较大误差。
基于DWTextRank的关键词抽取算法在传统TextRank算法上进行了改进。首先,利用词性表过滤标题中非关键信息,构建titj,tipj文本集。合并titj,tipj文本集生成titall文本集并逐一使用titall中的词语与对应弹幕文本中的所有词语进行式(7)~式(9)的编辑距离和词向量相结合的相似度计算,将结果标记为DW1。其次,为解决运算量过大造成的时间成本,本文将DW1降序排列,提取前50个关键词形成初始语义关键词集合Yu。最后,将Yu集合中的词语通过式(10)进行运算
(10)
其中,d[14]为阻尼系数(取值为0~1)代表从图中某一特定点指向其它任意点的概率,一般取值为0.85[15]。使用DWTextRank算法计算各节点得分时,需赋予节点任意初始值并通过递归计算直到收敛,即图中任意一点的误差率小于给定的极限值时则称其为收敛,本文的极限值取为0.0001。利用式(10)抽取出弹幕文本中基于相应主题在语义维度上的关键词。
3 实验设计与数据分析
为了获取真实实验数据,本文利用网络爬虫技术对B站弹幕进行获取,并使用HanLP系统对弹幕内容进行文本预处理,随后通过实验的方式选择TI-Rank模型参数,最终依据关键词提取结果对TI-Rank模型的算法进行评价。
3.1 数据预处理
因B站对每次弹幕爬取的数量存在限制因此无法一次性获取全部弹幕内容,为避免弹幕获取的片面性对分析结果造成误差,我们设计的爬取流程如下:
构建头文件数据池。
(1)每5 min更换一次头文件并对弹幕内容进行爬取;
(2)若内容重复则舍去,重复步骤(2);
(3)若内容不重复则追加入数据库;
(4)若重复数据重复次数大于4次或已成功爬取5次,则结束爬取。
以标题为“bilibili献给新一代的演讲《后浪》”的视频为例,其部分弹幕文本的原始数据见表1。
表1 弹幕文本原始数据格式
通过分析发现,B站弹幕文本数据有以下3个特点:①文本含有大量符号、重复字和未登录词;②内容较长且关键信息分散;③较多英文、数字等干扰信息。
针对这种特点,这里制定的处理策略主要包含分词、停用词过滤和词性标注。本文采用HanLP系统对文本进行数据预处理操作:首先,对文本进行分词并剔除单字词。其次,去除停用词并依据词性对文本内容进行过滤。
3.2 TI-Rank模型参数选择
3.2.1 TTF权重γ与δ的选择
权重γ与δ的选择对TTF-ICDF模型中TTF算法抽取弹幕信息的效果有很大影响。因标题关键内容与视频主题的相关程度大于标题关键内容的近义词与视频主题的相关程度,所以γ的权重要大于δ的权重。为更好确定γ与δ的值,本文通过人工筛选出10个titj与人工标注的关键词存在较大差别的弹幕文本并通过改变γ与δ的值进行实验。实验发现γ与δ的值设置较大会导致标题中的信息在关键词中过于凸显,造成模型准确率下降。相反,γ与δ的值设置较小会导致标题中的关键信息被忽略。如图1所示,当γ=3,δ=2时,模型提取关键词与人工标注结果最为贴合,因此在后续实验中使用γ=3,δ=2进行运算。
图1 γ与δ的权重选择
3.2.2 ICDF中jv参数的选择
在ICDF算法中选取合适的参数jv可更好体现词语的重要程度,本实验分别选取不同的jv=[0.01,0.05,0.1,0.2,0.3,0.4,0.5,0.6,0.8] 值。当jv取不同值时,计算弹幕文本中关键词提取的准确率如图2所示。
图2 jv取不同值的准确率比较
由图2可以看出,当jv为0.1时整个模型准确率达到最高且高于原生TF-IDF模型,因此本文的jv值设为0.1。
3.2.3 三级梯度评价标准参数选择
在计算关键词准确度时,考虑到视频平台关键词排序应符合优先级递减规律,本文在使用传统衡量标准的同时,引入三级梯度评价标准对模型抽取结果与人工标注结果进行同级评价。本文对每个弹幕文本抽取7个关键词,依据TF-IDF、TextRank与TI-Rank模型对关键词的提取均符合降序排列的特点。其中,7个关键词被分为三级且每级对应一定的权重。
(1)词汇量参数选择:对每个弹幕文本抽取的7个关键词可分为1个二级模型和两个三级模型见表2。
表2 词汇量参数选择
为更好体现梯度化效果,本文选用三级模型中的第一个,即一级包含一个关键词,二级包含两个关键词,三级包含4个关键词。
(2)评价标准权重参数选择:为更好凸显关键词排列顺序对结果造成的差异,本文为分析不同权重分配(数据见表3)对三级梯度评价标准的影响进行了多组实验。
权重评价标准应满足一级关键词权重大于二级关键词权重大于三级关键词权重。从表3中可知测试1不符合要求,因此测试2赋予的权重为本评价标准适用的下限。为了研究不同权重分配对评价的影响,本文对测试2~测试8
表3 三级梯度评价标准的权重分配/%
随机抽取不同领域的弹幕文本进行关键词准确率计算,随后再通过平方差公式计算模型准确率的稳定性。方差越大说明数据波动越大。平方差公式为
(11)
图3 权重参数对应准确率
图4 权重参数对应方差
3.3 TI-Rank模型算法评价
由于本文使用无监督模型无法通过直观的评价标准衡量模型的好坏,因此我们选择对弹幕数据进行人工标注,通过对弹幕的阅读并结合视频内容综合标记出最合适的7个关键词作为正确标签。通过平均准确率P、 平均召回率R与平均F1值(分别如式(12)、式(13)和式(14)所示)对弹幕文本提取结果进行计算
(12)
(13)
(14)
其中,xi表示人工标注标签个数,yi表示算法获取的标签个数,N为对应领域的弹幕文本总数。
为了验证TI-Rank模型在弹幕关键词提取方面优于TF-IDF与TextRank模型,本文展示实验中不同模型对不同视频提取关键词的效果对比见表4。其中视频1为“【中国商业史01】欠债不是1.5亿而是20亿,王思聪濒临破产其实另有隐情,揭秘国民老公背后的资本故事”、视频2为“疫情,正逼死美国穷人|剖析美国医保顽疾+中国制度自信”、视频3为“张召忠说175:东风快递,使命必达!局座首评东风-17!揭秘王牌武器!”。分别使用传统评估标准和三级梯度评价标准对每个模型计算其平均F1值见表5。
表4可知,TI-Rank算法提取效果从准确度和排列顺序两方面均和人工标注结果非常接近。从表5数据中可以看出,TI-Rank模型在传统评估标准与三级梯度评价标准下平均F1值的计算结果均高于TF-IDF和TextRank模型。
上述结果表明,TI-Rank模型在视频平台提取弹幕文本关键词上取得了很好的效果。因此,本模型相较于常用的TF-IDF和TextRank模型更适合弹幕文本的提取且提取出的内容更贴近于人工反馈的关键词结果,有利于用户快速了解视频内容并方便网站进行视频精准推送。
表4 不同模型对视频1~视频3的关键词提取效果对比
表5 平均F1值计算结果
4 结束语
视频弹幕已成为人们观看视频实时分享感受的重要工具,但网站给出的视频原有标签并不能很好反映出这些感受的侧重点。为了提取出更贴合用户感受的关键词,本文针对弹幕内容特点对传统TF-IDF和TextRank算法进行改进,提出了基于词频词义相结合的TI-Rank算法。其中,本文将汉语拼音引入汉字的编辑距离计算,提供了一个更适合汉字的相似度计算算法。此外,在考虑到关键词在实际应用时需要按优先级排序的情况,本文新定义了三级梯度评价标准并以B站视频弹幕为例对新旧模型已提取的关键词与人工提取关键词进行准确率计算,发现TI-Rank算法相对于传统算法在提取弹幕关键词方面具有明显优势。