APP下载

基于TF-IDF和word2Vec的中文文本自动摘要模型

2023-06-24龚永罡郭远南

中国新通信 2023年2期
关键词:相似度

龚永罡?郭远南

摘要: 随着互联网时代的数据爆炸,在短文本信息数量迅速增长的环境下,为了更好地进行中文本摘要模型的计算,本文针对短文本的文本特征提取和相似度计算进行了深入研究。本文将优化的TF-IDF模型和Word2Vec模型结合起来,进而提出一种兼顾短文本统计特征和语义特征的合并加权Word2Vec和TF-IDF的文本特征提取算法,将文本进行向量化表示;随后,在文本的相似度算法中,基于短文本的特征,选取了余弦相似度算法,对短文本间相似度值进行了有效计算。实验结果表明,使用TF-IDF和Word2Vec结合模型与传统单个模型相比,生成出的文摘准确性更高,质量更好。

关键词:  文本特征;相似度 ;Word2Vec;TF-IDF;余弦相似度

一、引言

隨着互联网技术的飞速发展,人类也进入了信息海量获得的时代,各种各样的信息以惊人的速度呈现在我们生活的各个方面。海量信息中除了一小部分是纸质信息外,绝大部分信息来源都为数字化、移动化和网络化的阅读,该种信息来源带来了与传统阅读习惯完全不同的模式。阅读模式的变革对信息质量提出了更高的要求,为了满足更好的阅读标准和高质量的信息传递的要求,需要深入研究相关技术手段对于文本信息的合理压缩,并基于压缩的内容实现对于关键信息的筛选,尽最大的可能获得文本信息中最为关键且有价值的内容信息。本研究为了解决上述文本信息中存在的各种问题,以中文自动文本摘要作为主要的研究对象和内容,针对新闻等短文本内容的文本摘要提取问题,设计了一个基于TF-IDF和Word2Vec的文本特征提取和相似度计算模型,并运用实际数据对模型进行验证。

二、国内外研究综述

国内外基于文本的自动摘取技术最早可以起源于20世纪60年代,由美国学者Luhn[2]率先提出文本自动摘取的概念,随后借助于互联网技术的发展,形成了自动生成和抽取式两种文本自动摘取的形式[3]。自动生成式摘要由于在进行文本抽取的过程中对于词语的顺序不进行排序,因此存在文字不通顺,对于原有文本信息的概括性较差的问题[4];而自动抽取式文本主要通过从序列到序列的框架文本抽取,因此在进行关键词和文本的抽取过程中,可以保证语句的通顺,在对于文本自动摘要的过程中,通常使用自动文本抽取摘要技术[5]。

在Word2Vec模型中,分别存在 CBOW 与 Skip-Gram 模型两种计算方法,在实际的运用中,前者可以用于文章连续的词汇预测,而后者可以通过关键词汇预测上下文,两种算法的结合实现了对文本特征和语义的有效提取和应用,在文本摘要生成的建模和相似度计算中体现了良好的计算性能[7]。1999年,Aone通过TF-IDF算法来对文本中的关键词进行提取,并用提取到的关键词代表文本的主要特征,随后使用朴素贝叶斯算法对文本中句子的概率进行了详细计算,通过将TF-IDF算法和朴素贝叶斯算法的结合,提升了文本模型的分类效率。但是由于TF-IDF仅仅针对词语的频率进行了考量,并未能全面考虑特征信息在文本中的整体分布问题,因此在对于文本特征的反映并不全面,也未能反映全部的词语含义,因此后期又有部分学者针对上述问题进行了改进,程龙等学者为了克服TF-IDF和关键词提取的冲突问题,提出可卡方检验法,重新构建了关键词的抽取系统,建立了基于文件存储、预处理、度量值计算、排序抽取和优化输出等全过程,对于文本特征提取的全过程进行了进一步的优化[11]。

虽然中文文本自动摘要的研究逐渐发展,并在文本特征提取、图模型等问题中取得了丰富的研究成果,但是在对于短文本进行自动摘要还是存在诸多问题,并未能取得十分满意的效果,因此本文通过对文本自动摘要任务的基础研究,对短文本建模和相似度计算进行了着重研究,将TF-IDF模型和word2vec模型结合起来,进而提出一种兼顾短文本统计特征和语义特征的合并加权word2vec和TF-IDF的文本特征提取算法,将文本进行向量化表示。

三、相关算法和模型

(一)词频和逆文档频率(TF-IDF)模型和优化

TF-IDF是一种统计算法,主要用于对文本中单个词语对于文件集或资料库文件重要程度的评估和计算。TF-IDF的计算模型其实是词频和逆文档频率的乘积,即为TF-IDF。在该式中,词频表示的是指定词汇t在特定文档d中出现的频率,其可以用下式表示:

(1)

上式中,ni, j表示特征词ti在文本中dj的出现概率;表示的是文本中dj中该词语的次数和,k代表文本中dj的总词数。

IDF则主要指的是特征词语的逆向文件频率,通常由总文档数据除以包含该词语的文档总数得到,主要计算公式如下:

(2)

在上式中,表示语料库中的文档总数,表示包含该特征词ti的文档数目,如果该特征词在语料库中未有体现,则使用  表示。

(二) Word2Vec模型

在Word2Vec模型中,分别存在 CBOW 与 Skip-Gram 模型两种计算方法,通过上述两种模型的计算可以得到高质量的词向量,Word2Vec的词向量维度一般为100-300之间,大大减少了计算的复杂性,同时对于原有语义进行了充分获取,计算了两个词汇间的相似程度。以上这两种算法的映射的关系可以对CBOW和Skip-Gram两种算法的训练目标优化函数进行如下表示:

(3)

(4)

上式中C为文本库中所有的词语,k为wt上下文窗口大小。

四、文本特征提取和相似度计算

(一)文本特征提取

本研究在对短文本特征的提取过程中采用了优化后的TF-IDF和Word2Vec相结合的算法,该特征提取的主要步骤如下。首先,需要对短文本集进行预处理,将文本中无关的内容进行删除,随后对其文本进行分词后,去除停用词。随后,利用对于相关短文本中的语料训练Word2Vec,初步得到词的向量化表示。根据文本中dj出现的词,将其进行向量累加,最终得到短文本向量即V(dj )。特征词汇t的Word2Vec的词向量表示则为W2V(t)。因此,可以得到如下表达式:

第三步,将通过上文中的优化后的TF-IDF算法中计算得到的词权重与上文中Word2Vec的词向量相乘,即可得到融合后的加权文档向量Weighted_V(dj ),可表示为:

(5)

最后,需要将上述加权后的Word2Vec模型和TF-IDF模型进行进一步的结合。首先将Weighted_V(dj )和进行了标准化,同时引入了平衡参数,α [0,1]因此,得到了结合后的新的文本向量U(dj ),其可以进一步表示如下:

(6)

(二)相似度計算模型

本研究选用了余弦相似度的距离计算方法,假设有向量χ=(χ1,χ2,…,χn)以及y=(y1,y2,…,yn),则向量间的余弦距离的具体计算公式如下:

(7)

基于上文中的公式,可以得出其具体计算流程如下:

五、实验环境及结果

(一)实验环境

操作系统:Windows 10  64位中文版

CPU:Intel(R) Core(TM) i7

内存:16G

GPU:RTX 2060。

数据来源:新浪微博开放平台。

(二)实验结果

本次实验计算ROUGE-1和ROUGE-2两个评价指标,评价所需人工文本摘要由两人同时给出,最后计算综合共现率。人工评价方法则人工按照文摘的评价标准对生成的文摘打分,从句子的连贯性、逻辑性、符合主题等几个方面打分,分数为0至5分。选取十篇相同主题的中文文章进行实验。

实验结果表明,将TF-IDF和Word2Vec结合应用到中文自动摘要中,文摘效果得到了显著的提升,且提升了整个文摘生成的效率。

六、结束语

本文根据短文本的特点,对短文本建模和相似度计算进行了着重研究。在建模阶段,将TF-IDF模型和Word2Vec模型结合起来,进而提出一种兼顾短文本统计特征和语义特征的合并加权Word2Vec和TF-IDF的文本特征提取算法,将文本进行向量化表示。通过理论分析和实验,本研究的模型具有较高的运算速度和准确性,为今后提升文摘质量和拓宽文摘模型的研究提供思路。

作者单位:龚永罡 郭远南 北京工商大学人工智能学院

参  考  文  献

[1]黄鸣奋.后信息爆炸时代的数码阅读[J].福建论坛(人文社会科学版),2015(02):59-67

[2]Luhn H P. The  automatic  creation  of  literature  abstracts[J].  IBM  Journal  of  Research and Development, 1958,15(09): 159-165..

[3]郭绍华.网络信息检索技术的现状及发展趋势[J].黑龙江教育学院学报,2011,30(6):200-202.

[4]冯勇,刘瑶,徐红艳.一种基于标签用户模型的个性化信息检索方法[J].小型微型计算机系统,2014,35(09):2004-2008.

[5]王健.基于统计的Web文本自动摘要技术[J].科学导报,2016(08):132-137.

[6]劳南新,王帮海.基于BERT的混合字词特征中文文本摘要模型[J].计算机应用与软件,2022(06):039.

[7]蔡中祥,孙建伟.融合指针网络的新闻文本摘要模型[J].小型微型计算机系统,2021,42(03):5.

[8]符升旗,李金龙.基于分层信息过滤的生成式文本摘要模型[J].微型机与应用,2021,40(05):62-67.

[9]龚永罡,王嘉欣,廉小亲,等.基于SiameseLSTM的中文多文档自动文摘模型[J].计算机应用与软件,2021,38(03):287-290,326.

[10]吴世鑫,黄德根,李玖一.基于语义对齐的生成式文本摘要研究[J].北京大学学报:自然科学版,2021,57(1):6.

[11]程龙.基于改进TF-IDF算法的信息抽取系统设计与实现[D].北京邮电大学,2019.

猜你喜欢

相似度
改进的协同过滤推荐算法
模糊Petri网在油田开发设计领域的应用研究
相似度算法在源程序比较中的应用
基于混合信任模型的协同过滤推荐算法
基于灰度的图像边缘检测与匹配算法的研究
句子比较相似度的算法实现?
影响母线负荷预测的因素及改进措施
基于粗糙集的丽江房价研究
一种基于深网的个性化信息爬取方法
基于贝叶斯网络的协同过滤推荐算法