基于文本相似度的新闻自动摘要算法研究

2022-03-10李栋凯张永昌

科学与信息化 2022年4期

李栋凯张永昌

1. 河北工程大学信息与电气工程学院河北邯郸 056038；2. 河北工程大学土木工程学院河北邯郸 056038

引言

互联网的快速发展孕育了自媒体并带动自媒体飞速发展，但很多自媒体新闻的正文与其所写的标题并不完全相符，甚至有些自媒体为“博眼球”把新闻标题和标题完全无关的内容生硬的进行捆绑，这消耗了读者的有效阅读时间。新闻自动摘要技术可以快速形成新闻汇总，聚焦新闻热点，提高读者的阅读效率，改善阅读体验。

本文将textrank[1]、word2vec[2-3]和MMR[4-5]三种语言模型用于新闻自动摘要算法的研究。通过仿真实验结果的对比发现：①textrank算法得到的摘要语句可读性差，理解困难；②在textrank算法基础上增加word2vec模型后对整篇新闻的概括度较高，但将并不能很好的解决信息冗余和效率低的问题；③MMR可以有效去除信息冗余，体现语义的多样性。

1 算法简介

1.1 textrank算法

textrank被用来做文本摘要[1]的步骤如图1所示。首先逐条提取目标文本中的句子，并把提取到的句子表示成向量形式，用非稀疏矩阵来表示文本中所有句子之间的相似性；然后，将句子作为节点，句子之间的相似度作为边的权重，将矩阵转换成一个图的表示形式；最后，对所有句子节点按照其边的权重重新排序，提取出排名靠前的句子作为摘要。

图1 textrank摘要步骤

Textrank中计算两两句子间的相似度通过式（1）来计算，等式的右边表示目标文本中第i个句子和第j个句子的相似度，等式右侧的分子代表第i个句子和第j个句子所有单词的数量。

1.2 word2vec模型

实现textrank算法中有一步需要把文本中的句子转化为向量的表示形式。这一步骤可以通过TF-idf，word2vec以及characterbased等方法来实现。其中，TF-idf是依据词语在文本汇总出现的频率计算；word2vec生成的向量可以进一步表示出词与词之间的联系；character-based仅是把一个词语转换为一个字符来表示。本文采用word2vec模型用于改进textrank算法的新闻摘要生成质量[2-3]。

word2vec模型本质上是去掉了隐藏层的人工神经网络模型。该模型认为上下文中词义相近的词，它们对应的向量之间距离相近。它主要是对比某个词和与它相邻的词之间的关系。比如“她给小明做午饭”。如果“小明”作为中心词，那么和它相邻的词有“她”、“给”、“做”、“午饭”。在“她给小李做午饭”。中选取“小李”为中心词，与这个词紧邻的同样有“她”、“给”、“做”、“午饭”。因此与这两个中心词的相邻的词是完全相同的，经过向量计算我们希望得到“小明”等于“小李”。

1.3 MMR算法

MMR算法又被称为最大边界相关算法，是在研究查询结果的多样化时提出[4-5]。最初MMR被用来计算Query文本与被搜索的文档两者的相似度，后来也被用于rank排序。MMR的数学计算公式如式（2）所示：

采用MMR最后生成摘要的句子有两个特性，一是该句子的重要性更高，二是这个句子和其他句子之间的相似度更低。因此，通过MMR算法得到的最终摘要，句句都很重要，但句句都不一样。抽取的句子既能表达整个文档的含义，又可以兼具语义的多样性。

2 仿真实验

本文选取2008版的搜狗实验室的全网新闻数据（SogouCA）作为实验数据集，该数据集来自若干新闻站点包含国内，国际，体育等18个频道。全网新闻数据（SogouCA）中的数据格式为图2所示，它提供了URL、标题以及新闻正文的内容。该数据集中有的新闻正文长句较多，有的正文则很短甚至没有正文，且不是所有的新闻都有标题。

图2 数据集中的数据格式

新闻文本里的正文内容含有特殊的符号比如：表情符号、空格、英文字母等，且全角半角使用较混乱。实验前需要通过数据预处理对给新闻文本进行整理，以去除特殊符号，将全角转换为半角，从而便于随后实验步骤的进行。

本文采取Anaconda（python3.8）与Pycharm搭配使用作为仿真实验工具。使用jieba分词工具的精确模式去停用词。使用anaconda中的opencc库来进行繁体简体之间的转换。具体仿真平台参数如表1所示。

表1 仿真工具平台

以搜狗实验室的全网新闻数据(SogouCA)中一条体育新闻为例，原文如图2所示，展示了三种文本摘要算法生成的摘要结果分别如图3-5所示。

图2 新闻原文

图3 textrank摘要结果

图4 增加word2vec后的textrank摘要结果

图5 MMR算法摘要结果

对比摘要生成情况可以发现，textrank提取了新闻的最后一句话，使用了词向量生成模型的textrank提取到了新闻的第一句话。在实验中发现采用textrank算法倾向于提取文本最后一句话作为摘要句，而采用word2vec模型的textrank算法同时提取了文本第一句话。因此，增加了word2vec模型的textrank算法对整篇新闻的概括度较高。

MMR摘要方法抽取出来的句子之间的关联性不大，比较跳跃性，可读性差。但MMR相比于textrank提取的句子多样性较好，冗余较小，可以较完整概况新闻整体内容。