基于预训练的谷歌搜索结果判定

2024-05-09张恩伟卓俊杰陈志立

中文信息学报 2024年3期

张恩伟,胡凯, 卓俊杰,陈志立

(1. 南京信息工程大学自动化学院,江苏南京 210044;2. 上海传英信息技术有限公司 AI技术部,上海 201203;3. 江苏省大气环境与装备技术协同创新中心,江苏南京 210044)

0 引言

如今随着互联网的不断普及,网络搜索技术已经主导了最近的网络研究和开发活动。然而,从计算机科学和用户角度上来看,一个非常重要的问题频频出现在眼前——搜索引擎返回的结果是有意义的吗?判断搜索结果是否有意义是处理网页中大量信息的初级阶段,为信息过滤、情感分析、信息抽取、搜索引擎优化等任务提供了基础[1-4]。例如,通过判断查询的结果是否有意义,可以过滤掉低质量的关键字查询。通过判断返回的结果是否有意义,可以对网站进行优化,提升排名和质量[5]。通过初步判断过滤掉无意义的返回结果,可以避免在信息抽取过程中抽取到低质量的信息。

在所有的搜索引擎中,自1998年谷歌公司成立以来,谷歌搜索引擎逐渐占据主导地位。根据研究,当前网络上有75%的网络搜索都是由谷歌搜索引擎直接或者间接处理的[6]。所以在本文中,我们选择谷歌搜索返回的结果作为我们的训练数据。

对文本数据进行特定类别的划分称为文本分类,其是从海量的文本数据中提取有用信息的重要手段,对谷歌搜索结果的判定属于文本分类的领域。传统的基于机器学习的分类方法包括朴素贝叶斯分类器[7]、决策树分类器[8]、支持向量机[9]等。其中,朴素贝叶斯分类器基于文本中词语出现的概率和分类先验条件,计算给定文本属于某类别的概率,计算速度快,对高维数据表现良好,但是对输入数据的特征分布要求很高,由于该模型是一个词袋模型,所以它容易受到停用词等非信息词的影响,影响分类准确性;决策树分类器采用一种基于树形结构的文本分类方法,但不适用于高维的大规模文本数据;支持向量机在处理高维度、高稀疏的数据时表现优异,但是容易受到输入噪声的干扰,并且对大规模的数据处理速度较慢。

上述基于机器学习的方法大多依赖于先验知识,无法处理较为复杂的问题。近年来,深度学习的迅速发展使得其在不同的领域都取得了成功,与传统方法不同,深度学习方法是通过学习一组非线性转换,将特征工程集成到模型拟合过程中,从而将特征直接映射到输出。如今,以卷积神经网络(CNN)[10]。循环神经网络(RNN)[11]、长短时记忆网络(LSTM)[12]为基础的深度神经网络模型在自然语言处理领域被广泛应用。例如,黄磊等人[13]研究了基于长短时记忆(LSTM)和门控递归单元(GRU)计算节点的双向递归神经网络在文本分类中的应用,在计算过程中保留了原文本中语义组合的方式,缓解了传统文本分类方法无法关注文本内部语义特征之间关系的不足。曾经,许多研究者通过改进CNN、RNN和融入注意力等方法来提高不同任务下的文本分类性能[14-16],直到后来BERT的出现,成为文本分类和其他自然语言处理技术发展的一个重要的转折点,众多的研究者研究了基于BERT[17]的文本分类模型,该模型在包括文本分类在内的多个NLP任务中都取得了比上述模型更优的性能[18-19]。然而,由于谷歌搜索返回的结果复杂多样,其中不仅仅包含文本信息,还包含有图片、结果数量等一系列因素,单一的文本模型已经无法满足任务的需求。所以如何从返回结果中有选择地提取出模型需要的输入特征显得至关重要。

上述研究虽然在文本分类领域取得了不错的成绩,但是对于谷歌搜索结果的判定这种特定任务的研究却显得不足。针对以上问题,本文研究了谷歌搜索返回的结果,主要贡献如下:

(1) 为了方便研究,构建了一个适用于谷歌搜索结果判定的数据集(GSD)(1)GSD数据集可以从以下链接获取(由于query字段涉及到个人隐私,将这一部分进行了马赛克处理): https://github.com/DHASJ/web_search,用于模型性能的检验。

(2) 提出了一种将BERT和CNN结合起来的双通道模型(DCFE),用于实现对谷歌搜索结果的判定,填补了当前这类任务上的空白。

(3) 通过基于真实数据下自建的数据集对提出的模型进行了性能评估,证明了本文提出的模型的有效性。

1 相关工作

在过去的工作中,研究者们大都使用机器学习的方法进行分类,后来深度学习的兴起使得研究者们将目光投向了这一技术。当前在文本分类任务中使用较多的模型有卷积神经网络(CNN)、循环神经网络(RNN)、门控神经网络(GRU)[20],长短时记忆网络(LSTM)、基于注意力机制的网络等。

1.1 基于卷积神经网络(CNN)的模型

卷积神经网络起初主要被应用于视觉领域[21-23],然而后来一些研究者发现将其用于自然语言处理中也可以产生较好的效果。CNN通过使用连续的卷积层和池化层对图像或文本进行分类,其中池化操作能够识别显著特征并大大降低卷积操作带来的计算复杂度。Chen等人[24]提出了一种基于TextCNN的文本信息提取模型,对检查文本中涉及的电力设备的风险等级进行分类,用于局部电力设备状态的评估。Zhang等人[25]对字符级卷积神经网络(ConvNets)在文本分类中的应用进行了研究。Liu等人[26]首次尝试将CNN应用于极端多标签分类(XMTC)问题中,结果证明了在极其严重的数据稀疏性和可伸缩性下,CNN可以取得不错的成绩。刘龙飞等人[27]将字级别词向量和词级别词向量作为原始特征,利用卷积神经网络来对微博中的情感倾向进行分析。卷积可以通过滑动窗口的方式在文本中寻找不同的特征模式,能够有效地捕捉不同类型的局部特征。然而,由于卷积只能捕捉到局部信息,对长距离地上下文依赖关系的关注度不够,在较为复杂的任务中无法满足任务需求。

1.2 基于循环神经网络(RNN)的模型

RNN通过将文本视为单词序列,其隐藏层能够捕获单词之间的依赖关系和文本结构,实现上下文的理解和表示。Liu等人[28]曾基于RNN提出了三种不同的信息共享机制,以特定的共享层来建模文本,目的是跨多个任务来进行联合学习。然而,RNN在训练过程中容易出现梯度消失和梯度爆炸的问题,导致长期依赖信息无法被有效处理,对长文本不太友好。正是由于这些原因,后来GRU、LSTM等网络才相继被提出。

1.3 基于门控神经网络(GRU)和长短时记忆网络(LSTM)的模型

GRU和LSTM通过引入门控机制和记忆单元来控制和保留长期依赖信息,解决了之前RNN出现的梯度爆炸和消失的问题,提高了模型的训练速度,同时减少了模型过拟合的风险。Johnson等人[29]利用LSTM研究了一种更加复杂的区域嵌入方法,将区域嵌入以LSTM和卷积层的形式结合在未标记数据上训练,可以得到较好的结果。Tai等人[30]提出了一种Tree-LSTM模型,通过将LSTM推广到树状结构的网络模型来学习丰富的语义表示。然而,由于GRU和LSTM复杂的结构和门控机制,导致训练和推理速度较慢,相对于注意力机制的网络来说,模型的输出不够直观,并缺少可解释性。

1.4 基于注意力机制的模型

注意力机制被证明在识别文本中的相关词方面是有效的,并且如今已经成为了深度学习模型中被普遍使用的方法[31]。在语言模型中,注意力可以被认为是重要性权重的向量,可以用于估计其与其他单词之间的相关性或者“关注”程度。Alshubaily[32]在TextCNN中融入注意力机制来提高网络的性能,并且提出了一种新的词汇选择方式来减少网络的嵌入参数,通过以最小的精度损失来加速模型训练。Yang等人[33]在单词和句子层面使用两层注意力机制,构造了一种用于文本分类的分层注意力网络,能够在构建文档表示时区别关注重要和不重要的内容。注意力机制在文本分类任务中起到了重要的作用,可帮助模型更好地理解和利用输入特征,建立长距离的依赖关系,为模型提供更加灵活、精细的方式来处理文本数据,如今在文本任务中被普遍应用。

2 模型

本文提出的DCFE模型的整体结构如图1所示,该模型接受两条通道的输入特征,左边通道用于提取文本内容中的语义特征,该通道的输入是输入查询和搜索返回的结果;右边通道作为辅助通道,对搜索页面的参数信息进行特征提取,该通道的输入是搜索返回结果中的各种参数。该模型一共包含三个部分:

图1 DCFE的整体结构图

语义信息提取模块: 利用基于预训练的BERT模型对搜索页面返回的结果进行文本信息的语义提取,并且通过提取输入查询和返回结果之间的关联信息,为接下来的分类过程提供语义信息的参考。

参数特征提取模块: 用于对搜索返回结果中的量化信息进行编码和特征的提取,用于指导对语义信息的分类

多尺度特征注意力TextCNN:对已经得到的语义信息和参数特征信息融合后进行二次特征的提取,并且生成最终的分类结果。

针对本文所应用的特定的任务,本文基于预训练的BERT模型进行改进与优化,并且提出了一种新的网络结构(DCFE),用于对谷歌搜索返回结果是否有意义的判定。

2.1 语义信息提取模块

BERT是一种强大的语言表示模型,以往的研究表明它在不同的语言理解基准中表现出强大的优势,并且具有捕获语言结构信息的可能性。Jawahar 等人[34]研究了BERT模型在学习英文语言结构时在不同的网络层次中都学习到了什么。由于BERT在不同的层次中提取的信息互不相同,同样的信息并不会出现在不同的层中,例如来自低层的短语级信息在高层中会被逐渐稀释,所以单一地使用最后一层的偏向于语法粒度的特征是不充分的。本文将提取到的不同层的特征进行融合,实现了在保留文本中语义属性的情况下, 对输入特征进行不同层次的信息提取的过程,从而解决了在提取文本信息过程中产生的信息丢失的问题。

在具体实现过程中,本文使用了基于预训练的24层BERT模型,在语义信息提取模块中返回每一层的特征表达,并且将其进行拼接用于后续的处理,如式(1)、式(2)所示。

其中,Hi表示前一层隐藏层的输出,Hi+1表示当前层的输出,i∈[1,2,3],TransformerEncoder(·)表示BERT中的每一层隐藏层,Concate(·)表示拼接操作。

2.2 参数特征提取模块

在谷歌搜索返回的量化信息中,经过处理是一串长序列S={x1,x2,…,xn}。其中每一个元素都包含不同的信息,首先需要对它们进行编码操作,所以我们使用词嵌入层(Embedding)将其编码为一个低维的向量,同时保留其实际含义。将每一个元素进行单独的编码之后,我们可以得到多个长序列,每个序列的表示Y如式(3)所示。

其中,Y∈Rn×d,n表示序列长度,d表示词向量的维度。

由于循环神经网络(RNN)可以表征序列数据的内部关联,在层之间的神经元也可以建立权连接。在这里,我们利用RNN再次对输出的长序列进行辅助特征的提取。RNN内部的计算可以通过式(4)表示。

其中,St-1是前一层隐藏层的输出,St是当前隐藏层的输出,Xt表示t时刻的输入,U和W表示权重参数。经过RNN的过滤,编码之后的序列内部关联更加合理,接下来与语义信息提取模块的信息进行融合后,可以有效地指导其分类。

2.3 多尺度特征注意力TextCNN

对于一个分类任务来说,文本序列中的关键词短语对最终的分类结果显得十分重要,关键词或者短语通常由较短的文本形式出现,所以对其中局部特征的提取能力十分重要。卷积神经网络(CNN)所具有的稀疏交互和参数共享能力,使得其拥有强大的局部信息提取能力,通常被应用于计算机视觉领域。然而,TextCNN的出现表明CNN在自然语言处理领域中被应用的可能性,TextCNN在掌握序列上下文意义的过程中同时收集信息,通过不同大小的卷积核可以有效地捕捉不同长度的关键词和短语,得到不同尺度的特征表示,这种多尺度的融合操作有利于捕获不同粒度的语义信息,并且由于采用了卷积的结构,大大降低了模型的参数量,适合作为本文模型最终的分类器使用。

这里,本文提出了一种改进的多尺度特征注意力TextCNN,在TextCNN原来的基础上对其进行改进,图2展示了本文提出的多尺度特征注意力TextCNN的内部结构。

图2 多尺度特征注意力TextCNN的整体结构

如图2所示,本文利用不同大小的卷积核进行不同尺度的特征提取,并且在其中融入注意力机制。其中,不同大小的卷积核用于提取不同尺度的特征权重, 采用卷积核高度为1的卷积对原始序列进行维度的调整,接着将得到的不同尺度的特征权重与调整后的序列进行乘积运算,得到计算过后的特征序列。定义卷积核大小分别是w∈Rn×k,其中n是卷积核的高度,表示提取长度为n的局部特征,k表示词向量的维度。卷积过程的计算如式(5)所示。

其中,X表示输入序列,Y表示输出序列,b表示偏置项,F(·)表示非线性激活函数,本文使用的是ReLu激活函数,其计算如式(6)所示。

在经过卷积注意力权重的计算后,会得到新的特征序列:S={x1,x2,x3},接着使用最大池化层对得到的特征序列进行处理,保留全局的序列信息,即C′=MAX(C)。接着,我们将得到的带有不同尺度特征的序列进行拼接,最终生成包含多尺度信息的长序列,这里还引入了一个可学习的参数Parms,用于对结果的微调。最后,将得到的长序列向量经过一个三层的多层感知机(MLP)分类器输出最终的分类标签。整个模块的计算过程如式(7)～式(9)所示。

其中,X表示输入序列,wi表示不同的卷积层的权重,bi表示偏置项,F(·)表示非线性激活函数,Concate(·)表示拼接操作,M(·)表示最大池化层,P是一个可学习的参数,MLP(·)表示多层感知机。多层感知机的内部结构如式(10)所示。

其中,i作为上一层神经元的下标,即输入层节点;j作为当前层神经元的下标,即隐藏层神经元;k作为下一层神经元的下标,即输出层神经元。xij表示当前层各神经元的输入,即前一层的输出值;wij表示上一层各神经元到当前神经元的权重,也就是当前层神经元的权重。g(·)代表激活函数,hj表示当前层所有节点的输入权重之和,yj=xjk表示当前层各神经元的输出,即下一层各神经元的输入。

3 实验

对谷歌搜索返回结果是否有意义的判定是一个文本二分类的任务,其中对模型输入特征的选取尤其重要,本文提出了一个用于此任务的数据集,并且将提出的模型应用于此数据集上进行训练,判断所查询的问题通过谷歌搜索返回的结果是否具有意义。

3.1 GSD数据集介绍

GSD数据集是我们自建的一个数据集,用于谷歌搜索返回结果是否有意义的判定,判断搜索返回的结果是否有意义取决于用户是否能够从搜索结果中获取查询问题所需的信息。

表1展示了数据集中所包含的各类特征及其说明。由于谷歌搜索返回的结果多且复杂,我们在意的是谷歌自然搜索结果中所包含的标题、摘要、问题和结果的关联等信息,但是自然结果中往往包含地图、图片等不相关的信息。所以,需要对返回的结果进行筛选,将无用的特征进行剔除,最终我们选择进入到模型之中的特征信息如表1所示。

表1 GSD数据集特征说明

在整个数据集中,本文共标注了6 508条数据,查询问题来自于人们的日常提问,其中搜索返回的结果有意义的问题共有2 358条。搜索返回的结果无意义的问题共有4 150条,将所有数据按照8∶2的比例将其随机分为训练集和验证集。同时,整理了1 000条没有进行标注的数据作为测试集。

在返回的结果中,由于result_count特征的分布差异较大,所以需要首先对其进行预处理才能送入模型中进行训练。图3显示了所有的result_count特征的分布范围,其中横坐标result_count表示返回的结果总数,纵坐标表示查询问题的序号。从图中可以看出,大部分的result_count处于0～0.5 区间内,随着值增大,分布变得越来越稀疏。所以本文首先对其按照集中性进行区间划分,再将其作为输入,表2是其划分的规则。

表2 result_count区间划分规则

图3 result_count特征分布

3.2 实验细节

3.2.1 评价指标

本文中使用准确率(Acc)和F1-measure(F1)来评估模型的性能,其计算如式(11)～式(14)所示,其中准确率表示预测正确的样本数占总样本数的比例,精确率(P)表示在所有预测为真的样本中预测正确的比例,召回率(R)表示在所有的正样本中预测正确的比例,F1-measure是一个综合指标,综合了精确率和召回率之后的分数。

在上式中,TP表示被预测为真的正样本数,FN表示被预测为假的正样本数,TN表示被预测为假的负样本数,FP表示被预测为真的负样本数。

3.2.2 实验设置

本文实验基于Pytorch深度学习框架,版本号为1.12.1,Python版本为3.8.12。硬件环境包括NVIDIA系列显卡,显卡型号为NVIDIA GeForce RTX 3090,显存为24GB。在训练过程中,本文采用交叉熵损失函数,对于二分类任务,其计算如式(15)所示。

表3 实验参数设置

3.3 对比实验

在这一节中,将本文提出的模型与其他模型在GSD数据集上进行了对比实验,这里共选取了11种不同类型的模型作为对比模型,包括机器学习方法与深度学习方法。由于对比模型大多只有一个输入通道,无法使用辅助支路进行特征提取,所以在本文的对比实验中,对比模型仅仅使用数据集中的文本信息作为输入。将文本内容经过相同的分词方式和编码方式后送入模型中进行训练。

MultinomialNB[7]: 多项式朴素贝叶斯是基于原始的贝叶斯理论,通过特征计算分类的概率,然后选取最大的情况进行分类,这是一种基于概率论的机器学习分类方法。

DecisionTree[8]: 决策树(Decision Tree)是一种基于实例的归纳学习算法,包括两个阶段: 归纳和剪枝。决策树的归纳可以从给定的数据样本中提炼出树状的分类模型。树中的每个非叶子节点记录了使用哪个特征来进行类别的判断,每个叶子节点则表示最后的判断类别。而决策树的剪枝是使其停止分裂的方法,对已经生成的树进行自下而上的剪枝操作,将树变得简单,从而使其拥有更好的泛化能力。

吴赫，韩国音乐人，独立乐队hyukoh主唱兼吉他手，曾在中国生活，大学时期返回韩国，喜欢有境界、不过于刻意，且同时具有光明与黑暗面的东西，他认为“音乐人不只是做音乐就好,包括专辑设计、MV、造型等整体风格都须相当契合”。

RandomForest[35]: 随机森林(Random Forest)是通过集成学习的思想将多棵树集成的一种算法,能够有效地运行在大数据集上,有效地处理高维特征,无需降维操作。

SVC[9]: 支持向量机(SVC)是一种二分类算法,其基本模型是一个特征空间上的间隔最大的线性分类器,通过寻求结构化风险最小来提高学习机泛化能力,实现经验风险和置信范围的最小化,从而达到在统计样本量较少的情况下,亦能获得良好统计规律的目的。

KNeighbors[36]: K近邻算法(KNN)采用投票机制,通过计算测试样本和所有训练样本的距离,根据最近的K个训练样本的类别,使用多数投票的方式进行预测。

MLP[37]: 多层感知机(MLP)算法也被称为前馈神经网络,是一种最简单的深度学习模型。MLP在训练时将特征值传入隐藏层当中,通过带有结果的数据来训练其参数,接着使用带有权重参数的模型即可用于任务的分类。

TextCNN[38]: 将卷积神经网络CNN应用于文本分类任务,利用多个不同尺寸的卷积核来提取句子中的关键信息,从而更好地捕捉局部相关性。

Bi-LSTM[12]: 双向长短时记忆网络(Bi-LSTM)使用了两层方向相反的长短时记忆网络(LSTM)模型,结合了输入序列在前向和后向两个方向上的信息,不仅可以关注到上文的信息,还可以考虑到下文的信息,大大增强了模型对上下文信息的理解程度。

BERT[17]: 在文本分类领域中,利用BERT模型进行分类是最常见的,这得益于其拥有多种基于大样本的预训练权重,使得研究者只需要在下游任务中进行很小的微调训练就可以得到不错的效果。

VGCN-BERT[40]: 该模型将BERT和词汇图卷积网络 (VGCN)相结合,使局部信息和全局信息通过BERT的不同层进行交互来表示最终的分类。

对比实验结果如表4所示。这里使用Acc和F1作为评价指标来评估不同方法的性能。从表中可以看出,采用机器学习的算法进行预测的结果普遍较差,例如Decision Tree[8]算法,这是因为谷歌搜索返回的结果中通常包含许多复杂的内容,变量与变量之间的相关性无法得到保障,这对Decision Tree算法是及其不利的。同时Decision Tree对噪声的变化十分敏感,具有极大的不稳定性,所以其最终获得了极低的分类准确率,Acc和F1值仅有0.69和0.81。

表4 不同方法的实验结果对比

RandomForest[35]在GSD数据集上的效果略好于Decision Tree算法,其主要原因是RandomForest采用将多个决策树进行集成的方式,通过结合内部不同的树的选择来综合评判提取的特征。这样缓解了单个树进行预测所出现的不稳定性,可以平衡数据内部的误差,在特征很多的数据上效果要优于DecisionTree算法。RandomForest在GSD数据集上表现出优于其他机器学习算法的性能,最终准确率达到0.76。然而,由于RandomForest在噪声非常大的分类问题上仍然会过拟合,对于有不同取值属性的数据,取值划分较多的属性仍然会对其产生较大的影响,所以其最终的准确率仍远远低于本文提出的算法。

对于其他基于机器学习的算法,各有自身的优缺点,所以最终预测的准确率表现得较为相近。由于基于机器学习的算法较为简单,对文本的深层特征的提取不充分,并且容易缺失其中的语义信息。

MLP[37]是最简单的神经网络,这里只含有一个隐藏层,整体是一个三层的结构,由于结构过于简单,无法提取文本向量更深层的特征,并且没有利用到上下文信息,所以最终的结果十分糟糕,仅仅适用于一些简单的任务。所以MLP在本文的任务中表现出最差的性能,最终的预测准确率仅有0.67。

TextCNN[38]和Bi-LSTM[12]采用两种不同的方式来对输入序列中的特征进行提取,卷积更多地关注局部信息,然后利用最大池化获得最重要的影响因子,这对于保留重要的特征、提高模型效率是有利的。而Bi-LSTM是由两层方向相反的LSTM组合而成,更多地是考虑文本的上下文信息,能够更多地获得上下文信息之间的关联。最终TextCNN和Bi-LSTM在本文的任务中便显出相近的效果,两者的分类准确率分别是0.81和0.80。

BERT[17]和VGCN-BERT[40]在所有的方法中表现出仅次于本文方法的性能,这主要得益于其使用了强大的自注意力机制,BERT中有多个Transformer模块[41],通过自注意力机制实现快速并行,能够关注到文本序列中重要的信息,并且其强大的全局信息提取能力也是卷积无法比拟的。而VGCN-BERT通过将词嵌入模块和BERT结合,接着将不同类型的信息通过注意力机制层进行交互,从而提高性能,最终表现出仅次于本文模型的准确率。从表中可以看出,这两个模型最终的分类准确率都达到了0.83。

本文首先使用BERT强大的全局信息提取能力来提取文本序列中的全局语义信息,通过RNN来提取编码后的量化信息作为辅助特征,双通道的结构使模型可以对搜索页面包含的信息拥有一个更加全面的把控。接着将BERT提取到的不同层次的信息与辅助特征进行融合后送入多尺度特征注意力TextCNN中进行局部特征的强化,最终输出预测类别。由于BERT在较低的层中对短语级信息的提取能力十分优秀,中间层编码了丰富的语言学特征,高层中包含有大量的语义信息特征。本文将不同层的特征进行融合,大大增强了模型对不同特征的提取能力,有利于模型把握不同层次的语义特征。

本文提出的方法结合了Transformer与卷积的特性,弥补了当前方法只关注全局或者局部特征的缺点,能够同时关注全局上下文特征和局部信息,关注到深层语义信息,所以最终实现了最高的分类准确率。本文提出的模型最终在GSD数据集中的分类准确率和F1分数分别为0.85和0.91。

3.4 消融实验

为了研究本文提出的模型中不同模块的实际效果,本文对其进行了消融实验,实验结果如表5所示。

表5 消融实验结果

组合1: 在完整模型的基础上去掉参数特征提取模块和多尺度特征注意力TextCNN,仅仅使用BERT作为语义信息提取模块提取查询问题和返回结果中的语义信息。由于组合1只能获取文本之间的语义关联等内容,缺少对关键词的关注,所以最终的准确率是最低的,仅有0.834。

组合2: 在组合1的基础上加入辅助支路,即参数特征提取模块,将两条支路的特征进行融合后经过分类器的作用进行输出,此时由于有更多参考信息输入,对主干支路提供了一定的指导作用,最终的准确率有了一定的提升,为0.841。

组合3: 在组合2的基础上加入多尺度特征注意力TextCNN,即最终完整的模型结构。多尺度特征注意力TextCNN的加入,使得模型拥有了更加全面的能力,不仅能够提取文本信息中的语义特征,还能抓取其中的关键词和短语,平衡全局特征和局部特征之间的关系,有助于模型实现更好的精度。

4 总结

本文针对目前缺少用于判定搜索返回结果的数据,采用谷歌搜索引擎制作了一个数据集(GSD),用于对谷歌搜索返回结果是否有意义的判定,填补了目前业界此类数据集的空缺,为信息过滤、信息抽取、搜索引擎优化等任务奠定了基础。同时,本文基于预训练模型设计了一种双通道模型DCFE来实现对谷歌搜索返回结果的自动判定,利用预训练语言模型的全局信息感知能力以及卷积结构的局部信息提取能力,将两者充分结合,弥补了单一方法的局限性。文中,利用预训练语言模型BERT提取返回结果中的不同层次的全局语义信息,利用RNN对返回结果中存在的量化信息进行编码以及特征提取来辅助模型的分类,最终使用一个改进的多尺度特征注意力TextCNN提取融合后的特征中的局部关联作为分类器,输出最终的判定结果。实验结果表明,本文提出的模型在对搜索结果的判定任务中表现出优秀的性能,最终的分类准确率达到85.74%,有效地证明了本文提出的方法的合理性以及科学性。

未来工作中,我们将继续致力于网络信息的探索。结合当前的研究成果继续深入研究,对搜索引擎返回的大量信息进行分析,并且对模型进一步优化,使之能够适应多种任务的需要。