APP下载

融合局部语义特征的学者细粒度信息提取方法

2023-09-27田悦霖黄瑞章任丽娜

计算机应用 2023年9期
关键词:细粒度网页页面

田悦霖,黄瑞章*,任丽娜

(1.公共大数据国家重点实验室(贵州大学),贵阳 550025;2.贵州大学 计算机科学与技术学院,贵阳 550025)

0 引言

截至2022 年1 月31 日,世界互联网渗透率达66.2%,2000—2022 年增长1 355%[1]。信息技术迅速发展,万维网信息量暴增,网页资源或成为信息获取第一选择。全球专家学者数量众多,且大部分学者在网站中建立个人主页并定期维护更新,主页中记录的学者的研究方向、工作履历、所获成就等信息可作为学者画像[2]、人才引进[3-4]、公司专家资源库的建立[5]等任务的重要支撑。因此,精确地提取学者主页细粒度信息至关重要。

学者个人主页广泛分布于不同站点,如采用人工方式进行信息整合,需要提取每个页面中的有效信息,再重新组织整理获得的大量数据。显然,这种工作非常繁琐且随着页面信息的不断变化,成本逐渐提高。因此,使用机器学习的方法进行学者主页信息抽取的任务具有必要性且持续存在。根据抽取的页面内容,学者主页信息抽取可以分为细粒度信息抽取和粗粒度信息抽取。粗粒度信息的抽取主要是抽取网页中除导航栏、推荐栏等噪声之外的有效信息,如网页新闻正文抽取。细粒度信息的抽取主要是抽取感兴趣的属性、部分标签信息等多种类型。细粒度信息应用范围更广泛,如学者画像的生成等均需要学者的细粒度信息,细粒度信息提取比粗粒度信息提取明显更符合人们的需要与个性化需求。因此本文将提取学者细粒度对象,将学者主页原始数据转换并映射到更结构化的格式。在学者页面中,学者的细粒度对象即学者的研究方向、工作履历、社会兼职等信息,同组细粒度对象具有语义相似、结构相似等特征。

传统方法普遍将页面信息抽取问题描述为树节点的标记任务,高度依赖于HTML(HyperText Mark-up Language)模板。但学者信息页面广泛分布于不同站点,随着HTML 标准的不断更新与不同站点HTML 风格的变化,抽取效果会出现不同程度的降低,去除HTML 依赖后单一的语句语义分析常会导致信息判断失误。一般学者个人主页通常仅包含一位学者信息,但学者可能会对他的学生的基本信息、入学情况等内容进行介绍,也会出现存在其他教师推荐栏的情况,此类情况的上文往往会有“硕博情况”“相似导师推荐”等提示信息,融合局部语义信息能够有效排查错误。另外,在学者信息提取任务中,一类细粒度信息往往处于页面相近位置,它的上文常出现有效提示信息“教育经历”“社会服务”等。本文重点研究对文本的局部上下文结构与语义信息进行建模以丰富目标句特征,从而提升学者细粒度信息的抽取效果。

本文提出一种融合局部语义特征的学者细粒度信息提取方法。该方法通过数据预处理获取网页纯文本,解除HTML DOM(Document Object Model)树依赖,经预训练模型RoBERTa-wwm-ext[6]微调获得更高层次的语义表征,充分考虑页面中句子前后语义关系,使单句向量融合局部上下文特征共同输入卷积神经网络(Convolutional Neural Network,CNN)得到更丰富的语义表示,增强细粒度信息提取的效果,最终实现学者主页细粒度信息的获取。由于学者主页信息提取粒度为由单句构成的文本行,文本行平均字符数为39,文本长度较短。面对短文本,浅层语义表征可以达到更好的提取效果,因此,本文设计一种简化的CNN,仅使用单层文本卷积层与全连接层实现语义特征的融合,因池化操作无参数,无法对特征向量进一步学习,反而会导致特征降维,丢失目标文本语义信息,故去掉结构中的池化层。简化CNN 的使用提高了学者细粒度信息抽取的效率与效果。另外,本文提出一个新的学者信息抽取数据集Scholars 用于验证在学者信息抽取领域中融合局部上下文语义特征的有效性。

1 相关工作

自网页出现以来,网页信息的抽取研究一直是信息技术领域的热点,许多研究都阐明了如何从页面中提取所需信息[7]。目前较成熟的网页信息抽取方法有基于统计信息的方法、基于视觉分块的方法和基于模板的信息抽取方法。

基于统计信息的方法包括统计文本密度、标签密度和行块分布等。文献[8]中提出基于文本密度的内容抽取方法,首先统计HTML 文档的每行的文本数,分析后给出一个正文所在行数的阈值,然后抽取正文。之后文献[9]又在文献[8]的基础上增加视觉特征来对DOM 树节点进行特征值计算,最后再根据节点信息作信息提取。文献[10]中提出了一种基于后缀树的信息抽取方法:首先从Web 页面的标记路径中提取一个标识符序列,然后在此序列构建一个后缀树,并提出4 个精炼过滤器来筛选可能不包含数据记录的数据区域实现信息抽取。文献[11]中通过将页面划分信息块,对信息块中纯文本及超链接进行统计的方法判别正文内容。文献[12]中提出一种基于文本块密度和标签路径特征的网页文本提取算法,利用正文与标签路径和文本块密度的潜在相关性,设计了一种融合策略解决网页文本提取准确率低的问题。文献[13]中提出一种提取简历信息的端到端框架,从简历文档提取原始数据并使用语言学模式将它分割为语义一致部分,之后对各段落使用命名实体识别(Named Entity Recognition,NER)算法进一步处理,最终获取人力资源专家所需信息。文献[14]中提出一种基于多特征融合的网页内容提取方法,根据网页的文本信息特征,以DOM 节点为基本提取单元设计多个统计特征并根据启发式策略设计高阶特征。该方法具有良好的网页文本提取能力,能够避免需人工阈值确定的问题,但仍需人工设计统计特征。目前基于统计的方法需要人工提取文本特征,但是细粒度信息种类较多、结构多样,因此人工特征提取复杂度较高。

文献[15]中提出了基于视觉分块的VIPS(VIsion-based Page Segmentation)算法,利用网页中的视觉特征并结合启发式规则将网页分块,从而识别网页正文块来获取网页主要内容。文献[16]中使用一个呈现引擎来获取Web 页面的图像,获取该图像的最小呈现元素后使用定制算法进行集群,并生成给定粒度的一组平面片段,从而实现网页分割。文献[17]中将DOM 树与CNN 相结合,提出了一种基于视觉的VBF 方法,通过获取网页的HTML 代码和截图,建立DOM树,计算神经网络和表单识别、匹配、生成,从网页中提取信息表单。文献[18]中通过假设网页的中心内容最重要,将网页划分网格并从质心逐步展开直到主内容核心中的子树包含整个主内容的方法来提取主内容。文献[19]中应用卷积与长短期记忆(Long Short-Term Memory,LSTM)深度学习网络实现Web 数据提取,使用YOLO 算法和Tesseract LSTM 算法提取网页的图像来对比页面差异等内容,实现自动网页检测从而提取数据。学者主页信息一般会实时更新,基于视觉分块的方法往往需要先进行页面渲染,这会耗费大量资源。

基于模板的信息抽取方法包含传统机器学习方法与神经网络算法。早期的手工构造模板的方法主要用来解决特定网站的信息抽取问题,使用该类方法不需要构建数据集,但是需要大量的人工分析且不同的站点需要不同模板,费时费力且通用性较差。于是大量研究集中于如何自动生成模板的方法上,文献[20]中提出了一种全自动生成模板的算法,利用网页链接分类算法和网页结构分离算法,经过大量计算后抽取出网页中各个信息单元,从而生成模板,但是该算法需要对同类网站进行观察,计算量较大。文献[21]中通过对网页DIV(DIVision)块进行分类,筛选出待抽取的DIV块并构建DIV 块模板,再对块内的文本定位建立关键信息模板。此类方法的预处理部分过于繁杂,且仍需要人工构建可扩展标记语言(Extensible Markup Language,XML)模板。文献[22]中提出可扩展的网页关键信息抽取方法,它的核心是全自动模板生成技术,其中的生成算法需要训练预先准备的数据集,而且通用性依赖于训练集的覆盖率,如果一个训练集覆盖较窄,则可能导致对某些页面的抽取失败。文献[23]中采用网页分隔和逆向解析DOM 树,得到相应的Xpath(XML path language)抽取规则,实现新闻网页中新闻内容、标题、新闻代理和发布时间等信息的抽取,由于该方法是针对新闻网页,在异构Web 中信息提取效果不佳。随着网页结构的不断变化,越发显现出传统机器学习方法的局限性。随着神经网络的兴起,现有方法开始结合HTML 模板节点与神经网络进行信息抽取任务,降低对人工定义特征的依赖。文献[24]中使用BERT(Bidirectional Encoder Representation form Transformers)获取词的通用语义表征,之后输入双向长短期记忆(Bidirectional Long Short-Term Memory,BiLSTM)网络对上下文进行编码,使用条件随机场(Conditional Random Field,CRF)进行标签标注获取学者主页信息。文献[25]中利用简化的DOM 树结构有效地检索每个节点的上下文,将节点的文本特征分别由LSTM 和CNN 在单词级别和字符级别进行编码,通过分类器最终获取目标属性。文献[26]中提出一种基于HTML 中DOM 节点的网页结构信息提取方法,为每个DOM 节点设计HTML 标记并与文本标记构建丰富的注意力模式,利用主页的页面布局进行注意力权重计算最终获取页面结构化信息。文献[27]中提出了一种基于DOM 树中节点的信息熵的新闻网页自动提取方法,首先对网页标签进行分类选取影响页面结构的标签,之后考虑DOM 树节点的内容与结构特征进行节点融合获得分割结果,从而实现对网页新闻内容的提取。文献[28]中提供了一个站点级模板提取器,结合了站点级模板检测方法TeMex 与内容提取方法ConEx,在TeMex 中进行预处理去除页面级ConEx 推断的主要内容从而进行站点模板提取。

使用基于模板的信息抽取方法,随着HTML 标准及风格的变化会导致模型提取效果降低;而使用基于统计信息的方法与基于视觉分块的方法一般需要人工进行部分特征提取,耗费资源且复杂度高。因此,本文不再对HTML 模板进行建模,而建立文本分类模型重点分析文本语义特征,针对页面纯文本信息进行细粒度信息提取。然而文本分类模型通常只需对单一语义信息进行建模,但学者信息抽取任务中上下文具有语义与结构上的相关性,因此,本文对传统的分类方法加以改进,提出基于局部语义融合的学者主页细粒度信息提取模型,引入提取目标外局部上下文语义信息,丰富目标语义表征,实现了学者主页细粒度信息提取。

2 学者主页细粒度信息提取方法

本文方法由学者主页纯文本信息提取模块、语义编码层、局部语义特征融合层、细粒度信息计算层组成。模型体系结构如图1 所示。

图1 模型体系结构Fig.1 Model architecture

2.1 学者主页纯文本信息提取模块

原始数据为学者主页超链接。根据链接获取对应的HTML 文档,利用HTML 中普遍存在的
与其他具有换行功能的标签对文档内容进行换行处理,之后使用Python 库BeautifulSoup 去除标签,提取页面纯文本信息,在此过程中,纯文本对应行数与HTML 文档相对位置保持一致。最终进行长段落分句换行,获取网页文本语料S={s1,s2,…,sn},S中的每个元素表示网页文本中的一个行块,即为处理后的页面纯文本的一行,以此粒度为基本单位实现对学者主页细粒度信息的提取。在文本语料S中的每个元素的开头添加特殊符号“[CLS]”,经预训练模型训练后该无明显语义信息的特殊符号能够更公平地融合句子中各个词的语义信息,从而更好地表示每个行块的语义。图1 中sk-1,sk,sk+1为输入预训练模型的文本语料示例,设文本语料sk为提取目标,则sk-1和sk+1为提取目标局部上下文信息。

2.2 语义编码层

纯文本信息提取与处理完成后,将行块输入语义编码层使用中文RoBERTa-wwm-ext[6]预训练模型学习语义表征。学者主页以行块为单位进行抽取,RoBERTa-wwm-ext 能够很好地对中文文本中句子级别的语义信息及相对位置信息进行建模,而行块通常为一个自然句,因此,本文使用该模型实现行块粒度上的语义编码。RoBERTa-wwm-ext 由哈工大讯飞联合实验室发布的BERT 模型演化而来,嵌入层使用中文维基百科与新闻、问答等作为预训练语料,哈工大语言技术平台(Language Technology Platform,LTP)分词工具进行分词实现全词mask,使它能够获取更精准丰富的语义信息。

RoBERTa-wwm-ext 结合了中文全词掩码技术与RoBERTa 的优势,相较于经典BERT 模型,具有以下特点:

1)使用全词掩码(Whole Word Masking,WWM)策略。在以词为最小造句单位的中国语言体系中,词语的识别与使用很有必要。WWM 将经典模型中以字为单位的mask 方法转换为更符合中文文本特点的以词为单位的mask 方式。表1为WWM 的示例,通过符合中文结构特点的全词掩码策略,有效提升了文本表征的效果。

表1 掩码方式示例Tab.1 Examples of masking modes

2)模型训练阶段的训练数据量规模增大、模型参数量增加、batch_size 增大,且直接使用max_length=512 的训练序列进行训练。训练步数延长,共计训练106步。

3)去除下句预测(Next Sentence Prediction,NSP)任务。在保证模型预训练最终效果的基础上,NSP 任务的去除提高了计算效率。

RoBERTa-wwm-ext 由12 层Transformer 构建,输入为分类任务中的单文本或文本匹配任务的文本对,如图2 所示。

图2 RoBERTa-wwm-ext模型结构Fig.2 Structure of RoBERTa-wwm-ext model

因RoBERTa-wwm-ext 预训练模型在中文语义编码上的特殊优势与自然语言处理任务中较好的实验效果,本文选择它进行文本语义编码。语义编码层包括嵌入层与表征层。网页文本语料S通过嵌入层将字序列{[ CLS],W1,W2,…,Wn}映射为包含字向量信息、位置向量信息与输入序列向量信息的多维空间向量(E[CLS],E1,E2,…,En),用RoBERTa-wwm-ext的多个双向Transformer 自编码器(图1 中简写为Trm)。对上述多维空间向量进行编码操作,处于低层次的自编码器获取字向量的短语级别的信息,中层次自编码器获取单句的语法特征,高层次的自编码器获取单句语义特征,最后一层将文本语料映射到高维语义空间得到文本表征向量。每个行块的特殊符号“[CLS]”对应输出的特征向量(C1,C2,…,Cn)为局部语义特征融合层的输入。

2.3 局部语义特征融合层

局部语义特征融合层使用简化的卷积神经网络(CNN)进行局部上下文特征提取。CNN 的原理在于捕捉信息的局部相关信息,具体到此任务可以用来捕捉目标句局部上下文的关键信息。CNN 通常由五层组成:数据输入层、卷积层、激励层、池化层与全连接层。本文的目标句通常为短句,池化层会导致特征降维从而丢失目标文本语义信息,故去掉池化层,并且让模型深度尽可能浅。在对短文本进行特征提取时,深层神经网络获取的特征更抽象,同样会导致语义信息的丢失。因此本文使用简化的CNN,仅使用它的数据输入层、单层文本卷积操作层、激励层、单层全连接层实现局部语义特征的融合提取。主要利用CNN 中卷积层能够有效提取上下文的特性对目标句及它的上下文进行乘积求和,丰富提取目标句语义特征。

将语义编码层的输出(C1,C2,…,Cn)作为卷积层的输入,进行局部语义融合,得到目标句更丰富的高维度语义信息。在学者主页细粒度信息抽取任务中,经过词向量表达的文本为一维数据,因此通过一维卷积操作对局部信息进行语义融合,卷积层的输入维度为(N,Gin,Lin),输出维度为(N,Gout,Lout),卷积层的输出值为:

其中:*表示有效的互相关操作;N为更新模型参数之前通过网络传播的样本数量;G表示通道的个数;L为输入信号序列的长度。在神经网络卷积过程中可调节感受野,即在适宜范围内融合目标局部上下文语义信息,使目标语义表示更加丰富。本文将感受野大小设置为7,即将目标行块与它的局部范围内6 个行块进行融合,原因在实验部分说明。

传统分类方法因一般不需要参考上下文信息,不会进行局部上下文特征与目标句特征的交互运算。但是考虑到学者细粒度信息抽取任务局部语义相关联的结构性,本文提出融合局部语义特征的方法,将一个CNN 卷积核设置为Ki∈Wl×d,其中,Ki表示第i个卷积核,每个卷积核都是一个l×d大小的矩阵,l表示卷积核的窗口大小,d表示输入句子的维度;W是指卷积层的卷积核集合代表一个l个句子的窗口,窗口覆盖目标行块与局部上下文向量,通过卷积层生成一个语义更丰富的目标行块表征向量H=(h1,h2,…,hl)。

2.4 细粒度信息计算层

将卷积层的输出H=(h1,h2,…,hl)输入全连接层(Linear),将目标句表征向量从高维度空间映射到低维度标签空间,返回未经过归一化的概率Logits={z1,z2,…,zl}。细粒度信息计算层主要进行Softmax 操作。使用Softmax 进行归一化文本分类,计算出目标句在细粒度信息标签中的概率P=(p1,p2,…,p11),选择最大值代表的细粒度信息标签作为最终输出的细粒度信息标签。细粒度信息计算层表述公式如下:

其中:zl为Logits的第i个元素,l为Logits向量的长度。

3 实验与结果分析

3.1 数据集介绍

本文所用数据集由AMiner 平台获取。该数据集为学者个人主页,共2 149 个页面,其中高校官网、网络百科全书、学术机构网站、医院官网、公司网站的页面占比分别为86%、8%、3%、2%与1%。研究学者普遍在高校官网中建立个人主页,因此该类占比最高。本文将学者个人主页分为11 类细粒度信息,包含学者基本信息、教育经历、研究方向等,其中“other”非学者信息,为页面导航栏、版权内容等噪声信息。详细信息如表2 所示。

表2 学者主页的细粒度信息详解Tab.2 Detailed explanation of fine-grained information on scholar homepage

学者主页数据集Scholars 由人工标注并逐句进行二次复核以确定分类的正确性。本文将2 149 个学者主页页面作为数据集,按8∶1∶1 的比例随机划分1 719 个页面作为训练集,验证集与测试集各215 个页面。对所有页面中各类细粒度信息的数量进行统计,除“other”内容噪声信息外,10 类学者细粒度信息样本分布如图3 所示,其中每个类别标签具有3项,第1 项为类别名称,第2 项为类别样本数,第3 项为该类别在全部类别中的占比。

图3 学者主页的细粒度信息样本分布Fig.3 Samples distribution of scholar homepage fine-grained information

3.2 实验评价指标

为了评价学者细粒度信息提取实验的效果,本文采用评价指标精确率P(Precision)、召回率R(Recall)和加权调和平均值F1(F1-score)对模型效果进行评估。公式如下:

令细粒度信息所属类别原本为X,则TP(True Positive)表示细粒度信息所属类别被正确预测为X的样本数量;FP(False Positive)表示细粒度信息原本不属于类别X,但被错误预测为X的样本数量;FN(False Negative)表示细粒度信息被错误预测的样本数量;TN(True Negative)表示细粒度信息所属类别本来不是X,预测出的结果也不是X的样本数量。

本文需要根据所有细粒度信息分类情况整体评估模型效果,因此还使用宏平均精确率(Pmacro)、宏平均召回率(Rmacro)、宏平均F1 值(F1macro)作为整体评价指标:

宏平均评价指标为每种细粒度信息类别评价指标的均值。

3.3 实验环境与模型设置

本文实验使用基于CUDA 11.4 的深度学习框架PyTorch1.9.0 构建神经网络模型。在模型训练过程中使用交叉熵损失函数、Adam 优化器。Epoch 设置为动态数值,达到最优效果之后继续运行6 次保持不变则实验停止。模型训练过程中超参数设置如表3 所示。

表3 超参数设置Tab.3 Hyperparameter setting

3.4 实验结果及分析

3.4.1 对比实验

为了验证局部语义特征融合方法的有效性,本文采用以下4 种基线模型与融合局部语义特征的模型进行对比实验。对比实验中超参数一致部分均设置为相同数值。

1)BERT[29]:传统的预训练语言表征模型。

2)ELECTRA(Efficiently Learning an Encoder that Classifies Token Replacements Accurately)[30]:生成判别模型。

3)RoBERTa-wwm-ext(后文简写为RoBERTa)[6]:基于全词掩码及强优化的BERT 方法。

4)RoBERTa-wwm-ext-TextCNN(后文简写为RoBERTa-TextCNN)[31-32]:近期取得显著效果的文本分类模型。

由于本文方法为保留短文本语义丰富性,采用无池化层以降低拟合性,在对比实验中本文方法使用K-Fold 交叉验证,其中K为子集个数。将本文数据集划分为5 个子集,每部分大小相等,选取其中1 个子集作为验证集,其余4 个子集用作训练集,重复5 次,直到每个子集均用作验证集,其余子集用作训练集。模型最终精度取使用5-Fold 方法训练出的5个模型的验证集数据的平均精度。使用宏平均值评价指标来评估本文方法,实验结果如表4 所示。

表4 学者信息提取结果对比 单位:%Tab.4 Comparison of scholar information extraction results unit:%

表4 中“Ours”表示本文融合局部语义特征的方法;“Ours+ELECTRA-CNN”表示使用局部语义特征融合方法的ELECTRA-CNN 模型;“Ours+RoBERTa-CNN”表示使用局部语义特征融合方法的RoBERTa-wwm-ext-CNN 模型。通过对ELECTRA、BERT、RoBERTa3 种预训练模型提取效果进行对比,发现RoBERTa 预训练模型效果最优,因此选取RoBERTa作为本实验的语义表征模型。

实验结果表明,使用此融合局部语义特征的方法进行学者细粒度信息提取F1macro达到93.43%。对比发现RoBERTa-TextCNN 模型的F1macro值比RoBERTa 模型降低1.10 个百分点,说明效果显著的纯文本分类模型在学者信息提取任务上并不能取得很好的效果。融合局部语义特征的RoBERTa-CNN 方法与未融合局部语义的最优纯文本分类方法RoBERTa-TextCNN 相比,F1macro提高了8.60 个百分点。由此可见,在学者细粒度信息抽取实验中,使用融合局部语义特征的方法对学者细粒度信息提取具有显著效果。

3.4.2 学者主页细粒度信息提取实验结果

使用上述K-Fold 交叉验证方法进行实验,融合局部语义特征的学者主页细粒度信息提取模型在Scholars 数据集上提取结果如表5 所示。共提取了10 种学者相关细粒度信息,其中,页面噪声信息other 包含页面导航栏、版权信息、学生介绍等内容。实验结果表明,本文模型在细粒度信息的提取中取得了较好的效果。achievement 类别的提取效果相对较差,因为学者所获成就范围较广且没有稳定的格式,之后将对此项加以改进;提取结果中other 的F1 达到98.55%,说明本文方法对学者主页整体的学者信息的提取效果同样显著。

3.4.3 消融实验

1)感受野范围对模型效果的影响评估。

本文重点在于局部语义特征的融合,选定一个合适的局部语义融合范围至关重要。模型的感受野范围控制了局部语义特征融合的范围。本文实验在CNN 卷积过程中逐步扩大感受野范围,从而增加目标局部上下文语义信息融合范围,并查看模型提取效果。感受野大小由卷积过程中的卷积窗口控制,即卷积层中的kernel_size 控制。当kernel_size=0时,仅卷积当前目标句;当kernel_size=3 时,将融合目标句及其上句与下句的语义特征,以此类推。

实验结果如表6 所示。当kernel_size=1 时,仅对目标句进行卷积,没有融合局部语义特征,F1marco明显较低,说明了融合局部语义特征的重要性;当kernel_size=3 时,融合了局部上下文,提取效果开始具有明显的提升。此时继续扩大感受野范围,效果继续提升;直到kernel_size=7 后,模型趋于平稳,评估指标波动范围控制在1 个百分点以内,不再有明显的提升或降低;当kernel_size=13 时,得到最优提取结果为93.03%。显而易见,本文提出的融合局部语义特征的方法对学者细粒度信息抽取具有明显效果。因为kernel_size=7时F1marco达到了第一个稳定峰值,之后开始波动,波动范围较小,而卷积核越小运算速度越快,根据时间效率本文将kernel_size=7 设置为模型感受野大小。

表6 感受野大小与模型效果间的关系Tab.6 Relationship between receptive field size and model effect

2)池化层影响评估。

为了验证简化的CNN 模型的效果,本文将无池化层模型(No-pooling)、在一维卷积后添加最大池化层的模型(+maxpooling)与在一维卷积后添加平均池化层的模型(+avgpooling)这3 个模型进行学者主页细粒度信息抽取对比,实验结果如表7 所示。显然,本文无池化层的模型综合指标F1macro优于具有池化层的模型,因此,本文使用无池化层的简化CNN 进行学者细粒度信息抽取。

表7 池化层效果对比 单位:%Tab.7 Effect comparison of pooling layer unit:%

3.4.4 通用性实验

本文在公开数据集上验证所提模型与方法的通用性。因任务特殊,较难得到公开个人信息数据集,但本文模型为基于分类模型上的改进模型,因此选择情感分析公开数据集NLPCC2014、waimai_10k 与新闻文本分类公开数据集toutiaonews38w 数据集进行验证,结果如表8 所示。实验发现,在情感分析与分类任务上,本文模型(Ours+RoBERTa-CNN)与近期取得显著效果的文本分类模型相比仍具有优势,实验效果略好。且因CNN 滑动窗口相对较少、执行效率高,使用本文模型在保证精确率的同时也能提高任务的完成速度,说明了本文模型的通用性。但因waimai_10k、toutiaonews38w 数据集不具备局部上下文语义相关联的特征,未能利用模型的最大优势。NLPCC2014 为情感分析数据集,本文实验对微博每条评论中每句的情感进行分析,情感分为7 类,任务难度较高,微博同一条评论的每句话上下文相关联,虽语义与结构联系不紧密,但在此任务上F1macro仍有明显提高,由此验证了本文方法与模型的通用性与有效性。

表8 不同数据集上不同模型的通用性实验结果对比 单位:%Tab.8 Experimental results of universality of different models on different datasets unit:%

4 结语

学者主页广泛分布于不同站点,为了避免学者主页信息提取过程受到站点HTML 风格变化的影响,本文进行学者页面纯文本语义分析与页面相对位置分析,从而进行细粒度信息提取。分析发现,同种粒度信息常处于页面相近位置,因此本文提出一种基于局部语义融合的学者细粒度信息提取方法,通过融合句外局部语义信息丰富目标语义,使目标语义特征更饱满,更有利于学者主页细粒度信息的提取。在自建Scholars 数据集上进行验证,实验结果表明本文方法在学者信息提取任务上取得了显著效果。但是本文方法对学者所获成就信息的提取效果相对一般,因为学者所获成就具有范围较广且形式多样化的特点,未来的工作将对此项加以改进。

猜你喜欢

细粒度网页页面
融合判别性与细粒度特征的抗遮挡红外目标跟踪算法
刷新生活的页面
细粒度的流计算执行效率优化方法
基于CSS的网页导航栏的设计
基于双线性卷积网络的细粒度图像定位
基于URL和网页类型的网页信息采集研究
支持细粒度权限控制且可搜索的PHR云服务系统
网页制作在英语教学中的应用
10个必知的网页设计术语
网站结构在SEO中的研究与应用