APP下载

面向招投标领域的远程监督实体关系抽取研究

2020-09-04陈雨婷刘旭红刘秀磊

计算机工程与应用 2020年17期
关键词:知识库示例实体

陈雨婷 ,刘旭红 ,刘秀磊

1.北京信息科技大学 网络文化与数字传播北京市重点实验室,北京 100101

2.北京信息科技大学 计算机学院,北京 100101

1 引言

近年来,我国招标投标(简称招投标)行业发展迅速。招投标已成为企业间对接工程项目的常规交易方式。与此同时,各大招投标网站相继出现,Web 中积累了规模庞大的企业交易数据。但目前,招投标信息化程度还相对滞后,如何更好地利用这些非结构化的Web文本资源,从中快速获取企业间的交易关系并实现信息结构化管理,受到了业内人士的广泛关注。

随着信息抽取技术的快速发展,相关研究开始采用基于远程监督的实体关系抽取方法。该方法无需人工构建语料库,而是借助知识库对齐文本实现自动标注数据,降低了信息抽取任务的成本,但引入了噪声数据的干扰问题。此外,招投标领域中缺乏较为完善的中文知识库,导致面向中文资源的远程监督实体关系抽取研究目前尚未能满足该专业领域的特定需求。

针对上述问题,本文将选取招投标网站的交易数据作为研究对象,围绕信息抽取方法展开相关技术研究工作。

本文的主要贡献如下:

(1)利用Web中非结构化的招投标领域企业历史交易数据及企业名称语料集构建企业关系知识库,实现自动标注原始语料中的企业关系实例,并按本文方法实现企业关系实例抽取的迭代扩充。

(2)为有效减弱远程监督方法引入的噪声干扰,提出结合领域规则的知识融合方法以优化实体抽取质量,在此基础上,进一步提出基于负例数据学习的降噪方法。

(3)结合招投标领域语义特征,提出基于因子图模型的远程监督实体关系抽取方法,可有效判别企业间的关系,具有一定的领域拓展性。

2 远程监督实体关系抽取研究现状

将海量非结构化数据转化为结构化数据是文本信息抽取的一项重要任务,实体关系抽取是其重要步骤之一。传统的实体关系抽取方法可分为监督学习、半监督学习和无监督学习。其中,监督学习方法的研究成果显著。近些年,基于神经网络的监督学习实体关系抽取研究受到了广泛关注,现已应用在生物医学、煤矿安全生产等诸多领域。但该类方法需要借助大量标注语料,在Web数据日益增长的情况下,该类方法的应用受到了制约。半监督学习方法在迭代过程中易产生“语义漂流”问题,而无监督学习方法在映射过程中易出现实例聚合错误等连带问题。目前,这三类实体关系抽取方法都遇到了一定困难。

为此,Mintz 等[1]在2009 年首次提出基于远程监督的实体关系抽取方法。该方法通过非结构化文本与外部知识库(Knowledge Base,KB)对齐操作,自动化构建大量训练数据,大大降低了模型构建过程对人工标注数据的依赖,提高了模型跨领域的可移植性。但该方法在获取标注数据时基于如下假设:若非结构化句子中所包含的两个实体在知识库中存在某种关系,则该句蕴含这一潜在关系。由于该假设过于理想,导致自动标注数据过程中可能会产生大量噪声数据或忽略掉重要信息。为此,2010年Riedel等[2]提出一种相对松弛的假设:若已知某实体对存在某种实体关系,则至少有一个包含该实体对的句子潜在地表达了这种实体关系。文献[2]基于该假设,得到了更为准确的标注数据。

在此基础上,为更好地降低噪声数据对关系抽取效果的影响,Roth等[3]提出结合主题模型和判别学习方法识别噪声数据,以优化抽取结果的排序质量。Fan 等[4]通过将一个由文本特征矩阵和标签矩阵逐项联合而得的稀疏矩阵,分解为最小秩矩阵,再经矩阵填充恢复底层低秩矩阵,以此拟合噪声分布,进而拟合真实分布。Ru 等[5]通过在词向量中结合语义JacCard,对知识库中的关系短语与句子中两个实体之间的依赖短语进行语义相似度测量,以过滤错误的标签。Qin 等[6]提出一种新的深度强化学习框架,基于RL Agent 策略自动识别数据集中的假正例,并放回负例集以减少噪声数据,同时保证了远程监督关系抽取的性能及模型鲁棒性。

上述研究主要针对英文文本进行处理,近些年,针对中文资源的远程监督关系抽取的技术研究也在不断发展,但还仅以人物关系抽取方向为主。潘云等[7]利用互动百科中文数据构建人物关系知识库,以自动标记关系抽取训练数据,并引入标签传播算法匹配部分未标记人名对的关系。该方法未对噪声数据进行处理,准确率在68.2%左右。黄蓓静等[8]针对人物实体关系抽取任务,利用词向量及句子模式聚类、模式评分的方法,通过过滤原始训练集中的噪声句子,实现数据集降噪的目的。黄杨琛等[9]提出在训练数据生成阶段,引入多示例学习的思想,并基于TF-IDF 的关系指示词发现的方法对远程监督产生的数据进行去噪处理,具有较好的可拓展性。

综上所述,相比针对英文文本进行关系抽取的研究,在处理中文文本上,远程监督方法的噪音问题仍然没有较好的解决方案,原因之一是中文表达在句式和语义上更为复杂,增加了关系抽取和降噪处理的难度。本文针对以上问题,研究面向远程监督数据标注的降噪方法,提出融入语义特征的因子图模型,并将其应用于招投标领域的企业关系抽取,最后进行了实验验证。

3 远程监督实体关系抽取及降噪研究

通过远程监督方法对齐领域关系知识库和自然语言文本语料获得候选关系实体对,并引入领域知识作为规则,将这些候选关系实体对标记为匹配正确关系的企业对(正例)、匹配错误关系的企业对(负例)和未匹配上关系的企业对(未知实例),作为关系抽取模型学习的输入,共同构建特征模型,以提高后续分类性能。

因子图能够实现对随机变量之间的复杂关系进行概率建模[10],有助于区分具有相似特征的关系实体对。目前,该模型已有效应用于事件关联分析[11]、用户群组识别[12]、社区发现[13-14]等任务。因此,本文为准确识别候选关系实体对的关系,提出结合候选关系实体对的词法和语义特征共同构建因子图模型,用于实体关系分类。

3.1 招投标领域的远程监督实体关系抽取框架

结合招投标领域数据的特点,通过Web文本挖掘技术实现信息抽取,有效抽取招标人、招标代理机构和中标人所对应的项目单位及其间发生的“委托”关系(招标人-招标代理机构)和“承办”关系(招标人-中标人)。

通过观察招投标网页内容,可将招投标网页内容分为结构化数据和非结构化数据。为保证抽取效果,需对两种数据类型采用不同的信息抽取方法。

招标代理机构会帮助招标人评定一个或多个最终中标人,常借助二维表格公示该结果。本文利用结构化数据的上下位关系定位实体,以获取“承办”关系。而招标人和招标代理机构的“委托”关系普遍蕴含在自然语言描述的非结构化文本数据中。本文引入实体关系抽取技术获取“委托”关系。远程监督实体关系抽取框架如图1所示。

图1 结合降噪处理的远程监督实体关系抽取框架

处理非结构化数据时,获取招标人-招标代理机构间发生的“委托”关系的方法及思路:

(1)对招投标网站中各篇文档进行数据清洗。

(2)对文档进行词法和句法分析,包括中文分词、词性标注、命名实体识别、依赖性解析等序列标注处理。

(3)根据步骤(2)的NER 等序列标注结果,抽取句中候选实体,并结合领域知识库进行实体链接,以实现知识融合。

(4)对各句中的候选实体进行笛卡尔积运算,结合限制条件,得到对应的候选实体对集合V。实体对(A,B)∈V,其中A为招标人,B为招标代理机构。

(5)根据步骤(2)和(4)的结果,提取基于候选实体对上下文的语义特征。

(6)采用远程监督方法构建训练数据,即通过与招投标领域知识库对齐,为候选实体对匹配关系标签,并引入领域规则提高标注质量。

(7)以步骤(5)和(6)的结果作为输入,构建因子图模型,统计推理候选实体对间具备指定关系的置信度;其间迭代使用吉布斯采样和随机梯度下降算法学习得到候选实体对的特征权重及边界概率,最终抽取置信度高于规定阈值的候选实体对,即为具有“委托”关系的招标人和招标代理机构。

(8)基于步骤(7)的结果,并结合由表格上下位关系抽取所得的“承办”关系构建企业关系网络并完善知识库,用于后续研究与分析。

上述步骤中,利用远程监督方法构建训练语料,可降低数据标注对人工的依赖,但同时会引入噪声数据,易导致因子图模型的推理和判别效果不佳。为此,本文在自动标注关系标签前,引入知识融合技术优化实体抽取质量,以提升远程监督标注数据的有效性;在自动标注关系标签后,再引入领域知识作为规则,以提高远程监督标注数据的准确性,并利用由正例、负例和未知实例组成的关系抽取训练语料作为输入分别学习,由此降低噪声数据对因子图模型学习效果的影响。下面展开详细论述。

3.2 基于知识融合优化招投标领域实体抽取

正确抽取原始语料中所含实体,是减少远程监督方法引入噪声数据的重要前提。但在招投标交易公告中,普遍存在同一主体(主要涉及招标方、招标代理机构和中标方)具有“多重指称”的情况,会直接影响实体抽取的效果。

为提高实体抽取质量,本文从语言学角度将“多重实体指称项”问题分为:情况①单位全称-别称,情况②特定指称项,其中情况①又分为无歧义别称、含歧义别称两类。

知识融合技术是解决这类问题的有效方法,实体链接和知识合并是知识融合的两个重要子任务。实体链接(Entity Linking)[15]旨在对实体抽取结果进行实体消歧和共指消解处理,并将处理结果链接到知识库中对应的正确实体对象。经实体链接后,将知识元素加入知识库,从而实现知识合并,有效剔除抽取结果中冗余和错误的实体。因此,本文首先通过实体消歧方法确定含歧义别称所指代实体,再引入共指消解方法解决上述两种情况中对应的问题。

针对情况①,以图2所示情况为例,招投标领域知识库中含有两个实体概念“榆林市田浩商贸有限公司”和“上海田浩商贸有限公司”,公告标题包含实体“榆林市田浩商贸有限公司”,但公告内容中出现公司别称“田浩商贸有限公司”,这类含有歧义的公司别称在链接到知识库后可能得到错误结果,降低知识融合质量。

图2 招投标领域知识融合示例

由此,本文引入基于实体共现的实体消歧方法,通过从公告标题和内容中识别出的实体对象迭代进行实体匹配,若两个匹配实体存在公共字符串,则采用具有更完整命名信息的实体名称命名两个实体。上述实例由于公告标题中实体命名更加完整,故通过该方法可确定公司实体“田浩商贸有限公司”实指“榆林市田浩商贸有限公司”。

针对情况②,表1 对出现特定指称词(如公司简称、该公司、我公司、招标人、招标方、null 等)的常见句式进行了总结(②-a、b、c情况)。由此,基于情况①的处理结果,并针对当前句S2中仅含有一个实体指称词的情况,提出针对特定指称词的共指消解算法(见算法1),将企业实体的指称词还原为企业全称,即标准化命名实体。

表1 “多重指称项”情况

算法1共指消解算法

输入:S2,含有实体指称词的当前句;S1,指称词所在句S2的上一句;comp_title,公告标题中的实体;pron_word,S2中指称词;comp_b,S2中的唯一企业实体;feature_word,特征词(如[招标人,招标方…]);target_word,S1中的先行词(如A公司)

输出:comp_a:指称词指向的原实体

1.初始化数据:comp_a←null;

2.当comp_title 未含有comp_b,并且S2含有唯一指称词pron_word时,判别该篇文档标题comp_title中是否含有S2中的唯一企业实体comp_b;

3.如果S1含有先行词target_word:

当S1中含有指定特征词feature_word 时,令 omp_a←target_word,以解决示例②-a情况;

而当S1中未含指定特征词feature_word 时,令comp_a←comp_title,以解决示例②-c情况;

4.如果S1未含有先行词target_word,令comp_a←comp_title,以解决示例②-b情况。

综合上述解决方案,将实体消歧和共指消解后的各命名实体链接到招投标领域知识库中对应的正确实体;再通过知识合并,统一以公司全称进行命名。该方法不仅能够降低实体抽取结果的冗余度和歧义性,保证最终获取信息的质量,还有助于提高候选实体对与领域知识库对齐时的匹配效果,为后续实体关系抽取、噪声处理等任务提供更为准确的知识基础。

3.3 面向远程监督数据标注的负例学习降噪方法

本文首先利用Web 上半结构化的招投标领域企业历史交易数据及企业名称语料集构建企业关系知识库,以保证在远程监督标注关系数据时,准确获取更多的企业关系实例。再借助上述企业关系知识库自动对齐招投标公告文本中具有对应交易关系的企业实体对。此时,新的关系抽取语料集中包括含有“噪声”的关系企业对和未匹配上关系的企业对。然后根据噪声数据情况提出降噪方法,从而得到最终训练语料。

根据“远程监督”易引入多实例问题和多标签问题这两类“噪声”,结合招投标领域数据情况加以分析。本节待解决问题是与外部知识库对齐后得到的关系企业实体对并不具有指定关系,即产生了多实例问题。本文将该类数据记为“负例”。

招投标企业关系知识库中存在具有“委托”关系的实体对集,记为relation<A,B>,A表示招标方,B表示招标代理机构。通过远程监督方法获得的新语料集中含有噪声数据,如表2 中示例b、c、d 所示。其中示例d可采用3.2 节中还原指代项的方法加以解决,获得正确关系标签。

表2 远程监督实体关系抽取噪声数据示例

多实例情况易产生由关系指向错误(如示例b)和关系误判错误(如示例c中的非“委托”关系误判为“委托”关系)等问题所引入的噪声数据,从而影响分类模型的判别效果。

为减少噪声数据的影响,本文通过分析和统计大量招投标公告文书的语言特征,并结合领域专家经验的引导与验证,构建和完善领域知识规则。并结合实验的准确率和召回率(实验结果见4.2 节),完善领域知识规则的构建,以保证其合理性和完备性。

领域知识规则的符号含义如下:

(A,B):表示公告中含有的候选实体对。

relation(A,B):表示经判断候选实体对(A,B)具有“委托”关系。

before(A) 、between(A,B)、behind(B):分别表示实体A之前、实体A和实体B之间的分词结果集合。

KeyWord={委托,…},kw∈KeyWord:表示关系词集合。

PassiveWord={受,被,…},pw∈PassiveWord:表示被动词集合。

comma={',',','},wd∈comma:表示中、英文逗号集合。

领域知识规则如下:

规则1识别示例a中“委托”关系的情况。

若pw∈before(A)、wd∈between(A,B),并且kw∈between(A,B),则满足relation(A,B)。

规则2修正示例b中“关系指向错误”的情况。

若pw∈between(A,B),并且kw∈behind(B),则满足relation(B,A) 。

规则3识别示例c中“非委托关系”的情况。

若kw∉before(A) 、kw∉between(A,B),并且kw∉behind(B),则一定不存在relation(A,B)。

通过领域知识规则可有效区别出由远程监督方法构建的训练数据集中的有效标注数据和噪声数据,有利于后续因子图模型的构建及推理学习。

3.4 基于因子图模型的实体关系抽取方法

经远程监督数据标注后,新的关系抽取语料集中还存在部分待匹配关系的企业实体对。针对该部分数据,本文借助因子图模型进行概率建模,解决随机变量之间的复杂关系。面向招投标领域的因子图模型构建主要基于两类节点:变量节点和因子节点。关键元素及公式定义如下。

定义1(变量节点)模型中可观测到的候选关系实体对集合V={v1,v2,…,vn},每个实体对vi作为变量节点。每个vi都具有关系标签label(vi)∈{0,1,null},其中0为负标,1为正标,null为待预测标签。

定义2(特征因子)模型中每个变量节点都具有一个或多个句内特征项,各特征项作为特征因子节点fi,即有特征因子节点集合F={f1,f2,…,fm}。

句内特征项包含该句分词后的词语、词性、命名实体等序列标注特征。

当且仅当变量节点vi是特征因子节点fi的自变量(即实体对具有某一特征)时,对应的变量节点vi和特征因子节点fi相连,其连线作为因子图的边集E={e1,e2,…,en}。

定义3(关联权重因子)模型中各边ei具有关联权重因子wi,构成关联权重因子集W={w1,w2,…},是由各特征因子经过函数映射获得的实数集,即wi=func(fi)。在构建因子图模型过程中,关联权重因子wi经多次迭代学习完成权值优化,直至模型学习完成。关联权重因子wi反映了变量节点间的关联程度。

定义4(possible world模型)用以描述不确定性数据的通用模型,常记为Iσ。Iσ中包含若干个实例Ii={vi1,vi2,…,vin},每个实例发生的概率为该实例中各变量发生的概率之积,即。

为方便理解,本文中Iσ的实例Ii由各变量节点vi及其关系标签label(vi)表示为Ii:{vi→label(vi)}。

本文基于招投标公告数据构建因子图模型,根据各实体对共享不同特征的情况,计算实体对具有的某种关系的边界概率。不同的变量节点vi,通过共享fi而关联。若两个变量节点共享fi数量越多,则两个变量节点属于同类关系的概率就越大。因此,需要定义求解边缘概率的相关公式。

各特征因子fi在当前Iσ实例上的聚合值:

Iσ所有实例的聚合概率:

Iσ实例各变量和先验变量的关系标签label(vi)一致的实例集合为τe,其中关系标签为1 的集合label(vi)=1},关系标签为0的集合由此计算变量vi的关系标签取值为1的边缘概率:

但由于Iσ中存在2n种实例情况,若按上述方法求解,计算复杂度很高。因此采用吉布斯采样进行参数估计,以降低计算维度,提高算法的运行效率,并采用随机梯度下降进行迭代学习,直至模型收敛。算法思想见算法2。

算法2因子图模型参数学习算法

结合本文所采用的因子图模型构建思路,给出一个因子图模型的局部示例,如表3所示。假设局部任务中有4 个候选实体对(Ai,Bi),i=1,2,3,4,4 个变量节点构成实例I0:{v1→ null,v2→ 0,v3→ 1,v4→ null} ,各变量节点vi分别具有多种序列化标注特征fi:feature。

表3 变量节点-特征示例

根据表3,变量因子间共享不同的特征因子fi,i=1,2,3,4,特征经函数映射转化为关联权重因子wi,统计特征因子的共享情况(见表4)。

表4 特征因子-特征函数示例

由此可根据表4中的示例数据构建因子图模型(见图3)。现已知先验候选关系实体对v2、v3关系标签分别为0、1,Iσ的实例Ii应在和先验变量对应的关系标签值保持一致的条件下,根据算法2 分别计算label(v1)和label(v4)取值为1的概率,进而可依次判别v1和v4是否具有“委托”关系。

图3 因子图模型示例

本文借助因子图模型良好的统计和推理性能,并按照上述步骤,计算获得招标人和招标代理机构之间具有“委托”关系的边界概率,该值高于预定阈值的对应候选实体对即具有“委托”关系。

4 实验结果与分析

4.1 实验描述

本文实验使用语料来源于中国招投标网、中国采购与招标网2019 年首季度建筑工程类项目招标信息;为提高关系抽取模型训练效率,进一步筛选出由招标代理机构开展公开竞标的公告,共计4 000 篇。本文实验训练语料和测试语料比例为4∶1。针对抽取招标人-招标代理机构间的“委托”关系,实验基于命名实体标注结果和知识融合技术,抽取得到实体458例,包括256家招标方和202家招标代理机构;实体经笛卡尔积组成候选实体对8 284 条;结合远程监督学习和启发式规则为候选实体对自动标注关系类型。

文本特征提取采用候选实体对上下文的语义特征。通过分析招投标领域词汇统计特征和语言学特征,以句为单位,提取句内候选实体对(A,B)前-中-后的窗口特征,窗口特征选择词汇、词性(POS)、命名实体(NER)、依存语法关系(DP)、词汇长度(LENGTH)这5个序列标注信息(见表5)。

表5 特征类型-特征提取结果示例

基于以上步骤,实验采用吉布斯采样和随机梯度下降方法迭代学习模型参数,优化因子图模型,并通过多次实验,确定关系判别的阈值α(如α=0.5)。

4.2 实验分析

为验证本文方法的有效性,设计了不同去噪强度下的实验对比和不同关系抽取方法下的实验对比。

本文首先设计了3 个实验:实验1 采用基于因子图模型的远程监督实体关系抽取方法抽取实体关系,并未做任何降噪处理;实验2 在实验1 的基础上,采用3.2 节提出的解决公告文本中的“多重指称项”问题的知识融合方法进行降噪;实验3 在实验2 的基础上,采用3.3 节基于领域知识和负例学习的降噪方法,以进一步提高抽取质量。最后,对3 次迭代优化的实验结果进行比较(如表6和图4所示)。

表6 不同去噪强度下的实验数据

图4 不同去噪强度下的实验结果

由图表数据可知,实验2 引入知识融合方法后,识别出了实验1 中遗漏的314 例实体对,但抽取性能略有下降。这是由于候选实体对增多的同时,远程监督数据标注也产生大量负例未能去除。

实验3 的精准率(P)和F1 值显著提高,主要是由于实验3 通过负例学习,有效判别出在实验2 中未能剔除的2 196例具有错误关系指向的实体对。

此外,为对比不同关系抽取方法的抽取效果,选择已被广泛应用于信息抽取任务中的两种判别式模型,分别是经典算法条件随机场(Conditional Random Field,CRF)和研究热点双向长短期记忆(Bi-directional Long Short-Term Memory,Bi-LSTM)神经网络。与本文采用的因子图方法进行对比,实验统一以经本文降噪方法处理后的远程监督数据标注结果作为模型的输入,实验结果如图5所示。

图5 不同关系抽取方法的实验结果

由图5可见,本文提出的基于因子图模型的关系抽取方法在F1值上均略高于CRF方法和Bi-LSTM方法。

上述两组实验结果验证了本文方法具有更好的抽取性能。此外,针对招投标网站每日更新扩增的海量公告,采用本文方法可比传统监督学习方法大幅减少标注数据的工作量,从而提高关系抽取效率。图6示意了通过本文的关系抽取方法构建的企业关系知识库的局部图谱。针对新增招投标公告信息,可循环迭代采用本文方法更新知识库中的知识,在一定程度上解决了招投标领域中文知识库匮乏的问题。

5 结束语

本文提出了一种基于因子图模型的远程监督实体关系抽取方法,并借助知识融合、负例学习及领域知识等方法,解决了招投标领域知识库“远程监督”标注数据时出现的“噪声”干扰问题;借助因子图模型良好的性能,实现了招投标领域实体关系自动抽取任务。本文提出的信息抽取方法具有较好的可拓展性,可以移植于其他领域。

对比实验结果说明本文方法能够在一定程度降低人工标注数据的高额成本,减少冗余、歧义信息,提高招投标领域实体关系抽取的准度与精度,进而保证了获取重要信息的质量和时效性。本文方法所获关系实例可迭代扩充现有招投标领域知识库,可有效协助和支持相关项目单位、企业制定管理决策等活动,也可以协助招标方客观选择招标代理机构,便于监管部门及时查看招投标参与主体的交易情况。

本文聚焦于信息抽取技术,能否同步抽取多类关系及属性等多维信息,如关系关联抽取、事件抽取方法等是下一阶段的研究重点。

猜你喜欢

知识库示例实体
2019年高考上海卷作文示例
前海自贸区:金融服务实体
常见单位符号大小写混淆示例
基于TRIZ与知识库的创新模型构建及在注塑机设计中的应用
常见单位符号大小写混淆示例
“全等三角形”错解示例
实体的可感部分与实体——兼论亚里士多德分析实体的两种模式
两会进行时:紧扣实体经济“钉钉子”
振兴实体经济地方如何“钉钉子”
高速公路信息系统维护知识库的建立和应用