APP下载

面向事件抽取的汉语时间词识别与表示

2023-03-16金璐钰姚建民

数字技术与应用 2023年2期
关键词:本体短语标签

金璐钰 姚建民

1.苏州托普信息职业技术学院;2.苏州市科学技术情报研究所;3.苏州大学计算机科学与技术学院

无论一个句子中显式地指明时间,还是事件中人的语言动作隐式地蕴含时间,自然语言中事件描述总是在一定的时空之中。理解时间词的语义表达,对解析事件抽取中特定的人、物在特定时间和特定地点相互作用具有重要意义。本文以获得事件在时间轴上的位置为出发点,从语义上研究汉语时间在计算机中的表达。通过抽取事件中的时间词,并构建汉语时间本体,从而理解事件间的时间关系。

1 相关工作

事件信息普遍包含时间、地点、人物3个基本元素。其中,时间元素决定了事件内部的逻辑关系以及事件间的时间联系,是事件信息中极为重要的部分。事件的时间信息可以是显式或隐式的。显式的时间元素由时间词或时间短语构成,直接指明动作或状态发生的时间。隐式的时间元素将时间信息暗含在用于描述事件的动词之中,通过行为动作侧面衬托出事件的前后关系。

从语法词性上来看,汉语时间的主要分类有:时间名词,如“秒、分钟、今天、上午”等;时间副词,如“马上、曾经”等;数量短语,如“一分钟、一年”等;介词短语,如“今天起、截止上周六”等。

关于时间词分类,从时间的表现形式上来看,学术上统一将其分为时点与时段[1]。其中,时点是持续时间为零的特殊时段,表达了一个瞬间的概念。从时间的组成形式来看,李向农的《现代汉语时点时段研究》提出,将时间分为本体时间与代体时间[2]。本体时间是指本身具有时间属性的词,如“春节”;代体时间需要时间辅助词加上行为动作来表示时间语义,如“上课铃响起时”。此分类方法对于时间语义在计算机中的表达具有借鉴意义。

关于时间词的信息提取,现有的提取汉语时间词的语义信息分为两种方案[3]。第一种方案是基于时间要素的分解,通过对“着”“了”“过”等时间辅助标记,对动作所经历的时段进行结构化的分析。这一方法的贡献在于使用简单的公式便完成了事件间时间关系的推理,为之后更为深入的研究提供了理论基础。缺点在于,该方案将注意力集中在时间助动词的处理,从而忽略了时间词本身的语义表达,不利于计算机对时间词的语义进行解析。第二种方案是基于时间认知窗口的表达,时间认知窗口是一系列参照点结构构成的时间链条。例如“去年春节”被表达为“现在→今年→去年→春节”。在这种表达下,一个时间或时间短语所包含的全部时间信息以及信息之间的关系都能被显式地表达,为时间信息在计算机中的表达提供了可行的方法,也是本文所参考的方法之一。

随着自然语言处理技术不断深入,计算机领域的时间信息处理也有了初步成果。

杜津的《自然语言时间语义处理》中,以本体论为基础提出了时间的概念网络模型[4],构建了一个比较完全的时间表达模型,其本质是对汉语言文学信息提取研究中的第一方案进行了实现,取得了一定进展。

2017年万维网联盟正式发布了OWL时间本体标准[5],为时间本体的构建提供了参考。在该标准中,明确地将时间分为Instant(时点)与Interval(时段),并给出了时间之间的13种关系(如Before、After等),为时间语义在计算机中的计算奠定了基础。除此之外,标准引入以日历参考系统为基础的时间表达方法,证明了时间语义结构化表达的可行性。

本文将汉语时间词的识别视为实体识别问题,尝试条件随机场(Conditional Random Field,CRF)和长短期记忆网络(Long Short-Term Memory,LSTM)+CRF两种方法[6,7]。借鉴OWL时间本体标准,将时间表达转化为本体文件。

2 汉语时间词的识别

作为识别问题,汉语时间词的识别同大多数自然语言处理问题一样,可以采用序列标注的方法解决。汉语时间词语,在理论上是可以穷举的,而时间短语则拥有固定的搭配形式。因此,可以预见,汉语时间词的识别将会收获一个良好的效果。本文采用CRF与LSTM-CRF两种方法。

2.1 条件随机场CRF模型

条件随机场CRF是一种无向图模型,结合了最大熵模型和隐马尔可夫模型的特点,在实体识别等序列标注的领域中拥有突出表现。对于一个输入句子s,CRF在所有的可选标注序列中,给出一个最有可能的标注序列作为结果。其中,对于每一个标注序列l,其对应于输入句子的评分如公式(1)所示。

公式(1)中,f表示特征函数,λ表示特征函数的权值。对这个分数进行指数化和标准化,就可以得到标注序列l的概率值p(l|s),如公式(2)所示。

由此,CRF返回一个评分最高的序列标注作为结果。

2.2 LSTM-CRF模型

作为循环神经网络(Recurrent Neural Network,RNN)的一种特殊类型,LSTM通过刻意的设计来避免长期依赖的问题,在自然语言处理中得到广泛的应用。将LSTM与CRF相结合,可以在实体识别上获得更好的效果。LSTM-CRF模型的基本结构是在LSTM后添加一层CRF层。LSTM提取句子的特征,并且会在每一步返回一个字w对应每个标签j的分值向量,如图1所示。

图1 LSTM-CRF模型和结果分值(概率)的反馈Fig.1 Feedback of the LSTM-CRF model and result score(probability)

在LSTM层我们已经可以得到最高概率的标签,但是仍然需要CRF层的辅助,原因是CRF可以进行句子级的标注,从训练数据中获得约束性的规则,保证预测的标签是合法的。由此,对于每一个标注序列y,其对应于输入句子x的评分如公式(3)所示。

归一化后,最终概率如公式(4)所示为返回预测标签结果。

2.3 模型的训练与测试

训练集采用人民日报语料。其中语料中每行一句,句子分词,且词后跟有属性标签,时间词以标签“/t”表示。将原始语料的80%划分入训练集,20%划分入测试集。以单字切割,打上标签:时间词开始TB、时间词中间TM、时间词结束TE、时间单字TS、其他O。特别的,在使用CRF模型时,需要给出模板与分词特征标签,S表示单字为一个词,B表示词开始,M表示词中间,E表示词结束。CRF与LSTM-CRF的训练测试结果如表1所示。结果数据表明,模型的召回率相比于准确率略低,其中一些专有的表示时间的名词,如朝代、秦朝等;如表示年的,虎年,牛年,这些词往往不能够被准确识别出来。可能的原因是对于专有的时间名词,没有足够多的语料将它们全部包含,导致识别失败,召回率下降。为了提升召回率,我们构建了专门的时间词表,收入朝代、天干地支、节日和一些描述季节的词汇,构建汉语时间词专有词表[8]与LSTM-CRF模型结合。结果如表1所示。

表1 CRF、LSTM-CRF模型及结合时间词表的模型测试结果Tab.1 Test results of CRF, LSTM-CRF, and combination with time expressions

三次模型测试结果对比如图2所示。

图2 CRF、LSTM-CRF模型及结合时间表的模型测试结果对比Fig.2 Comparison of test results of CRF, LSTM-CRF, and combination with time expressions

从结果可以看出,对于汉语时间词这一词类的识别,使用序列标注的方法可以获得可观的结果,相信在足量的数据和完善的时间词表的支持下,现有的模型性能可以满足时间词识别与提取的需要。

3 利用RDF描述时间本体

本文的最终目的是用RDF的方法来描述时间本体,如图3所示展示了对北京奥运会(2008.8.8-2008.8.24)这一时间段利用Turtle语法进行的文字形式描述。

图3 使用Turtle语法描述北京奥运会的时间本体Fig.3 Time ontology of Beijing Olympics under Turtle grammar

在Turtle语法中,“@prefix”的作用是声明前缀,“@base”的作用是声明基本域。为了减少与结果无关的实例的数量,Turtle允许实例缺省表达,例如图3的右半部分,这样,在整个本体描述的过程中,只需要用到“BJOlympic”这一个时间实例,同时它也是我们所要表达的原始时间,因此,本文希望利用这种方法完成汉语时间词的本体文件输出。需要注意的是,为了简便,最终只将实例的类型分为“Instant”或“Interval”,借助归一化后的Time类区分,“Begin”与“End”项相同的为“Instant”,反之为“Interval”。最后的输出内容以Time中的Format为依据。

4 总结与展望

本文从汉语时间词入手,对汉语时间表达进行识别并最终生成对应的本体文件。在时间的识别上,使用了CRF与LSTM-CRF两种方法,并利用汉语专有时间词表进一步提高模型的召回率。时间本体的构造利用OWL时间本体的内容,采用Turtle语法将归一化后Time类型实例转变为时间本体文件。

本文研究限于汉语时间词以及由时间词和介词、动词等辅助词组成的时间短语。事实上,许多事件型时间表达,即代体时间,例如“吃饭时、下课铃打响的时候”等同样具有重要意义,完善的时间解析系统会推动事件抽取、事件理解的发展,为自然语言处理带来更多可能。

引用

[1]余东涛.现代汉语时间词研究[D].武汉:华中师范大学,2006.

[2]李向农.现代汉语时点时段研究[M].武汉:华中师范大学出版社,2003.

[3]陈振宇.现代汉语时间系统的认知模型与运算[D].上海:复旦大学,2006.

[4]杜津.自然语言时间语义信息处理[D].北京:中科院自动化所,2005.

[5]陈世祺,张俊,曾敏,等.基于时态本体的时态数据表示研究[J].计算机技术与发展,2019,29(12):33-39.

[6]郭军成,万刚,胡欣杰,等.基于BERT的中文简历命名实体识别[J].计算机应用,2021,41(S1):15-19.

[7]HUANG Z H,XU W,YU K.Bidirectional LSTM-CRF Models for Sequence Tagging[A].Computer Science,2015.

[8]曾婉.汉语时间词研究综述[J].现代语文,2018(5):22-26.

猜你喜欢

本体短语标签
Abstracts and Key Words
对姜夔自度曲音乐本体的现代解读
无惧标签 Alfa Romeo Giulia 200HP
不害怕撕掉标签的人,都活出了真正的漂亮
标签化伤害了谁
《我应该感到自豪才对》的本体性教学内容及启示
《健民短语》一则
基于多进制查询树的多标签识别方法