APP下载

话题型微博中第三人称代词消解

2014-06-08

海南开放大学学报 2014年1期
关键词:第三人称指代微博

张 瑛

(中国传媒大学文学院,北京100024)

引 言

话题型微博是指“围绕某一话题即标签(hashtag)阐发意见、进行讨论的微博形式”[1],见例1。标签的形式化特征为双“#”号,即例1中的“#笑傲江湖#”。话题型微博正文则是针对该标签发表的言论,即例1中“虽然令狐冲最后娶的是任盈盈,其实他心里真正爱的是东方不败”。人称代词消解是指将文本中具有指代性质的人称代词消解为其指代的对象,例如:将例1中“他”消解为“令狐冲”。

例1:#笑傲江湖#虽然令狐冲最后娶的是任盈盈,其实他心里真正爱的是东方不败。

随着大数据时代的来临,话题型微博已经成为重要的数据资源,而针对话题型微博的信息挖掘也备受人们关注。

话题型微博的特点在于微博主就标签进行集中讨论,于是微博主常使用第三人称代词指称与标签相关的信息。这虽然使得语言经济明了,但为话题型微博信息处理增加了难度。因此,对话题型微博中第三人称代词进行消解成为话题型微博信息挖掘(例如:微博评价对象提取、微博热点话题追踪、微博情感语义分析等等)的一个基础任务。

一 相关文献

目前,已有较多学者对汉语第三人称代词消解进行了研究,例如:王厚峰、梅铮提出基于鲁棒性的人称代词消解方法,其第三人称代词(他/他们/她)消解的平均正确率达到了84%[2]。庞宁、苏尚宏等采用了最大熵和决策树两种算法对中文人称代词进行消解,第三人称消解结果F-值分别达到70.1%和68.1%[3]。宋巍、秦兵等基于依存句法与语义相结合方法对中文代词进行了消解,整体正确率达到84.38%[4]。然而,这些消解算法主要针对常规书面语料,对语篇长度、文本语言的规范性都有较高要求。话题型微博属于短文本,人称代词语篇信息少,并且文本口语化程度较高,其第三人称代词使用也与其他常规文本有所不同。因此,分析话题型微博人称代词使用特点之后,我们提出了基于多层面语言信息的消解算法。

二 话题型微博第三人称代词使用特点

在不同语域中,第三人称代词的使用也会有相应变化。话题型微博虽然单独成篇,但是其他围绕同一话题的微博与之可形成一个话题型微博群。一个话题型微博群可视为众多微博博主就一个主要话题(体现为微博中的标签)进行的多人会话。这一特征导致单篇话题型微博中人称代词使用具有其自身特点,我们分析了中国计算机学会(CCF)2013年第二届中文微博情感分析评测语料,发现话题型微博中第三人称代词用法不合语法现象较多,常出现外指,还存在一定数量的非指称性人称代词。

(一)不合语法现象

话题型微博其实是微博主在话题型微博群这一多人会话中的发言,是一种口语转换文本。因此,话题型微博口语特征较强,常出现大量不符合语法规范的语言现象,包括第三人称的使用,见例2。

例2:#新版笑傲江湖 #任盈盈回想起东方和令狐冲在一起的时候,他告诉他爹东方在灵柩寺。(“他”用于指代男性,而此处却指代女性)

在进行第三人称代词消解时,“性别一致”、“范畴一致”是机器筛选潜在指称对象的一个重要判断标准。例2中第三人称的不规范使用虽然不会对人们理解微博语义造成干扰,但却为机器进行第三人称自动消解增添了难度。

(二)外指较多

在话题型微博中,第三人称代词经常出现外指现象。这是由于微博主已经就所讨论话题形成了共识,会直接在单篇话题型微博中使用第三人称代词指称与话题型相关的信息,见例3。

例3:#王语嫣#不知道这版的王语嫣还会是龙姑娘么,如果是她或者袁珊珊,那我就无力坑爹了(外指王语嫣扮演者张檬)。

外指一直是指代消解中的难点。对其进行消解往往需要更多语境信息和世界知识。因此,对话题型微博进行第三人称代词消解时,我们需要对文本进行更深层次的预处理,以保障消解的正确率。

(三)非指称性第三人称代词

话题型微博属于特殊的多人会话,其文本口语特征较强,会出现很多口语词汇。其中,有些口语词汇虽然具有第三人称代词的词型,但却不具备任何指称功能,我们称之为非指称性第三人称代词,见例4。

例4:#曼联V.S.皇马#他娘的,这场比赛全被那二货裁判给毁了。

如果系统无法识别这些非指称性第三人称代词,将会得出错误消解结果,降低消解系统的性能。值得庆幸的是,这类非指称性人称代词用法相对固定,我们可建构一个非指称性第三人称代词词表将其排除。

三 消解策略

话题型微博第三人称代词的消解要难于传统的消解。难点首先体现在语料上,话题型微博文本口语化程度高,句子不规范,篇幅短。这说明话题型微博不但难以预处理,还缺乏一些第三人称代词消解中常用到的语言信息,例如:语篇信息、短语或依存句法结构信息(口语语句不流畅所致)。难点其次体现在待消解项上,上文中指出话题型微博中第三人称代词语境依赖性强,不符合语法现象较多。这意味着“性别一致”、“范畴一致”等语言原则在消解算法中的权重需要降低,而语用信息权重需要增加。鉴于已有的第三人称代词消解算法无法完全适用于话题型微博,我们提出基于多层面语言信息的消解策略。

(一)句法层面语言信息

话题型微博句子较短。侯敏等对20篇话题型微博进行句长统计,得出话题型微博的句长仅20个字[1]。同时,话题型微博句子口语化程度较高。这就造成话题型微博句子自动短语或依存句法分析的结果准确率很低。因此,我们对文本仅进行浅层的句法标注,包括句首/句尾标注,主语/宾语标注。

句首和句尾标注是指为每一个句子的句首和句尾添加形式标记。我们可以通过判断第三人称代词是否位于句首或句尾进行相应的规则匹配。通常位于句首的第三人称代词其指称对象首先排除句内命名实体,采用跨句消解,而位于句尾的第三人称代词指称则可通过逆向匹配寻找最近的潜在指称对象。

主语/宾语标注是指以句中动词为锚点,对句中的主语和宾语进行区分并标注。基于Grosz&Sidner的中心理论[5]以及赵鸣、刘涛对语言回指加工的ERP实验[6],我们认为区分主语和宾语将提高消解规则的准确性,例如,出于主语位置的名词性短语优先成为下一句中第三人称代词的回指对象;在相邻的两个句子中,与第三人称处于同等句法位置的名词性短语优先成为回指对象。

(二)语义层面语言信息

鉴于话题型微博中第三人称代词常出现违背“性别一致”、“范畴一致”等语义原则现象,我们将减少这类语义约束在消解规则中的权重。同时,我们增加了“有生命/无生命”,“集体/个体”等语义范畴,以便于对潜在先行语进行筛选。

由于话题型微博较短,导致人称代词上下文信息较少。为提供篇章信息,我们为词语添加了“提示话题”、“话题转折”、“对比”、“排除”等语义信息,这些语义信息能够有效提示第三人称的上下文结构。

(三)语用层面语言信息

话题型微博群是微博主围绕同一话题进行讨论而形成的多人会话。与话题相关的知识常常被微博主们视为共有的语境信息,许多单篇话题型微博中第三人称代词都需要依据这些语境信息才能得到消解,见例5。

例5:#王语嫣#丑死了,老子最讨厌她了,演个戏作的要死!

#王语嫣#长得很一般,没有特点……感觉她长得像个男人!

#王语嫣#我更喜欢她的“海兰珠”。

在例5中,三条话题型微博都以“王语嫣”为话题进行评论,单篇话题型微博中第三人称均是外指,可依据话题的语境信息被消解为“张檬”(王语嫣的扮演者)。我们认为一个话题型微博群中高频名词性词汇体现了话题的相关热点,极有可能是第三人称潜在的外指对象。因此,我们以话题型微博群中的高频名词性词汇为内容,构建了话题热点表单。当判定话题型微博中第三人称代词为外指时,匹配规则将调用话题热点表单对其进行消解。

四 实验及结果分析

(一)系统流程及实验语料

基于上述策略,我们构建了一个第三人称代词消解系统。系统包含三个部分:文本预处理;待消解项定位及类别判断;待消解项消解。系统流程如图。

在输入待消解微博之后,文本去噪模块将针对话题型微博出现的网址、表情符号和图片链接等信息噪音进行清洗。经过去噪处理的文本会依据分词词典及分词规则库进行分词;依据非指称性第三人称代词底表剔除不具备指称功能的第三人称代词;同时,利用语义信息词典以及语用信息统计结果进行多层面语言信息标注。随后,系统将会自动识别文本中第三人称代词,并列为待消解项。待消解项将依据规则判断为外指或内指。内指第三人称代词将依据内指消解规则进行消解,而外指第三人称代词将会调用话题热点表单,并基于外指消解规则进行消解,最后输出消解结果。

本次实验语料选用了中国计算机学会(CCF)2013年第二届中文微博情感分析评测语料,共10组话题型微博群,1000篇话题型微博,2135个句子。其中,第三人称代词共有223处。

(二)评测标准及实验结果

本文依据国际信息理解大会(MUC,Message Understanding Conference)对指代消解的评测标准来判断系统性能,包括准确率(precision)、召回率(recall)和F指数(F-measure),公式如下:

我们使用消解系统对语料进行第三人称代词消解,得出实验结果如下表:

表3 :第三人称代词消解结果

结果显示,第三人称代词总体消解F指数为85.83%。其中,“他”消解结果F指数最高,达到了94.60;“他们”消解结果 F指数最低,仅41.67%;“她”、“它”、“其”的结果较为相近,分别是80.77%、76.92%和 76.19%。在话题型微博中,“他”的指代对象较为简单,多为篇章内指或与话题相关外指,话题热点表单较好地提高了“他”的消解正确率。“他们”的指代对象相对而言较为复杂,其指称对象常常为多个命名实体。我们对实验结果进行了回查,发现错误原因主要有以下几点:

(1)文本预处理错误,导致某些命名实体未能被正确识别,影响了进一步消解。

(2)第三人称代词类别判断模块将外指错判为内指,错误地匹配了内指消解规则。

(3)第三人称代词与其指称对象距离较远,通常跨2个以上的句子或多个命名实体,导致消解规则匹配错误。

(4)第三人称复数“他们”指代对象为间隔分布的多个命名实体,匹配规则未能完整提取所有指称对象。

上述分析表明,提高文本预处理正确率将有助于第三人称代词消解规则匹配。同时,对第三人称代词的指称类别进行区分也可提高消解系统性能。第三人称复数“他们”的消解规则有待进一步改进。

结 语

针对话题型微博这一特殊语域,我们提出了基于多层面语言信息的第三人称消解策略,实验结果F指数达到了85.83%。这说明这一策略在话题型微博语域是行之有效的。然而,策略中所提及的话题热点表单具有一定局限性,需要随着语料话题的更换而更新。如何将这一策略应用于其他语域有待进一步研究。

[1]侯敏,滕永林,李雪燕等.话题型微博语言特点及其情感分析策略研究[J].语言文字应用,2013(2).

[2]王厚峰.鲁棒性的汉语人称代词消解[J].软件学报,2005(5).

[3]庞宁,苏尚宏,赖振丹.中文人称代词消解研究[J].太原科技大学学报,2008(3).

[4]宋巍,秦兵,郎君等.句法与词义相结合的中文代词消解[J].中文信息学报,2008(6).

[5]S.Gupta,M.Purver and D.Jurafsky.Disambiguating Between Generic and Referential"you"in Dialogue[A].Proceedings of the 45th Annual Meeting of the Association for Computational Linguistics(ACL)[C].Madison:Omnipress,2007.

[6]赵鸣,刘涛.语言回指加工的ERP研究述评[J].心理科学进展,2011(3).

猜你喜欢

第三人称指代微博
奥卡姆和布列丹对指代划分的比较
奥卡姆和柏力对简单指代划分的比较*
The Ways of Leading a Healthy Life
谈谈英语教学中 第三人称单数及其后面动词的用法
用第三人称和自己说话能减压
It’s Your Turn, Roger! (I)
基于深度学习的维吾尔语名词短语指代消解
事实与流言的博弈
重大突发事件中微博之力不微
曾国藩的“微博”