APP下载

基于依存树与规则相结合的汉泰新闻事件要素抽取方法

2018-09-26程良郜洪奎王红斌

软件导刊 2018年7期
关键词:自然语言处理泰语规则

程良 郜洪奎 王红斌

摘要:针对汉泰新闻事件要素抽取进行研究,首先分析汉泰语言特点,发现泰语的定语、状语和补语后置与中文语法结构类似,进一步分析发现汉泰依存结构相同。因此,通过平行句对构建汉泰依存树,再根据泰语语言特点定义若干规则,利用依存树与规则相结合抽取泰语句子的主语、宾语和状语。实验验证,泰语主语名词短语、宾语名词短语和状语名词短语的事件要素抽取正确率分别为62.13%、64.18%和70.21%,说明基于依存树与规则相结合抽取泰语新闻事件元素是可行的。

关键词:依存树;规则;泰语;要素抽取;自然语言处理

DOI:10.11907/rjdk.181605

中图分类号:TP301

文献标识码:A文章编号:1672-7800(2018)007-0049-08

Abstract:ThisresearchaimstostudytheextractionmethodfornewsinbothChineseandThailanguages.AnanalysisonthecharacteristicsofChineseandThailanguagewascarriedout.Itwasfoundthattheattributive,adverbialandpost-complementweresimilarinbothlanguages,whichfurtherindicatedthatChineseandThailanguagesharedthesamedependencystructure.Therefore,ChineseandThaidependencystructuretreesweredevelopedbyparallelsentences.Then,accordingtotherulesofThailanguagefeatures,subject,objectandadverbialofThaisentenceswereextractedbycombiningdependencytreeandthedefinedrules.TheresearchconfirmedthemainelementsinThainewsincludedsubjectnounphrases,objectnounphrases,andadverbialnounphrases,withthecorrectextractionrateof62.13%,64.18%and70.21%respectively.ItisevidentthatdependencystructuretreeincombinationwithlanguagerulescouldbeappliedinextractingtheelementsinThainews.

KeyWords:dependencytree;rule;Thailanguage;factorextraction;naturallanguageprocessing

0引言

中國作为内陆国家与众多国家接壤,自古以来重视与邻国的经济合作及文化交流。泰国是中国的邻居,自1975年双方建交以来,两国交流与合作比较密切[1-2]。随着中国“一带一路”倡议的提出,两国之间的交流与合作达到一个全新高度。两国人民获取信息的渠道之一是各种新闻网络。但是,网络新闻具有海量性和无限性,如何从大量杂乱无章的新闻报道中快速、有效获取所关注的新闻信息,已成为当前迫切需要解决的问题。因此,开展基于依存树与规则相结合的汉泰新闻事件要素抽取方法研究显得十分重要。然而,泰语是小语种,应用人群有限、技术不成熟等导致目前关于泰语事件的研究较少。

2005年ACE评测会议把事件要素抽取作为事件识别的后续任务[3]。事件要素抽取是指从已识别事件的众多实体中提取出事件的时间(Time)、地点(Place)、参与者(Participants)等信息[4-6]。当前国内外关于事件要素抽取的研究主要采用两种方法:模版匹配方法[7]和机器学习方法[8]。模版匹配方法是在模版的指导下进行的,首先要获取模版,然后再利用获取的模版抽取事件要素信息。例如:李芳[9]自动抽取新闻报道中提及的事件相关信息,如时间、地点以及结果等,具体做法是结合时间、地点条件完成事件要素抽取任务,在特定领域实验效果较为理想,但缺点是同一事件信息合并会出现问题;付剑锋[10]运用基于特征加权的事件要素识别方法,实验之前首先改良ReliefF特征选择算法,其次根据改良后的ReliefF特征选择算法(FWA)综合考虑各个特征对聚类的影响,进而分配相应的权值,然后利用K-Means算法对抽取的事件要素进行聚类,最终完成事件要素抽取,但是该方法采用FWEAI算法进行聚类,需要人工干预。

由于规则是根据人的思维制定的,总体来说采用模式匹配方法进行事件要素抽取具有准确率较高(如果首先定义的模式非常准确)并且知识表现直观、自然的优点,有利于了解和推理。但是该方法依赖于具体的单一语言和相关领域及文本格式,可移植性差、制作费时费力且容易产生错误,更重要的是只有经验丰富的语言学家才能完成。况且语言复杂多变,因此制作的抽取模式不可能包含所有事件类型,当转换语料时,由于不同语言结构特点,需要重新制作模式,因此性价比不高。

因此,部分学者转向机器学习方法研究事件要素的获取。例如:Ahd[11]在2006年首次提出采用多元分类器识别事件要素,并且在ACE英文语料上做了相应测试,结果较为理想,但是存在数据的正反例不平衡及多元分类器数量众多等问题。赵妍妍[12]在Ahd实验基础上进行相应改进,将不同类别中相同的事件要素进行合并,并且在ACE中文语料上取得了不错成果。丁效[13]采用最大熵作为分类器进行事件要素识别,但是该方法依赖具体的语料。Saeedi[14]、Wang[15]和杨尔弘[16]把事件要素的抽取问题进行相应转化,使其转化为分类问题,但是分类器构建与特征选择等需要大量人力和物力。机器学习方法具有良好的健壮性和灵活性,且比较客观,不需要过多的人工干预以及领域专家知识,因此实验召回率较高。但是由于语料库资源有限导致数据稀疏,从而引发准确率较低和开销巨大等问题,且还需要庞大的语料库资源。目前泰语领域研究成果只有少量词法层面和语料库构建等基础资源构建层面的研究,而事件相关研究较少。比如:赵治鹏[17]采用机器学习方法实现泰语分词;KessarapornSuesatpanit等[18]通过泰语字符集信息实现泰语分词;CanasaiKruengkrai等[19]通过词和字符簇的混合模型实现泰语分词。同时,泰语领域研究成果大都采用有监督的机器学习方法,需要依赖高质量的泰语训练语料,开销较大,并且因资源稀少而较难获得。上述采用机器学习识别事件要素的方法,都是采用把候选事件要素以及相关信息作为特征进行训练分类器,取得了较好成绩;但是如果事件要素不是某一类不变的实体信息,而是泛化的相关内容,则采用分类器识别事件要素效果较差。

针对上述事件要素研究现状及泰语研究存在的问题,本文采用依存树与模版匹配相结合可以很好地抽取汉泰事件要素信息。汉语和泰语依存关系结构[20]相同,在获取汉泰平行事件句对语料的基础上,首先通过构建汉语依存树,然后将其映射为泰语依存树,并且根据泰语语言特点定义若干规则,最后利用泰语依存树与定义规则相结合完成泰语事件要素抽取任务。本文基于依存树与规则相结合的汉泰新闻事件要素抽取方法,在汉泰平行事件句对的语料基础上,借助中文事件较为成熟的技术,从非结构新闻文本中抽取出事件要素信息并以结构化形式展现,具有重要价值。

1研究思路与方法

事件要素提取作为事件抽取的后续任务,是从识别的事件中把人物、时间、地点等信息提取出来。本文研究重点是事件要素抽取,即抽取出事件的时间、地点、参与者等信息。由于泰语是小语种,当前关于泰语的研究仅仅局限在词法等方面,泰语事件研究较少及泰语语料资源有限导致直接开展泰语研究会面临许多困难,因此需要借助汉语较为成熟的事件技术进行泰语事件研究。本文的事件要素抽取任务从本质上说,与中文微博中的情感要素抽取任务相同,都是识别要素信息。张凌[21]根据中文语言结构特点提出了基于模版和依存分析相结合的情感要素抽取方法,并通过实验论证该方法可以有效提高情感要素抽取结果。但是泰语与汉语语言结构不同,泰语中定语、状语和补语是后置的语言。目前的规则在泰语中不适用或者太少,不能充分识别泰语事件要素,因此需要分析泰语语言,制定若干针对泰语事件要素抽取的规则,最后根据制定的规则与依存分析相结合进行泰语事件要素抽取。但是本文研究却又不同于张凌的单语情感要素抽取,具体包括以下两个难点:①泰语目前没有依存分析树库,需要构建依存树库;②规则模版制定需要考虑汉泰语言结构特点,制定适用于泰语的事件要素抽取规则。

针对上述问题①,查阅文献[20]发现汉语与泰语的依存关系相同,因此可以根据哈工大语言云直接得到汉语依存树,然后将其直接映射为泰语依存树;针对上述问题②,根据文献[22-24]总结及咨询泰国留学生泰语语言结构特点,综合整理制定若干事件要素抽取规则,最后将汉语映射得到的泰语依存树与本文定义的若干规则相结合进行事件要素抽取。

通过上述分析,本文采用基于依存树与规则相结合的汉泰新闻事件要素抽取方法,在现有汉泰平行事件句对资源的基础上,展开对泰语新闻事件要素抽取研究,其任务是从泰语新闻句的众多实体中抽取出真正的泰语新闻事件要素。图1为泰语事件要素抽取整体流程,主要分为3个模块:语料预处理模块、依存树构建模块、事件要素抽取模块。本文围绕該流程具体阐述如何抽取泰语事件要素,并进行实验验证。

2语料预处理模块

2.1汉泰语言结构特点

汉语和泰语一样都属于汉藏语系。汉语和泰语虽然在句法结构上有许多相似之处,但是两者毕竟属于不同国家语言,因此也存在较多差异[25-26]。

2.1.1相似性

两者之间的相似性主要体现在以下几个方面:

(1)汉语和泰语在构词方面均使用复合法构词。最常见的是新词全部以词根作为基础进行构词。例如:汉语中以“电”作为基础可以构建许多新词:“电话/电脑/电视”;泰语中的“(电)”构建的新词有:“(电器)/(电动车)”等。

(2)汉语和泰语在表达方式上均缺少词语的形态变化,在语法上依赖语序和虚词。例如:汉语:“我昨天在操场打了篮球”;“我今天也在操场打了篮球”。泰语:“(我昨天在操场打了篮球)”;“(我今天也在操场打了篮球)”。

(3)泰语句子与汉语句子基本语言结构一样,均含有主语、谓语、宾语、定语、状语、补语。例如:汉语:“清晨的微风轻轻地吹走鲜花上的露珠点点”。主语:“微风”;谓语:“吹走”;宾语:“露珠”;定语:“清晨的、鲜花上的”;状语:“轻轻地”;补语:“点点”。泰语:“”。主语:“”;谓语:“”;宾语:“”;定语:“、”;状语:“”;补语:“”。

(4)汉语和泰语中较短的句子经过扩展都可以转化为较长的句子,而且词序保持不变。例如:汉语:“来自美国的留学生学习汉语。”对应的泰语翻译:“留学生的来自美国学习汉语。”从上述分析可知,词序还是“主语+谓语+宾语”结构。

(5)两种语言的定语、状语和补语都有标志词汇。例如在汉语中定语后面通常会有“的”、状语后面有“地”、补语之前有“得”等标志信息。在泰语中,定语的标志词是“”,状语的标志词是“”,补语的标志词是“”。

2.1.2差异性

泰语中定语、状语和补语的位置不同造成两种语言在语法结构上存在一些差异性。主要分以下几种情况:

(1)汉语中定、状语和补语是前置的(即为在中心词前面),而泰语中定语、状语和补语均是后置的(即为在中心词之后)。例如:汉语:“清晨的微风轻轻地吹走鲜花上的露珠点点。”泰语:“微风()清晨的()吹走()轻轻地()露珠()点点()鲜花上的()”。

(2)泰语中否定的状语在中心词前面,其余状语在中心词后面。例如:“(爸爸)(我的)(来)(从不)(年迈)。

(3)泰语中地点状语通常在谓语动词后面。例如:“(我)(打篮球)(常常)(在操场)”。

(4)泰语中时间状语表达式在句首或者句尾,并且从小到大为日、月、年。例如:汉语:“2005年7月伦敦发生自杀式爆炸袭击事件。”对应的泰语:“(7月)2005(2005年)(发生)(事件)(爆炸袭击)(自杀式)(伦敦)”。

2.2汉泰平行事件句对语料处理

本文语料中的一部分是通过网上爬取的汉泰双语新闻语料,其中新闻语料包括经济、军事、娱乐、教育和科技等较多方面,另外一部分语料来源于实验室收集的语料,具有普遍性和代表性。对获取的语料进行分词、去停用词、词对齐、筛选事件和统计歧义事件句等预处理,从而获得30000个汉泰平行事件句对语料资源。其中,中文分词工具采用的是哈工大语言云,泰语分词选用实验室赵世瑜[27]做的分词工具,词对齐采用giza++对获取的汉泰平行事件句对进行处理,最后建立数据信息模型。例如:

汉语:“中国海军舰队访问伦敦市。”

针对上述例句分别利用哈工大语言云和赵世瑜开发的分词工具进行分词处理,得到相应结果:

汉语:“中国海军舰队访问伦敦市。”

经过上述分词处理得到相应的分词结构,针对该分词结构采用giza++进行汉泰双语词对齐,如图2所示。

3依存树构建模块

3.1泰语依存树标注规范

根据上文分析,汉泰语言结构相同,都是典型的主谓宾结构,但是泰语中定语、状语和补语是后置的语言,泰语依存树的标注规范与汉语大致相同,表1给出若干种泰语标注规范。

3.2汉语-泰语依存树构建方法

依存分析本质是借助工具对语言进行剖析,寻找语言单位之间的依存关系,从而揭露语言的句法结构[28]。从定义上说,依存分析就是借助句法分析器正确地定位句子中的“主谓宾”、“定状补”以及它们之间的关系,在依存树中可以直接找到句子的“主谓宾”。付剑锋[29]采用依存分析首次进行汉语事件识别,该方法仅仅考虑触发词及其余词语之间的关系作为分类器的特征,没有具体考虑依存树图中相应的主语、谓语和宾语结构。本文根据定义的事件要素及依存树结构特点综合考虑,最终完成事件要素抽取工作。

汉泰两种语言都是典型的“主谓宾+定状补”结构,而且基本结构都是主谓宾结构,汉泰两种语言结构最大不同是泰語中定语、状语和补语是后置的。研究发现汉泰依存关系是相同的[20],因此根据构建的汉语依存树直接映射得到泰语依存树,从而实现泰语依存树的构建。

例如:“中国海军舰队访问伦敦市()”。采用哈工大语言云对该句建立中文依存树,如图3所示。

通过上述分析可知,汉语和泰语依存关系是相同的,接下来把汉语依存关系映射到泰语句子上生成泰语依存树,图4为汉泰依存树,图5为汉泰语义依存树,表2为文本格式依存树。

4事件要素抽取模块

4.1事件要素抽取定义

在依存树中,事件要素通常由主语、宾语和状语组成,其中定语、谓语和补语不充当事件要素成分,因此本文主要工作是对主语、宾语和状语进行分析。事件要素抽取前提是该句必须为事件句,本文在实验室前期研究基础上[30],已经正确识别出事件,进行事件要素的抽取。本文定义的事件要素主要包括人物、时间和地点,将本文定义的事件要素和依存树结构进行匹配以帮助抽取主语名词短语、宾语名词短语和状语短语,从而完成事件要素的抽取。表3是汉泰双语平行事件句对资源中的部分语料;表4给出定义事件类别及其对应的事件要素具体内容。

4.2基于依存树的事件要素抽取规则制定

在事件元素的抽取中,通过构建依存树可以直接获取对应事件句中的主语、宾语和状语等信息。但是在一些特殊情况下,有些事件要素不仅仅只是主语、宾语和状语,还包含其它信息,因此无法根据依存树直接获取主语、宾语和状语等信息。总结文献[22-24]及咨询泰国留学生泰语语言结构和语法等特点,定义若干规则以辅助事件要素信息的获取。下文为根据上述文献以及泰语语言特点进行设计的若干条主语事件要素抽取规则、宾语事件要素抽取规则和状语事件要素抽取规则。

4.2.1主语规则

规则一:泰语语言结构是主谓宾结构,谓语为触发词,谓语把主语和宾语分离,因此可以根据依存树直接抽取主语。在泰语中谓语通常也由动词充当,研究发现在依存树中触发词就是动词,因此可以根据这一特性确定事件触发词和谓语,从而把事件句分离,进而直接抽取主语要素。

例如:“泰国加强同中国的合作()”,通过依存树可以发现触发词“加强()”的主语是“泰国()”;其对应的依存分析为图6。

规则二:抽取偏正短语作为主语。若句子中主语成分由偏正名词组成,可将偏正短语直接作为事件的主语。例如:“熬夜通宵的小李开车造成交通事故()”,在该句子中,根据依存树可知参与者事件要素为:小李(XiaoLi),但是分析可知真正参与者事件要素为:熬夜通宵的小李(XiaoLi)。因此把偏正短语即“熬夜通宵的小李(XiaoLi)作为主语事件要素”。图7为具体依存分析。

规则三:抽取并列短语作为主语。若将名词并列成分作为主语,可以直接把触发词左边的并列短语作为事件的主语。例如:“在经济领域,中国和泰国加强了紧密合作()”,在该句子中,触发词为“加强()”,通过分析可知主语为“中国和泰国()”。图8为具体依存分析。

规则四:抽取介宾短语作为事件的主语。针对依存树中主语成分缺失的情况,直接抽取触发词左边的介宾短语作为主语。例如:“关于这起严重的交通事故发生在山东的济南()”。通过分析介词“关于()”和触发词“发生()”,分析可知主语是介词宾语“关于这起严重的交通事故()”。图9为具体依存分析。

规则五:对于复合句,抽取前置分句主语作主语。该规则是根据分句获得触发词,把前面分句的并列成分作为后一个分句的主语。例如:“小明和小李交谈,聊到小张(XiaoMingXiaoLiXiaoZhang)”,在该例句中,无法找到触发词“聊到()”的主语,但是通过前面触发词“交谈()”可知,主语为“小明和小李(XiaoMingXiaoLi)”。图10为具体依存分析。

4.2.2宾语规则

规则六:泰语语言结构是主谓宾结构,谓语为触发词,谓语把主语和宾语分离,因此可以根据依存树直接抽取宾语。在泰语中谓语通常也由动词充当,研究发现在依存树中触发词就是动词,因此可以根据这一特性确定事件触发词和谓语,从而把事件句分离为3部分,进而直接抽取宾语要素。例如:“中国海军访问伦敦市()”,通过依存树可以发现触发词“访问()”的宾语是“伦敦市()”。图11为具体依存分析。

规则七:针对复合句,抽取后置分句宾语作宾语。该规则是根据分句获得触发词,把后面分句的宾语成分作为前一个分句的宾语。例如:“小明和小李交谈,聊到小张(XiaoMingXiaoLiXiaoZhang)”,在该例句中,无法找到触发词“交谈()”的宾语,但是通过后面触发词“聊到()”可知,宾语为“小张(XiaoZhang)”,因此可将后面的宾语直接作为前面事件的宾语。具体依存分析如图10所示。

规则八:抽取并列短语作为宾语。若将名词并列成分作为宾语,可以直接把触发词右边的并列短语作为事件的宾语。例如:“2005年7月伦敦发生自杀式爆炸袭击事件造成50多人死亡和70多人受伤(720055070)”,在该句子中,触发词为“发生()”,然而依存树中的直接宾语为“死亡()”,通过分析可知宾语为“50多人死亡和70多人受伤(5070)”,因此设置规则规定并列短语为宾语。图12为具体依存分析。

规则九:抽取偏正短语作为宾语。若句子中宾语成分由偏正名词组成,可以把偏正短语直接作为事件的宾语。例如:“重大交通事故发生于道路曲折的四川()”。通过分析可知该句子的宾语为“道路曲折的四川()”,但是依存树中的直接宾语为“四川()”。设置规则规定偏正短语为事件的宾语,图13为具体依存分析。

规则十:抽取介词短语作为事件的宾语。针对在依存树中宾语成分不完整的情况,直接抽取介宾短语作为宾语。例如:“中国改革了关于医疗方面存在的问题()”,通过分析可知该句子的宾语应该为“关于医疗方面存在的问题()”,但是依存树中的直接宾语为“问题()”。因此,设置规则规定介词短语为事件的宾语。图14为具体依存分析。

4.2.3状语规则

规则十一:直接抽取句子首部和句子尾部时间状语。泰语中表示时间的状语通常放在句子首部和句子尾部,并且由时间短语构成,可直接抽取作为时间要素。例如:“2005年7月伦敦发生自杀式爆炸袭击事件造成50多人死亡和70多人受伤(20055070)”,通过分析直接把“2005年7月(2005)”作为时间事件要素。具体依存分析如图12所示。

规则十二:直接抽取有“在()+介词短语”的句子作状语,使其担当地点要素。泰语中表示地点的事件要素通常由“在()+介词短语”构成。例如:“2004年12月26日在印度洋发生海啸(262004)”,例中“印度洋()”是该事件的地点要素信息,直接抽取作为该事件的地点要素。图15为具体依存分析。

规则十三:直接抽取动词后面的地点状语。泰语中表示地点的状语通常位于动词后面,汉语则相反。例如:“我常常在食堂吃饭()”,例中食堂是触发词“吃()”的地点状语,因此直接抽取“食堂()”作为地点要素信息。图16为具体依存分析。

规则十四:直接抽取表示处所或方向的状语作为地点要素。例如:“我们屋里聊()”,例中“屋里()”是狀语,可以作为地点要素,因此直接抽取作为地点要素信息。图17为具体依存分析。

4.3基于依存树与规则相结合的事件要素抽取

上文介绍了汉泰依存树构建及本文定义的事件要素抽取规则,下文从事件要素抽取任务(人物、时间、地点)出发,最终完成事件要素抽取。例如,给出一则汉泰交通事故类事件的依存分析树(见图18)。

汉语:“2017年11月18日18时在昆明市官渡区发生交通事故;事故共造成2人死亡和4人受伤。”

泰语:“1818201724”

对该例子采用依存分析可知,其符合规则八、规则十一和规则十二,采用上述规则最终完成事件要素抽取任务。实验验证本文定义的规则是合理的,可以识别出事件类型下的事件要素信息,如表5所示。

5.1实验语料

实验所用语料为经过处理的汉泰平行事件句对语料,其中共有汉泰平行事件句对30000句。图19所示为部分平行事件句对语料。

对上述语料进行预处理,经过预处理后才能获得本文最终需要的语料资源,处理后最终部分语料如图20所示。

5.2实验评价标准

根据上述语料,结合本文提出的方法,分别完成主语、宾语和状语短语模块抽取。其中采用准确率、召回率和F值作为评价指标。

准确率(P)=正确识别的事件要素识别的事件要素总数

召回率(R)=正确识别的事件要素新闻中事件要素总数

F值=2*P*RP+R

5.3实验结果及分析

首先,对获取的汉泰平行事件句对语料进行预处理操作,得到本文实验所需语料;其次把汉语依存树映射为泰语依存树,然后结合泰语语言结构特点制定若干事件要素抽取规则;最后将上述构建的泰语依存树与制定的规则相结合,在预处理后的语料上进行泰语事件要素抽取。本文实验结果如表6所示。

从表6能够得出以下结论:状语短语抽取效果最好,主语短语和宾语短语效果较差。这是由依存树结构决定的,由于依存树分析词语之间的相互依存关系,如果某个名词短语之间的依存关系出现错误,则会对与其有直接或间接依赖关系的词语产生巨大影响,因此导致主语名词短语和宾语名词短语效果较差。

6结语

本文结合汉泰语言结构特点提出了14条依靠依存树的泰语新闻事件元素抽取规则,该规则通过语义层对泰语新闻进行分析,再利用依存树与本文定义的规则相结合完成事件要素提取。实验结果表明,该方法可以快速定位到泰语句子的句法成分,有效抽取泰语新闻事件元素。但是由于泰语比较复杂,本文提出的规则有限,因此本文提出的方法应用领域也有限。下一步工作是继续分析泰语语言,挖掘和制定更多规则进行泰语事件要素抽取。

参考文献:

[1]朱振明.中泰建交以来中泰关系的回顾与展望[J].东南亚南亚研究,2000(2):24-32.

[2]梁源灵.中泰经贸关系的回顾与展望[J].东南亚纵横,2000(s2):9-15.

[3]DODDINGTONG,MITCHELLA,PRZYBOEKIM.Theautomaticcontentextractionprogram-tasks,dataandevaluation[C].ProcLrecLisbon,2004:837-840.

[4]ALLANJ,GUPTAR,KHANDELWALV.Temporalsummariesofnewstopics[C].InternationalAcmSigirConferenceonResearch&DevelopmentinInformationRetrieval;,2001:10-18.

[5]HANB,GATESD,LEVINL.Fromlanguagetotime:atemporalexpressionanchorer[C].ProceedingofThirteenthInternationalSymposiumonTemporalRepresentationandReasoning,2006:196-203.

[6]MANII,WILSONG.Robusttemporalprocessingofnews[C].Proceedingsofthe38AnnualMeetingonAssociationforComputationalLinguistics,2000:69-76.

[7]YANKOVAM,BOYTCHEVAS.Focusingonscenariorecognitionininformationextraction[C].TenthConferenceonEuropeanChapteroftheAssociationforComputationalLinguistics,2003:41-48.

[8]SURDEANUM,HARABAGIUS,WILLIAMSJ,etal.Usingpredicate-argumentstructuresforinformationextraction[C].ACL'2003Proceedingsofthe41stAnnualMeeting,2003:8-15.

[9]李芳,毛顺福,蒋德良,等.中文新闻事件要素自动抽取研究[D].上海:上海交通大学,2007.

[10]付剑锋,刘宗田,刘炜,等.基于特征加权的事件要素识别[J].计算机科学,2010,37(3):239-241.

[11]AHND.Thestagesofeventextraction[C].ProceedingsoftheWorkshoponAnnotatingandReasoningaboutTimeandEvents,2006:1-8.

[12]赵妍妍,万翔.中文事件抽取技术研究[J].中文信息学报,2008,22(1):3-8.

[13]丁效.音樂领域典型事件抽取方法研究[J].中文信息学报,2011:25(2):15-20.

[14]SAEEDIP.FeatureengineeringusingshallowparsinginargumentclassificationofPersianverbs[C].Proceedingsofthe16thCSIInternationalSymposiumonArtificialIntelligenceandSignalProcessing,2012:333-338.

[15]WANGW.Chinesenewsevent5WLHelementsextractionusingsemanticrolelabeling[C].ProceedingsoftheThirdInternationalSymposiumonInformationProcessing,2010:484-489.

[16]杨尔弘.突发事件信息提取研究[D].北京:北京语言大学,2005.

[17]赵治鹏.采用机器学习方法实现泰语分词[D].昆明:云南大学,2014.

[18]SUESATPANITK.Thaiwordsegmentationusingcharacter-levelinformation[C].InterBEST2009ThaiWordSegmentationWorkshop,2009:18-23.

[19]KRUENGKRAIC.ConstructionofThailexiconfromexistingdictionariesandtextsontheweb[C].IEICE-TransactionsonInformationandSystems,2006:2286-2293.

[20]陶广奉.基于跨语言迁移学习的泰语依存句法解析方法研究[D].昆明:昆明理工大学,2017.

[21]张凌.基于词性模板与依存分析的中文微博情感要素抽取[J].计算机科学,2015(42):474-478.

[22]邓丽娜.泰语与汉语的同异性与对泰汉语教学[J].成都大学学报:教育科学版,2008,22(4):64-67.

[23]柯伟智.汉语结果补语与泰语对应形式的对比研究[D].北京:北京大学,2013.

[24]邱鲁阳.汉泰语中定语的语序差异及泰国学生汉语定语习得研究[D].杭州:浙江大学,2012.

[25]张金花.汉泰语对比浅析[J].群文天地月刊,2012(2):98.

[26]孙汉萍.汉泰语的同异性比较[J].湘潭师范学院学报:社会科学版,1995(2):34-39.

[27]赵世瑜.泰语词法分析关键技术研究[D].昆明:昆明理工大学,2017.

[28]周国光.汉语配价语法论略[J].南京师范大学学报:社科版,1994(4):103-106.

[29]付剑锋,刘宗田,付雪峰,等.基于依存分析的事件识别[J].计算机科学,2009,36(11):217-219.

[30]彭籍冲.泰语新闻事件抽取方法研究[D].昆明:昆明理工大学,2017.

(责任编辑:何丽)

猜你喜欢

自然语言处理泰语规则
数独的规则和演变
让规则不规则
《暹罗馆译语》与现代泰语读音差异
TPP反腐败规则对我国的启示
基于组合分类算法的源代码注释质量评估方法
浅析提高泰语阅读技能之我见