基于同义表达分类的汉日固定表达同义性判定
2019-03-21李哲
李哲
(常州工学院外国语学院,江苏 常州 213022)
网络时代,在数量巨大的语言信息中,对同一事物的称呼、描述、评判等日益多样化,固定表达也产生了诸多语言变体。例如,现代汉语中“软件程序”一词有“App”“手机程序”“手机软件”等诸多表达方式,其对应的日语有“アプリケーション”“アプリ”“スマホソフトウエア”等。在自然语言处理的过程中,首先需要识别并区分这些固定表达的语言变体,对其进行同义性判定,然后,根据同义性判定结果分别对汉语和日语中的语言变体进行同义配对,达到精确翻译的目的。本研究首先对同义表达进行分类,然后尝试提供汉日固定表达同义性判定的技术方案,并对判定结果进行评价。
一、同义表达分类
以往对汉日固定表达中的同义词进行同义性判定时,多借助同义词词典对语言符号相似度高的同义词进行判定和配对,如对“读书”和“読書”,“进行”和“進行”等常用词和固定程度较高的专用词的判定比较容易,然而,对符号相似度不高、具有任意性和随意性的网络新词的判定则较为困难。因此,很有必要对固定表达中的同义词进行分类,根据其同义类别采取相应的同义判定方式。本文将汉日固定表达中的同义词分成两类:有标记同义词和派生性同义词。
(一)有标记同义词
本文将有明显的同义符号标记,即根据字形标记符号能判定为同义词的词称为有标记同义词。同形同义词即属此类。这类词在汉日同义词中占了不小的比例,在语言信息处理的过程中很容易被识别,可借助汉日同义词词典迅速完成同义配对。因此此类词机器翻译的精确度很高,目前已达到了较为理想的翻译效果。
随着语言的发展,汉语和日语中有些字形相同的词在语言环境的影响下出现语义扩大、缩小甚至转移的现象。因此,看上去字形完全相同的词语,其语义范围却不完全一致。传统语法将这种词称为同形近义词。
例如,来源于日语流行词的“佛系”一词,其语源是“僧職系”和“草食系”,在日语语境下主要形容爱独处、专注于自己的兴趣、不想花时间与异性交往的男人。该词在中文网络环境中流行后,语义范围扩大,形容不争不抢、拥有淡定从容处世态度的人。流行过程中,随着应用语境的扩展,又产生了“佛系青年”“佛系女子”“佛系生活”“佛系恋爱”等一系列“佛系”衍生词。
这类同形近义词也属于有标记同义词。同形近义词的语言信息处理方法总体上与同形同义词一致。区别在于,借助同义词词典配对时,要进行语义单项标注,根据不同的语境选择合适的词语与其对应,从而达到翻译精准的目的。
(二) 派生性同义词
除了有标记同义词外,汉语和日语中还有大量没有明确标记,需要其他辅助信息来判定同义性的词语。本文称之为派生性同义词。它们是固定表达在某种特殊语境影响下生成的新表达方式。
例如“打call”一词来源于日语,对应的日语词为“コール”。日语语境下的“コール”反映了宅文化或二次元文化中的粉丝应援文化,指现场演出时台下观众跟随音乐节奏呼喊口号,挥动荧光棒,与台上的表演者互动的一种行为。此行为表达了对偶像的支持态度。在汉语流行语中,“打call”的意义发生了很大变化,用以表达赞成、支持的态度。使用者可以是任何人,可以在任意语境下使用,主要表达对话语对象的感情支持。“打call”本义为打电话,在翻译软件中输入“打call”,日语翻译结果为“電話する”或“コールをかける”。
二、同义判定方案
为解决汉语和日语固定表达的同义性判定问题,首先要在网络上收集某个固定表达在汉日两种语言中所有可能的表达方式,并分别创立同义表达候补项集合。
(一)识别和生成
传统的同义词判定方法主要有识别方法和生成方法。识别方法是在任意文本集合中抽取同义词候补项,配对后判断其是否同义。为了确保精度,配对时要参考文本的句式构造、特殊句式表达等信息,并根据汉语和日语的语言特点和语言习惯设计补充规则以提高配对精度。但是,此方法存在受候补项覆盖范围限制的问题,超出候补项范围的同义词难以成功配对,而且这种判定方式对文本信息的依赖度较高。
生成方法是围绕某固定表达,使用概率模型文字列生成该表达所有可能的同义词,然后确认所生成的表达是否准确。由于会生成大量无关的同义词候补项,因此需要耗费大量时间处理这些无关项。
(二)文字列追加和标记变换
为弥补识别和生成方式的不足,本文提出几种同义性判定的辅助方案。其中,文字列追加和标记变换适用于判定派生性同义词。派生性同义词是固定词组受特殊语境影响生成的新表达方式。同义性判定时要捕捉派生性同义词的特征。在其原有固定表达的基础上,通过文字列追加或者标记变换的方式达到同义性判定的目的。首先,需要扩充其派生的同义词候补项,确认派生性同义词的派生类型,然后计算机按照特定条件将其从候补项中分离出来。
以网络词语“粉丝”为例。“粉丝”本义为一种食物,后来借由英文单词“fans”的音译,发生了语义转移,指迷恋、崇拜某个名人或某种产品的群体。义为“追星族”的汉语“粉丝”对应的日语为“ファン”,这在各大机器翻译软件中都能得到精确的翻译结果。但是,义为“食物”的“粉丝”,翻译结果却极不理想。另外,由具有“追星族”语义的“粉丝”衍生出来的“金粉”“黑粉”“路转粉”等词,机器翻译结果不尽如人意。目前几乎没有软件能将“金粉”“黑粉”“路转粉”等词语中的“粉”与“粉丝”的“粉”进行正确的同义判定。
通过文字列追加和标记变换,可以为“粉丝”设立语义识别候补项集合。利用语料库和网络收集与“粉丝”相关的最大表达合集。对所收集的所有候补项进行文字列和标记分析,按照语义解析结果标注其语义特征。此时,计算机可以自动标注所有收集到的与“粉丝”相关的前后语境信息(本文称其为“粉丝”的标准化前、后项集合)。 例如,对“路转粉”的判定,可通过文字列追加,将“路转粉”追加为“路人转粉丝”,然后识别候补项集合中“粉丝”的语义特征,判定“路转粉”的“粉”与其同义,从而完成“路转粉”的同义判定,此时“粉”即可与日文中的“ファン”完成配对,达到精确翻译的目的。
除文字列追加外,标记变换也是判定派生性同义词同义的有效方法。标记变换判定处理流程为:首先利用语素解析器对固定表达的同义候补项进行解析,然后根据适用规则对需要判定的同义词进行配对,检测其语素意义是否一致。这个步骤常常依赖语音规则信息。特别是汉语使用谐音时,词汇意义、语素意义会发生变化,需要建立相似语音信息的同义词候补项集合。如“抖森”这个昵称源于汤姆·希德勒斯顿(Tom Hiddleston)名字的连读谐音;日本演员瑛太,在中国一般被称为“A太”,因为日语えいた(瑛太)中“えい”读音与“A”相近。通过标记变换可以完成“瑛太”和“A太”这一对候补项的同义性判定。
(三)省略判定和组合判定
汉语和日语的固定表达中均出现了很多略缩词。这些略缩词和原有词语义相同,是同义词。计算机需要进行省略判定来识别这些略缩词。具体处理方法为:计算机先确定两词属于包含关系,比较两个候选项的语素差异,确认是否省略前后标记,然后用固定表达抽取器抽取语料库和网络文本中的固定表达及其略缩词,形成候补项集合;对符合包含关系且与省略判定条件一致的候补项进行条件分析;通过分析删除的语素和文字,得出略缩规则。
以“GW”为例,使用Google的翻译软件翻译“今年のGWは最大10連休”,译文为“今年的GW连续10个假期”。且不论“10连休”被错译为“10个假期”,对略缩词“GW”的翻译,翻译软件就无能为力。“GW”是日语固定表达“ゴールデンウィーク”的缩写,对应的汉语是“黄金周”,指的是日本从4月末到5月,由于昭和之日、宪法纪念日、绿之日和儿童节、端午节这些节日相邻,形成的一周左右连休的假期。“GW”与“黄金周”的同义性判定,需要借助省略判定的方式完成。在语料库和网络文本中检索时,会出现下面的文本:
2019年のゴールデンウィーク(GW)は、最長でなんと10連休!毎年好評のゴールデンウィーク旅行は、宿泊予約も早めに計画して、最高の思い出を作ろう。
Google翻译软件译为:
2019年的黄金周(GW)连续10个假期最长! 每年都会在热门的黄金周旅行中提前计划您的预订并留下最美好的回忆。
计算机抽取文本中的“ゴールデンウィーク(GW)”,将其列入该固定表达的候补项集合中,分析规则,记录省略方式,从而完成从“ゴールデンウィーク”到“GW”的省略判定,并认定其为同义词,继而在相似语境下将“GW”识别为“ゴールデンウィーク”,译为“黄金周”。
在固定表达的同义性判定中,如果单靠一种方法无法判定同义候补项是否同义,可综合运用以上判定方式进行判定。例如,日本著名演员“小栗旬”的昵称为“建国”,中国网友喜欢称他为“栗子”。栗子是一种坚果,而“坚果”与“建国”谐音,因此“小栗旬”“栗子”和“建国”都指这位男演员,是同义词。这3个词的同义性判定,需要同时借助“栗”的文字列追加和“jianguo”这一语音的标记变换才能完成。此为组合判定在同义性判定中的应用。
三、同义性判定结果评价
(一)评价方法
为了检测上述判定方法是否有效,建议使用一定数量的同义词候选项进行同义性判定评价。评价所使用的数据来源于语料库和社交平台以及新闻报道等。
首先,从以上平台中选择文本,从文本中人工提取一定数量的固定表达。选择其中的派生性同义词作为评价的主体,提取的派生性同义词数量要占提取的固定表达总数的九成以上。然后通过文字列追加、标记变换、省略判定、组合判定对这些同义词候补项进行同义判定。
人工核查同义性判定的结果,确认机器判定的结果是否准确。记录判定结果的数据,用判定成功的候补项个数除以评价总数据,得出的数据即为每个判定方法的正确率。
(二)评价结果考察
实施以上评价方法时,需要对提案的判定方法和评价结果进行多方面考察。在文字列追加手法判定方面,需要注意同一评价结果的再现率,因为在制定文字列追加判定的规则时,不需要针对某一实体进行特别处理,由此可能出现评价结果不一致的情况。在标记变换的判定方面,判定的精度和再现率均可能会出现波动。省略判定时,在略缩词的同义词候补项中,由于省略的位置不同单词的意思也完全不同。如果删除的语素信息太多,则会导致判定困难。如电影《致我们终将逝去的青春》在社交平台中被省略成《致青春》后,因信息大量缺失,两词的同义性判定难以自动完成,从而导致日文翻译失败。另外,组合判断也可能会出现由于语素解析失败导致的语素匹配错误等。
总体看来,以上方案在汉日固定表达的同义性判定方面可行性较高,也为汉日语言机器翻译提供了实用有效的翻译方法,对汉日固定表达语料库的建设也有借鉴意义。
四、结语
本文以汉日固定表达中的同义词分类为基础,提出汉日固定表达同义性判定的几种技术方案。可借助汉日同义词词典进行同义信息配对,完成有标记同义词的同义性识别;派生性同义词的同义性判定需利用识别和生成技术。为弥补识别和生成技术的不足,本文提出了文字列追加、标记变换、省略判定和组合判定4种辅助判定方案,提出在语料库和网络社交平台上抽取汉日固定表达样本进行评价,以检测判定方式的有效性。