APP下载

俄语新闻文本的时间识别难点分析

2018-04-27张溟徐进解放军信息工程大学洛阳校区

数码世界 2018年4期
关键词:缩略语料俄语

张溟 徐进 解放军信息工程大学洛阳校区

时间作为新闻的一个基本组成要素决定着新闻的价值。分析新闻的一个核心环节就是识别和分析时间。通常可以根据某些固定搭配或是数字组合得到文本中的具体时间点。俄语新闻中时间的识别是一个难题,主要原因在于:一是俄语时间的表述形式非常丰富,不仅有数字格式,还有一系列时间副词,或是以纪念日等说法代替具体时间出现的现象。二是时间与其他词汇一样也涉及变格的问题,并且有部分表示时间的数词的变格属于特殊变化,这又为时间的识别和分析增加了难度。三是俄语行文具有避免重复的特点,时间表示方面也是如此,一篇文章中常常使用多种方式来表达同一时间。下面本文首先简要介绍一种方便机器处理的形式化时间表达方法,之后分析俄语新闻中时间识别与判定的难点,并尝试解决。

1 俄语新闻中的时间表达形式化方法简介

俄语新闻中,时间的表达方式多种多样。要让机器来挑出这些时间表达,并确定一些具体的时间点,仅凭自然语言是不行的,单依靠一两张词表也很难完成这个任务。因此首先需要对现有的时间表达方法进行梳理,整理出形式化的规则,这样才能让机器识别,并进行后续的处理工作。

形式化的规则主要包括两个部分,一个是匹配规则,一个是时间值。匹配规则就是一串包含前置词、数词等“线索词”的语句,也就是一组“类联接”(colligation),程序将根据它们找出符合条件的时间表述。时间值是一些表示时间的词对应的具体数值或运算符,程序可根据给出的值来计算一些具体的时间。在确定具体时间点时,常常需要结合上下文相关信息做进一步的判断与推理。这些信息有时并不从文本中直接体现,需要语法层面和语义层面的分析才能剥离出来。因此对应规则有时需要结合语法分析过程,并增加分析和判断的步骤。

以央视网俄语台推送的一条新闻(图1)为例说明时间表达形式的多样性及相应的处理步骤和规则。文中被强调标记的部分都是时间的表示方法。标题下方“2013-06-06”为新闻在本网站的发布时间。而在本段新闻中,с е г о дня一词对应的日期应该是2013-06-05,而不是发布时间2013-06-06,这里就需要引入一个时间参照点来帮助判断。如果以发布日期为参照点,那么首先假设с е г о дня对应日期为 2013-06-06。同时,后文中给出的参考时间段с 5 п о 7 июня表明会议起止时间为6月5日开幕,6月7日闭幕。所以若假设成立,с е г о дня后的动词“开幕”(о тк р о е т)的时态(现在时)与已知参考时间段的时态不一致,产生冲突。因此假设不成立。根据参考时间段和现在时动词的使用时间范围,可以推知с е г о дня指的是 2013-06-05。

图1 央视网俄语台2013年6月6日推送新闻

2 俄语时间表达规则制定中存在的困难

2.1 时间表达形式多样,总结整合困难

俄语的时间表达方式并不拘泥于某几种特定的格式,这首先为识别规则的确定造成了困难。想要尽可能多地覆盖所有可能出现的情况,仅靠几条规则是无法完成的。然而过于细致和复杂的规则会为机器的处理带来困难,因此需要在保持一定粒度的前提下,尽量合并精简规则。以具体钟点的表达为例:

表 示“ 在 六 点十 五分”的 表 述 有:в ше с т ь ч а с о в пя тна дца т ь минут/в пя тна дца т ь минут с е дьмо г о/ч е т в е р т ь с е дьмо г о/в ше с т ь с ч е т в е р т ью

如果为每种表述方法都写特定的规则,那么规则库将会变得十分臃肿,因此必须对此进行精简,写成规则为:

然而,并不是每种情况都可以整合精简在一条规则之中。语言的灵活性和词汇的搭配关系使得一些形式大体相同的组合之间由于选词的差别而在前后搭配词语的选择上存在差异。比如,序数词“第一”与其他序数词的接格关系及搭配的名词都存在较大差别,需要单独列出,并给出对应的规则。这一部分的困难主要是比较难把握规则的颗粒度。规则过细会造成规则库臃肿,降低整个系统运行的效率;而规则过于精简则会大大降低匹配的准确度。寻找一个平衡点是这一阶段的核心问题。

2.2 非规范形式难以总结和识别

俄语新闻文本中,缩略现象随处可见,表示时间的缩略形式是其中重要的一部分。最常见的就是年份与月份的缩写,这种情况较好识别,只要将缩略形式与原型一一对应起来就可以了。然而,缩略的书写形式并不总是规范的,这使得此类时间词的识别与提取非常困难。

时间词的非规范缩略写法主要发生在变格的数字形式中。如年份的变格,以“在2013年”为例,常见的写法有:

可以看到,数字后的变形词尾为数字“3”的序数词6格单数形式词尾,属于形容词软变化。可以看到,数字后接的同格变形词尾出现了多种形式。在机器识别时,需要把这些形式都通过词典来告知机器。另一种解决方案是明确线索词,例如文中的в … г о д у,此时负责匹配和识别的部分是作为一组完整的类联接(colligation)出现的,不能省略。总体来说,对于非规范写法的识别主要依靠规则在机读词典中穷举所有词尾及相关的前置词搭配。研究者需要分析和整理大量文本,列举出所有可能的形式。这个阶段中需要人工分析各种词形变化。

2.3 规则需要考虑语义信息

规则的确定不仅需要看形式,还要看意义。例如:в др у г о й д е нь与н а др у г о й д е нь不能合为一条规则 *в/н а+др у г о й д е нь(case 4),而要单独拆开来写,因为各自对应的语义信息是不同的,前者是“另一天”,后者是“第二天”,因此转换而成的时间值也不同。所以,上例应写为:

这种比较明显直观的语义信息表示只需要在转换部分加以区别就能够解决。然而,俄语中还存在大量的“模糊概念”和一词多义现象,特别是在描述某个时间段(某时期)时,转换规则必须加入语义分析,否则无法得出准确时间。

另外,惯用语的处理也需要特殊对待。惯用语的特殊性在于单个词的意义之和并不等于整个表达的意义,这就为规则的确定以及机器的自动处理带来了很大的困难。俄语时间表达方法中也存在着惯用语的现象,如 np.+н е з а г о р ами/н а н о с у/с т о я т ь у д в о р а,字面意思为“(名词短语)没在山后 / 已经到了鼻子尖/站在院子里”,然而作为表示时间的习惯用语,这三组词组的意义都是“近在眼前,眼看着要(来临)”。解决这类问题的最大障碍是整个表达没有标志性线索词,组成词组的各个单词均为普通词,这样就很难将表示时间的情况与表示其字面意义情况相区分。目前此类问题通常还是采用穷举的方法来解决。

3 解决问题的尝试

对于俄语新闻文本中时间的识别与确定,本研究尝试建立一个规则库,将表示时间的词汇、短语等形式同意义(值)对应起来,同时尝试加入运算,以确定所需的具体时间点。笔者参考《俄语语法(第2版)》与《俄语表义语法》后针对具体时间的识别已初步归纳出了近百条规则,针对模糊表述的规则也正在完善与细化。

初步的工作为列出时间词词表,并使用WordSmith5.0以及C++编写的一些正则表达式匹配代码验证初步形式化后的规则。共使用100篇从互联网上随机抽取的语料参加测试,目前已总结的92条规则参与验证。验证结果显示,70多条规则均可以实现识别。所有规则中有20条左右的规则未出现在当前语料中,这些规则多数是习惯用语。这个结果表明,新闻中的时间表达方法选择存在一定的偏向,习惯用语在新闻报道中的使用机会相对较低。因此习惯用语尽管是一块非常重要的内容,但是在新闻领域可以相对弱化。此外,测试中能够明显发现,单个词与前后紧密相连的词组的匹配效果要优于匹配词中间有距离的形式,对字母词的识别效果优于对数字-字母混合词识别的效果。中间有间隔的搭配形式和数字-字母混合形式的匹配效果不理想。这说明这部分的规则需要重点修改,或考虑单独编写代码实现这部分规则。验证规则后,将逐步把所有规则都转写为C++代码,并使用更大规模的俄语新闻语料测试规则。

让计算机自动识别和分析文本中的时间表达能够提高人处理海量信息的效率。这对于网络舆情分析等工作来说非常重要。我们已经验证了现有的规则,之后的工作是尝试根据不同的语料来修改规则,并逐步代码化。目前我们的规则以相对标准的新闻语料为基础,在可预见的将来,我们将逐步扩充和完善这些规则,尝试使其能够分析论坛、微博等环境中的文本,并能够在突发事件的分析与跟踪方面发挥一定的作用。

[1]赵艳仿.俄语中时间表述[J].黑龙江科技信息.2010 (8)

[2]王烨姝,许适琳.现代俄语简单句中时间关系表示法刍议[J].长春师范学院学报(人文社会科学版).2008 (7)

[3]宿俊巍.浅析俄语简单句中时间关系表示法[J].鸡西大学学报.2004 (1)

[4]张会森.俄语表义语法[M].北京:外语教学与研究出版社.2010

[5]张会森,信德麟,华劭 编.俄语语法(第2版)[M].北京:外语教学与研究出版社.2009

猜你喜欢

缩略语料俄语
面向低资源神经机器翻译的回译方法
浅议如何提高职业教育的俄语教学质量
大海失踪者
可比语料库构建与可比度计算研究综述
信息时代背景下关于针对本科生的俄语学习APP的思考
“人艰不拆”、“累觉不爱”等网络四字成语与文化
改进俄语教学方法 提高俄语教学质量
国内外语用学实证研究比较:语料类型与收集方法
这些词语你看明白了多少
英语教学中真实语料的运用