论国际报纸新闻话语语料库的构建
2020-01-19李婧
李 婧
(绥化学院,黑龙江 绥化 152000)
语料库包括单模态语料库(Unimodal Corpus)与多模态语料库(Multimodal Corpus)。前者是纯文本语料库,我国学者在研制和应用单模态语料库上做出了开拓性的贡献;后者是在单模态语料库基础上做出的新的发展,是指音频、视频以及文字语料信息的集成,运用多模态的方式完成加工、检索以及统计研究的语料库。也就是说,通过转写、处理以及标注语言文本及音视频数据库就是多模态语料库,其可以运用实证法研究语言符号与非语言符号之间的作用。这远远超出之前所定义的语料库范畴,其通过标注不同交际渠道协同的数据集合,达到直接记录人类行为的目的。因此,我们需要深入研究多模态语料库的相关内容,以便加深理解。
一、国际报纸新闻话语的科学取样
1.语料录入
国际报纸新闻规模型文本库的文本传递信息途径可分为以下四种基本形式:纸质文本、电子文本、网页、静态图像。这些信息传递途径采用UAM image tool 2.0等多模态文本传递信息途径处理软件予以特殊的集成处理。利用UAM image tool 2.0软件把文本传递信息途径依附于类别导入到文本传递信息途径库中,为下一步标注做好准备。而针对文本传递信息途径的收集,要先通过不同种渠道收集多模态语篇样本,把纸质的语篇样本通过扫描、拍照等方式予以数字化处理。[1]
2.语料依附原稿核准
因为国际报纸新闻文本传递信息途径存在一定的特殊性,所以在文本传递信息途径完成录入时要第一时间予以“自动依附原稿核准+人工依附原稿核准”。
3.语料加工及存储
文本传递信息途径依附既有稿件予以核准的基础上,其能够获取文本相关传递信息途径,只有对其予以加工后才会生成规模型文本库。而对于篇头元信息设计,采取依附于文本传递信息途径来源、发布时间以及种类等设计多层次内容标签,涉及内容主要包括:规模型文本库差异化模态类型、相关语种信息、传递信息途径、获取文本的发布时间、文本种类、翻译以及既有文本标题等。文本传递信息途径予以分词(中文)以及自动词性标注,依附于相关内容尝试对文本传递信息途径予以各门学科专用词汇、句型自动标注。其传递信息途径以及静态图像等多模态文本传递信息途径在一定程度上要依附于研究侧重点选择己有工具予以有针对性的标注。[2]
针对存储,为了方便在使用中可以第一时间予以有效的查询,可以将元内容以及文本进行单独的存储。而且,为了使规模型文本库能够直接通过国际报纸新闻计算机辅助翻译系统(Computer-aided Translation,简称CAT),要将析出文本传递信息途径录入至tmx格式,进而构建机器翻译存储模块。[3]
4.语料对齐处理
本研究中,笔者首先予以可差异化语类间的对比,其中包括图像模态的再现价值、互动意义、构图意义等方面的特性,这些特性包括在文本传递信息途径标注区间之中,经对比研究找到差异化语类对图像模态的选择倾向。其次,还要予以具体多模态语篇和该语类的综合特性对比。经对具体多模态语篇实例予以研究,总结其特性,并在此基础上以及文本传递信息途径库内经查询统计获取的平均语类特征予以对比研究,以揭示多模态语篇意义系统的选择和实现语篇目的之间的深层关系。[4]
5.多语种语料加工
现阶段,世界范围内多语种平行规模型文本库建设发展较为缓慢。这主要是由于受规模型文本库加工介质以及查询软件的影响,很多的工具以及软件仅能够兼容英语文本或汉语文本,又缺乏同时掌握多种语言学的研究者。因此,多语种国际报纸新闻平行规模型文本库的建设需具备一定的专业性。在数据库还未建设的时候,其侧重点应是探究汉英双语国际报纸新闻平行规模型文本库的建设;在汉英规模型文本库编制具有一定成就的基础上,再将其作为范例拓展至多语种国际报纸新闻话语平行数据库之中。[5]
6.多模态语料加工
多模态文本传递信息途径的加工,依附于研究目的来确定采用己有的(如,UAM image tool 2.0)或自主开发新的加工工具予以处理以及标注。[6]在完成文本传递信息途径库建设后,可以通过该库予以语篇研究及语类特性研究择取定性、定量相结合的研究方法,前者用于从具体多模态语篇实例中概括规律性的语篇特性,后者通过文本传递信息途径库的查询功能和统计功能,对查询所获取的数据予以统计对比,在量化研究的先决条件下验证定性研究方法获取的语篇及语类特性的正确性、适用区间等。两种方法相结合,使语篇研究以及语类研究的结果更为精准。[7]
二、国际报纸新闻话语语料库的查询及维护管理
国际报纸新闻规模型文本库的在线搜索平台需匹配于单机平台功能,而要达到翻译辅助功能目标,需要结合规模型文本库搜索软件翻译记忆交换文件(tmx)拓展以及UAM image tool 2.0多模态查询软件。此平台不但能够将规模型文本库整合到CAT系统之内,不论载入路径亦或翻译拓展,规模型文本库内所衍生出的翻译记忆库均可得到拓展。此平台还能够予以全文查询、语境内关键词查询等。
规模型文本库的建成,首先要对规模型文本库予以常规运维管理。管理的侧重点主要是友好的用户交互面板以及程序的综合利用系数;确保数据的可靠及稳定性;确保查询速率。维护的侧重点主要是变更规模型文本库的制衡性、拓展文本传递信息途径。[8]
三、国际报纸新闻话语语料库中各门学科专用词汇库的生成
1.国际报纸新闻话语语料库的各门学科专用词汇库的自动生成
各门学科专用词汇是国际报纸新闻翻译的侧重点,各门学科专用词汇一致性以及译文有效性在国际报纸新闻规模型文本库建设中具有深远的意义。在国际报纸新闻规模型文本库的设计过程中,需将各门学科专用词汇库的自动生成视为主要内容。首先要运用计算机翻译软件创建各门学科专用词汇库的生成流程,将矩阵内的平行文本渗透至数据库之中,即自动生成各门学科专用词汇核心词表,利用人工进行深度处理,制成国际报纸新闻各门学科专用词汇库。同时,通过前沿的自然传递信息途径处理以及规模型文本库技术,对国际报纸新闻各门学科专用词汇予以自动生成。不过任何的方法,都需要进行相应的人工干预。[9]
2.国际报纸新闻CAT模型下的各门学科专用词汇库的构建
本研究中,笔者在翻译模块中构建了两个规模型文本库,即双语规模型文本库和国际报纸新闻规模型文本库。不过,这两个规模型文本库还需进一步完善,其中并未将各门学科的特殊专用词汇列入其中,因此,需要根据实际情况对模型予以完善和升级。笔者认为,可以在CAT系统内加设各门学科专用词汇库,在此基础上经前沿的机器学习技术,将AI技术的优势拓展到国际报纸新闻话语自动翻译之中,进而从根本上提高国际报纸新闻翻译软件CAT的性能。可见,依附于翻译过程中的人工参与,在机器介入予以匹配翻译的基础上,再侧重于各门学科专用词汇规范化翻译,翻译完成后,新词汇会被拓展至各门学科专用词汇库内,同时反馈到规模型文本库中。长此以往,新增的各门学科专用词汇库在整个CAT机制内会得到全面的利用。[10]
四、国际报纸新闻话语语料库的应用展望
国际报纸新闻话语语料库为多模态语料库,其能够真实反映国际报纸新闻原貌,具有较强的使用价值。该库在使用过程中,通过多层次标注就可以完成较为精准的定向检索,从而达到检索国际报纸新闻话语的目的,并对非语言因素完成检索;通过研究国际报纸新闻话语中语言转换规律,可以探究语言符号与非语言符号间的关系,从而掌握国际报纸新闻话语深层次的信息。此外,运用“快速检索”能够快速地检索到任意的语言字符;点击任意检索,可同步查到对应的音视频信息,重复播放,也能更加直观的查看口译过程,全方位的了解更加精准的国际信息。[11]
五、小结
国际报纸新闻话语语料库的构建,是以UAM image tool 2.0和CAT为主要应用软件。首先,经过语料录入、语料依附原稿核准、语料加工及存储、语料对齐处理、多语种语料加工、多模态语料加工等流程完成语料库的科学取样。然后,通过完善语料库的检索功能、维护管理以及学科专用词汇库建设等措施完成语料库的构建。其目的在于提高国际报纸新闻翻译的质量。本研究成果具有一定的推广价值。