基于BLEU的格律诗生成的自动评测方法研究
2018-07-07朱骐
内容摘要:BLEU作为当前相对具备较高应用价值的机器算法之一,在机器翻译尤其是语句生成领域存在着一定的协同发展作用。现就BLEU衡量标准在NLP领域的实际地位及发展历程,浅析基于BLEU的格律诗生成的自动评测方法研究。
关键词:BLEU NLP 机器翻译 语句生成 自动评测方法
BLEU作为NLP领域中十分经典的衡量标准,目前在多数机器语句生成技术中均存在着相应应用。早在2002年该衡量标准便得到了国外研究人员的提出,并与同年由Kishore Papineni et al.在相关学术会议中提出。这一衡量标准在实际发展过程中通过机器计算来完成对两个句子的共现词频率计算来实现对两句语句一致程度的最终测评。虽然就该自动评估方式而言容易受常用词以及较短翻译句式的影响,但不可否认其在诸如格律诗等文学类语句自动生成领域存在着较大的应用价值。现就笔者观点,对基于BLEU的格律是自动生成评测方法进行相应研究。
一.BLEU概述
在机器翻译领域BLEU技术存在着较为广泛的应用范围。由于当前机器翻译领域之中在语句生成方面的需求面日益宽广,因此在语句生成的逻辑研究以及机器算法开发方面的投入力度也随之增加。为保证语句生成的实际质量满足相应需求方的具体需求,需要在语句生成过程中做到生成思路符合人工智能的實际思路,并在具体算法设计上对语句之间的逻辑性和语言性做到良好的认知。
BLEU作为机器翻译领域中常用辅助工具的一种,其本质是指双语互译质量评估辅助工具,作用于评估机器翻译的具体质量。BLEU的设计思想与评判机器翻译好坏的思想是一致的:机器翻译结果越接近专业人工翻译的结果,则越好。众所周知,对于机器翻译实际质量的评测工作往往是由人工来完成,同时在面对多数机器翻译的实际作品时也通常存在着翻译结果与实际表达含义存在着出入的情况发生。为应对这一现象便进行了BLEU技术的开发工作。这一举措不仅实现了对于机器翻译语句质量检测的信息化渠道搭建,同时极大的节约了人工检测的成本与时间。BLEU是做不到百分百的准确的,它只能做到个大概判断,它的目标也只是给出一个快且不差自动评估解决方案,但这一结果已然体现了机器检测结果体系在机器翻译领域的应用价值。当前对于BLEU技术的开发工作仍在继续,实现BLEU算法的机器翻译检测工具同样具备了较高的应用程度,并在相关行业领域存在了一定程度的普及。
二.格律诗自动评测方法研究中BLEU技术的应用价值分析
当前现存的BLEU参与的汉语言文学作品自动生成系统中较为成功的一款便是由微软亚洲研究所自主开发研究的对联自动生成系统。由于对联在实际格式上与格律诗存在着较大的相似之处,尤其是在对仗、押韵以及各式、寓意方面的需求存在着较大的共通之处,因此在格律诗自动生成系统中同样可以应用这一体系的运行特点来在思路方面带来突破。自动对联系统在实际统计翻译理论的结合以及统计翻译理论应用的思路方面在于通过现有数字建模技术来对对联信息中的源语句、格式类型进行建模,通过较为复杂的运算进行创作格式以及创作思路的规律模拟;同时通过数字建模系统能够有效的对作品之中大多数案例中上下文之间的语义关系进行模拟,找出目标语句之间的对应关系。这一机制体现出的特点与BLEU应用价值大致吻合,且在实际应用过程中通过BLEU评测标准能够基本判断对联生成质量是否符合用户基本需求。同样的,对联自动生成系统与格律诗自动生成系统在搭建思路方面存在着较高的共通之处,为确保用户在使用格律诗自动生成系统时能够实现自身需求得到大致满足,进行BLEU标准的搭建具有着较高的应用价值。由于格律诗自动生成系统在自身系统自动评测方法上对效率及准确精度存在着较大需求,同时在诗词自动生成过程中有效避免了常用词对BLEU的实际干扰,因此该标准在格律诗的自动生成系统中存在着较为高度的发展空间,二者协同发展的实际前景具有科研价值。
三.基于BLEU的格律诗生成自动评测方法研究
作为新兴的机器算法检测的衡量标准之一,BLEU标准在实际应用过程中存在着较为明显的优缺点。其优势在于自身检测结果的应用价值显著且具备了较为高度的参考价值,同时相对于人工检测方式而言这一检测机制响应时间更短、检测效果更明显,且在多数的自动评测方法之中这一单元的应用成本要明显低于人工成本。然而同时BLEU的缺陷相对而言同样较为显著。首先,BLEU作为逻辑层面的检测响应机制在语法语义方面的应用缺失较为严重,虽然能够基本实现对于语言逻辑层面的布控,却不考虑语言表达(语法)上的准确性;其次,由于当前BLEU应用词库依旧处于填充过程之中,因此在关键词检测中虽然具备较高的精确度,但在常用词检测之中同样会受到词库匮乏这一弊端的影响,测评精度会受常用词的干扰;第三,短译句的测评精度有时会较高;同时没有考虑同义词或相似表达的情况,可能会导致合理翻译被否定。这一结果显然不是研究人员所期望的实际结果,因此目前对于BLEU标准的界定较为模糊,是否落实应用这一标准也是多数检测评测系统搭建的重点探讨问题之一。
目前对于格律诗自动生成系统的应用建设已然具备了较为完善的相关经验,且格律诗的创作应用具备了较大的特殊性。于汉语语言文学与计算机算法的结合发展相对传统计算机算法的发展建设进程而言其建设工作的内涵相对较为复杂,因此实际应用过程中对于机器算法的实际质量存在着较高要求。这一系统的运作机制在于通过对汉语言文学以及诗词类艺术鉴赏进行数字建模,来实现通过计算机技术系统化的生成格律诗题材的文学作品,以适应现阶段社会环境中的信息化艺术发展形势。同时格律诗由于自身特殊的文学地位在创作过程中同样具备了较高的难度。众所周知,格律诗在自身题材中包含了律诗以及绝句两大组成部分,我国汉语语言文学史上具有着较高的地位。而格律诗的自动生成系统开发难度之所以较高是因为这一题材的诗词作品在创作过程中对于已经以及韵脚存在着高度的要求,既需要在题材格式上满足诗词的多元化搭配,同时在诗词自身的意境上同样需要具有较高的文学素养。
在格律诗自动生成系统中进行基于BLEU的自动评测发展时间相对较短,且依旧存在着经验缺失的问题,因此就笔者观点而言对其进行自动评测方法研究具有着一定的积极价值。目前常见的基于BLEU是自动评测方法主要存在于关键词检测以及核心语句建模两大方面。关键词检测是指在格律诗的自动生成过程中首句生成阶段。目前我国常见的格律诗自动生成系统在进行首句生成时主要依靠于《诗学含英》中的分类体系进行参考。众所周知,《诗学含英》一书中在语义类别的具体分类上面向不同的诗词类型共存在着40大类、1016个关键词、41248个词汇,因此在进行首句生成时该自动生成系统仅仅需要用户进行诗词题材的选择以及三个关键词的确定即可完成对于格律诗首句的生成工作。而核心语句建模则相对较为复杂,是指通过对同一类型关键词、核心词汇的评测来完成对于格律诗自身风格的数字建模工作。在通过相似度检测以及首句、二三四句的实际生成关系确认后通过核心语句建模能够有效确保语句在生成后韵脚、平仄均符合律诗或绝句对于整体作品的相关需求。
BLEU标准与格律诗的自动生成体系建设具有着较高的协同发展价值,同时就BLEU标准的实际发展来看这一理论在自动生成等技术领域的实际应用已然具备了一定的成熟度。为确保我国相关格律诗自动生成系统在实际应用过程中能够稳定发挥自身机制特点,在作品生成时满足用户具体需求,对BLEU进行应用是当前我国格律诗自动生成系统开发研究的重点工作内容之一。相关科研人员还应加强对于该技术类型的具体认知,实现基于BLEU理论的格律诗自动生成的评测方法及实际作用符合该系统的开发需求。
参考文献
[1]杜金华,张萌,宗成庆,孙乐.中国机器翻译研究的机遇与挑战——第八届全国机器翻译研讨会总结与展望[J].中文信息学报,2016,(07):15-16
[2]蒋锐滢,崔磊,何晶,周明,潘志庚.基于主题模型和统计机器翻译方法的中文格律诗自动生成[J].计算机学报,2017,(16):30-34
[3]何晶,周明,蒋龙.基于统计的汉语格律诗生成研究[J].中文信息学报,2015,(22):35-40
(作者介绍:朱骐,盐城工学院信息学院副教授,从事计算机应用与教学、中国古典文学研究)