APP下载

蒙古文日常问答语料数据集

2022-07-03特日格勒呼王斯日古楞韩永顺爱丽雅娜何雅

关键词:语料校正语料库

特日格勒呼,王斯日古楞*,韩永顺,爱丽雅,娜何雅

1.内蒙古师范大学,呼和浩特市 010022

引 言

问答系统是人工智能领域的重要研究方向,它作为人与机器交互的沟通桥梁,具有重大的研究意义和发展前景。在当代老龄化严重的社会背景下,智能问答系统可以陪伴老人,同时也能减轻年轻人的工作压力和困扰。问答系统主要分为任务型和非任务型,其中非任务型问答系统是面向开放领域,与用户进行闲聊对话,而任务型问答系统是为了完成用户提出的某个特定任务工作。

随着互联网数据的暴涨、深度学习技术的崛起以及硬件设备性能的提高,越来越多的智能交互设备融入到我们日常生活中。但是主流的产品或模型主要以中文、英文等高资源语言为主,而蒙古文问答系统发展缓慢。蒙古文信息处理研究中,机器翻译、语音识别、语音合成等方向的研究已经取得了较好的成果。但是,蒙古文自动问答领域的研究处于起步阶段,内蒙古大学常泽晖[1]研究了面向开放领域的蒙古语语音交互系统,其中问答系统部分是在约 2万条问答语料上使用序列到序列(Sequence to Sequence,Seq2Seq)框架实现的。谭铭言[2]利用构建的蒙古文知识图谱以及命名实体识别系统和关系抽取系统,搭建了面向旅游领域的蒙古文问答系统。王光义[3]构建了32156条纪检监察领域的蒙古文问答语料,并通过问句意图识别和问答匹配两个模块实现了蒙古文问答系统。

问答语料资源的稀缺是影响蒙古文自动问答技术发展的重要因素之一。因此,本文通过获取开源中文问答语料库并通过筛选、翻译、校正等方法构建了5万句对蒙古文问答语料,相比,其他蒙古文自动问答研究使用的语料具有更大的数据量和更贴切的内容。蒙古文问答语料库的建设可以有效促进蒙古文信息处理的研究,对促进民族之间的交流与合作具有十分重要的意义。

1 数据采集和处理方法

蒙古文问答语料来源是中文公开数据集,通过对其进行规则筛选、汉蒙机器翻译、人工校正等步骤构建了蒙古文问答语料,其构建流程如图1所示。

1.1 数据采集方法

语料库的质量和规模对问答系统的研究发展有直接的影响,因此语料的正确选择和处理非常重要。关于蒙古文问答的研究较少,更没有公开可用的蒙古文问答语料库。

本研究首要任务是构建适当规模的蒙古文问答语料库。使用的问答语料来源是2020年清华大学公开的中文问答数据集LCCC[4]中的LCCC-base。该数据集的原始对话数据来自微博对话,这一数据过滤流程包括一系列手工规则以及若干基于机器学习算法所构建的分类器,已经对脏字脏词、特殊字符、颜表情、语法不通的语句、上下文不相关的对话等噪声进行了初步过滤。与“小黄鸡”“青云”等公开的同类数据集相比,具有更好的内容质量和更大的数量。

1.2 数据预处理

源语料是由单轮和多轮问答交替组成的json文件,语料样例如表1所示。首先,从源语料中筛选了100万对单轮问答语料,为了获取更高质量的问答对,通过编写以“?”“吗”“么”“嘛”“了”等常用的疑问句结尾字以及多种自定义的规则设定为约束条件进行筛选获得了10万对问答语料。

表1 中文原始语料样例Table 1 Samples of original Chinese corpus

通过分析发现,句子仍然包含连续重复多次的问号、感叹号、逗号和含有一些“、'、~、「」”等不规则符号等,因此把句末和句中的问句、感叹号和逗号替换为单个符号,对不规则符号和句首的符号进行过滤,并且去除了长度超过100个字的句子。表2列举了几种代表性的语料清洗样例。

表2 中文原始语料清洗样例Table 2 Sorting-out samples of original Chinese corpus

1.3 汉蒙机器翻译与语料校正

将预处理后的中文问答语料经过本实验室现有的汉蒙机器翻译模型从中文翻译成蒙古文。由于中文问答语料内容存在一些噪声,以及翻译后的蒙古文译文中有语序错误和错别字等问题,最后,我们对蒙古文语料进行校正。

本文对汉蒙机器翻译过后的蒙古文问答语料内容采用了自动校正和人工校对相结合的方法。自动校正是针对蒙古文语料中存在的编码错误和名词格附加成分使用不当等拼写错误,使用自动校对工具进行修正。

人工校正是一项费时费力的工作,同时,我们开发了一款语料管理及修改的平台,该平台支持多人在线校正双语平行语料,并且可以自由地分配任务,也支持实时监督和统计任务进度,可以提高工作效率,平台展示如图2所示。

校正平台将修改的内容展示成四列,中文问答句为修改蒙古文问答句提供参考。通过平台可以对语料进行一一校正,校正的主要工作内容有:

(1)抛弃中文问题和答案不匹配、质量较差、句子逻辑有误的句子,相反保留质量很好的蒙古文问答对,不需要其进行改动。

(2)对中文问答语料质量较好,但翻译后的蒙古文句子不通顺、不完整情况进行补充修正,构成符合蒙古文语法的句子。校正过程中遇到的部分典型例子如表3所示。

表3 蒙古文问答语料校正样例Table 3 Correction Samples of Mongolian question and answer corpus

表中蓝色字体表示保持原文,红色字体表示对原文进行了修改。

第二行中,由于中文问答语料缺少停顿标点符号,导致翻译的蒙古文句子含义发生了变化。

第三行中,中文源句中的句子是祈使句或者感叹句,导致翻译后的蒙古文句子含有“《》”“”、“”等词的情况。

校正后的语料由问题和答案组成,属于开放领域的单轮日常问答语料。

2 数据样本描述

本文公开的语料包含通过人工校正后的蒙古文问答语料,由5万句对一一对应的问题和答复组成,词表大小为20927字,问答句平均长度为6.94个字。图3展示了10行蒙古文问答语料样例,第一列是蒙古文问句,第二列为所对应的回复句。图4根据问答句的长度分布进行了绘制。

从图4中可以看蒙古文问句长度主要分布在6-10字,而大量答复句长度在2-5字之间。

通过统计分析问答语料中的词频,并且去除符号、格附加成分、连词后对主要出现的词使用WordArt(https://wordart.com/)平台进行了词云绘制,如图5所示。

3 数据质量控制和评估

为了验证问答语料的质量,我们使用了人工评价和自动评价两种方式。

首先通过Distinct-N[5]对构建的5万句对语料进行了评价,Distinct-N主要衡量问答系统中句子的多样性,避免出现一些“我不知道”等万能回复。Distinct-1、Distinct-2分别由不同的一元词和二元词数量与生成单词总数相除得到,蒙古文问答语料多样性评测结果如表4所示,指标越高表示句子越好。

表4 蒙古文问答句多样性评测Table 4 Diversity evaluation of Mongolian question and answer corpus

自动评价只能从客观的层面对语料进行评估,当数据量较大的情况下比较合适,可以考虑全局信息,但是无法从语义层面进行理解。因此,本文采用了三分制的人工评分方法,从语料库中随机抽样500个问答对,并邀请5位具有语料校正经历的人员对这些问答对进行打分,主要针对问答和答案的内容贴切度、句子流畅性、以及是否存在蒙古文语法错误等。打分标准如表5所示。

表5 蒙古文问答语料打分标准Table 5 Grading standards for Mongolian question and answer corpus

表6展示了蒙古文问答语料质量评价结果。

表6 人工评价结果Table 6 Result of manual evaluation

评价结果显示,问题与回答内容不匹配,含有语法错误或错别字的问答对只占3%;由于中文语料质量的限制,20.6%的回答提供的价值不高,但并没有逻辑错误;而剩余 76.4%的问答对句子流畅问题与答案相关性较高。评价结果证明了问答语料的质量以及有效性。

4 数据价值

目前,国内未见公开可用的蒙古文问答语料,本数据集的公开是蒙古文自动问答领域中的一次重要尝试,可以为蒙古文问答系统的发展提供重要的数据支撑,还可以用于训练生成式蒙古文问答模型、微调预训练模型和迁移学习等具体任务,从而获得更好的效果。本数据集具有广泛的科研价值和较高的社会应用价值。

同时,希望同行能够分享更多蒙古文问答数据集,促进蒙古文自动问答研究的开放与发展。

5 数据使用方法和建议

本数据集以xlsx文件为存储格式,使用者可以根据自身需求将文件改为txt或者所需要的格式进行使用。任何组织和个人可以以非商业目的使用本数据集。

数据作者分工职责

特日格勒呼(1997—),男,内蒙古赤峰人,研究生在读,研究方向为自然语言信息处理、问答系统。主要担任工作:数据采集与管理,平台搭建与文章撰写。

王斯日古楞(1970—),女,内蒙古呼和浩特人,博士,教授,研究方向为自然语言信息处理、机器翻译。主要担任工作:提供研究思路、指导论文框架、修改文章内容。

韩永顺(1997—),男,内蒙古呼伦贝尔人,研究生在读,研究方向为自然语言信息处理。主要担任工作:数据采集与校正处理。

爱丽雅(1998—),女,内蒙古呼伦贝尔人,研究生在读,研究方向为自然语言信息处理。主要担任工作:数据采集与校正处理。

娜何雅(1998—),女,内蒙古通辽人,研究生在读,研究方向为自然语言信息处理。主要担任工作:数据采集与校正处理。

猜你喜欢

语料校正语料库
基于语料库的清末民初日源外来词汉化研究
面向低资源神经机器翻译的回译方法
劉光第《南旋記》校正
可比语料库构建与可比度计算研究综述
基于特征分解的方位向多通道SAR相位失配校正方法
空间相机次镜在轨校正仿真分析
一种具有自动校正装置的陶瓷切边机
国内外语用学实证研究比较:语料类型与收集方法
语篇元功能的语料库支撑范式介入
英语教学中真实语料的运用