APP下载

基于语音识别技术的维蒙藏语音产品开发及应用

2020-06-04马仕瑛

计算机时代 2020年5期
关键词:语音识别

马仕瑛

摘  要: 为使更多人了解使用少数民族语音产品,有效解决我国少数民族地区与其他区域之间的语言障碍问题,促进民族间的相互交流。通过搜集资料,以国内基于语音识别技术的维吾尔语、蒙古语、藏语的语音产品为研究对象,梳理其开发和应用情况,发现目前开发的相关产品主要集中于语音输入法、语音翻译软件和转录产品三方面,在此基础上,对产品使用产生的影响进行分析,并对相关语音产品的发展前景进行展望。

关键词: 语音识别; 少数民族语音产品; 语音输入法; 语音翻译软件; 转录产品

Abstract: In order to make more people understand and use minority speech products, effectively solve the problem of language barrier between minority areas and other regions in China, and promote the mutual communication between ethnic groups, taking the domestic speech recognition technology based Uygur, Mongolian and Tibetan speech products as the research object, through the collection of data, combing their development and application, finds out that the current development products mainly focus on three aspects: speech input method, speech translation software and transcription. According to the research, the impact of the use of products is analyzed, and the development of related speech products is prospected.

0 引言

基于智能語音及语言的人机交互技术涵盖了宽广的研究领域。其中语音识别、语音合成和自然语言理解在智能语音及语言交互技术中处于最为关键的核心位置。语音识别所要解决的问题就是让计算机能“听懂”人类的语音,并在各种情况下准确地将语音中所包含的文字“信息”提取出来,该技术在“能听会说”的计算机系统中扮演着重要角色。这等于给计算机系统赋予了听觉能力,不仅使其“能听”,还能“听懂”,进而实现信息时代利用“语音”这一最自然、最便捷的途径进行人机交互[1]。

我国是一个多民族国家,很多少数民族地区的居民仍不会说国家通用语和汉语方言,这使其无法在除本村镇以外的场合进行有效地交流及沟通,严重制约其办事效率。

开发研制基于语音识别技术的少数民族语音产品,目的是帮助这些不懂汉语的少数民族在不熟悉的环境里有效交流,从而解决这些民族地区的语言障碍问题,在此基础上,推动民族地区经济、文化等领域的发展,促进各民族团结、融合。由于维吾尔语、蒙古语和藏语等为重要的中国少数民族语种,发展历史相对较长,与其他民族相比,其语音识别技术研究较丰富,所以开发语言产品是有基础的。

本文梳理和归纳了基于语音识别技术的维吾尔语、蒙古语、藏语的语音产品开发和应用情况,在此基础上分析这些语音产品开发及其使用所产生的影响。

1 基于语音识别的维蒙藏语音产品开发及应用现状

近年来基于语音识别技术的维蒙藏语音产品不断增多,给人们的生活带来了便利。现根据研发单位的不同,对这些语音产品的基本功能作简要介绍。

1.1 中国民族语文翻译局

中国民族语文翻译局[2]基于基础语料采集工作,将智能翻译系统与民族文语音识别系统相结合,相继研发多款语音软件。

维吾尔文语音输入法,功能包括汉语和维吾尔语的文字手写输入和语音识别输入。

维汉智能语音翻译软件,实现了维吾尔语和汉语的语音输入、语音朗读功能和维吾尔语与汉语之间的互译功能。

语音转写通,采用清华灵云识别技术,可实时、不间断地把整句语音进行识别,然后转成维吾尔文、蒙古文、藏文和汉字。

民汉对话通,基于语音识别技术,支持汉字、维吾尔文、蒙古文、藏文的语音录入,并且可以进行朗读。

维汉智能机器人,是一套支持维汉双语的智能人机交互的机器人设备,其根植入的维汉语言智能语音识别技术、自然语言理解技术和智能机器翻译技术,实现了少数民族办事大厅的引导,智能问答,自助业务办理等智能查询功能。

1.2 捷通华声

捷通华声作为中国最早从事人工智能技术研究与应用的企业之一,其始终重视少数民族语言的智能语音技术研究。

早在2005年,国内首款灵云维汉友谊桥应用软件[3]公测版已经推出。该款软件在维吾尔语、汉语双语翻译技术的基础上,采用语音识别和合成技术,使用者所说的话通过识别转成文字,而后再转化为另外一种语言,并由软件进行朗读。

随着技术不断成熟,2018年,灵云智会、智录、智声三款智能语音转录产品[4]推出,分别服务于多人会议、一对一谈话、单人录入等场景,三款产品均支持维吾尔语、蒙古语、藏语的语音识别。其中,“灵云智会”是“为多人会话推出的智能语音转写软件,可分角色实时将发言转为文字”,值得注意的是,其专门面向政法领域会议、庭审、审讯等场景推出了语音转写方案,语音识别准确率高达98%。“灵云智录”应用于一对一谈话的识别。例如公安讯问、检察谈话等场景,把对话内容实时分角色记录,拥有较快的转写速度和较高的准确率。“灵云智声”是一款智能语音输入法,其提供政务、医疗领域专用语音识别模型,应用在政务会议材料整理、医疗电子病历录入等场景;而且其在语音识别有自己的云端,无需连接互联网,满足军政机关保密要求等。

1.3 科大讯飞

2016年,西藏大学·讯飞语音及语言联合实验室发布讯飞藏语识别、合成和翻译系统[5]。其中,三位一体藏语输入法、汉藏互译通两产品均涉及藏语语音识别技术。“三位一体藏语输入法”是全球首款基于蜂巢输入模型的全能藏语输入软件,集成了联合实验室独家研发的藏语语音识别技术和藏语手写识别技术成果;“汉藏互译通”软件集丰富的情景例句、实时语音识别翻译功能于一体,提供汉藏翻译。

1.4 腾讯公司

腾讯公司开发了“腾讯民汉翻译”小程序[6],目前已支持维语、藏语(卫藏藏语、安多藏语、康巴藏语)与中文的互译。团队多年对民族语音、语言、图像、文本进行了大量标注,使得该小程序相较于同行业其他产品,在功能上实现了“实时语音识别+标点断句+翻译+语音合成”的首创。

1.5 相关学科研究者

开发手机语音助手。迪丽尼格尔·热夏提[7]实现了基于Android系统的维吾尔语语音助理应用软件,该软件实现的功能有打电话、发短信、打开应用程序、音乐搜索等八大功能。之后,米尔阿迪力江·麦麦提、吾守尔·斯拉木等人[8]用同样的方法开发出维吾尔语手机语音控制软件,实现了打电话、发短信、打开应用、新闻、天气查询等十大功能。

开发在线教育网站。赵睿[9]开发出藏语连续语音识别系统,将该系统应用到远程教育中的藏族中小学语文教学视频中,首先识别出音频文件中的藏语,然后和视频文件整合,形成具有字幕的教学视频。李要嫱[10]搭建了藏语在线教育视频语音内容识别系统,实现藏语实时采音和语音识别,最终把识别结果通过藏文文字形式显示在视频下方,形成带有字幕的教学视频。

开发智能家居领域。吾提库尔·艾尔肯[11]将维吾尔语语音识别技术應用到智能家居领域中,实现通过开关与遥控这两类电器设备的控制,如:电视,热水器等。

2 基于语音识别技术的少数民族语音产品影响

进入21世纪,在国家政策的扶持下,在专家学者和相关科技公司的努力下,众多基于语音识别技术的少数民族语音产品投入实际应用,给国家、社会以及个人都带来了积极影响。

2.1 国家层面

对外能够推动国家友好交流与合作。许多少数民族语言与周边国家的官方语言实属同一种语言,通过对这些少数民族语言进行语音识别,可以有效促进交流,从而加强与沿线国家的交往与合作。

对内有助于了解少数民族群众较关注的话题,掌握社会舆情变化。通过使用少数民族语音识别系统,政府机构可以对使用者的关注话题和情绪变化有一定的掌握,了解民情民意,从而为政府政策的制定和调整提供参考依据,从而顺利推行国家政策。

2.2 社会层面

有效促进民族之间经济交流、文化传播和传承。随着语音识别技术的应用,能够帮助少数民族同胞与汉族民众进行有效地交流沟通,从而极大地方便民族间的商务、文化交流,推动少数民族地区经济发展,也有利于少数民族文化传播。

有助于保护濒危民族语言与文化。语音识别技术的发展基础之一就是需要建立语音识别资料库,只有收集了大量的语音语料,才能够开展后续的建模和构建识别系统的工作。大量的语音语料的收集则对于保护、发展少数民族语言和文化有至关重要的作用。

促进少数民族地区的教育发展。一些研究者经过实证研究,发现语音识别系统能将视频中的音频信息转换为相对应的少数民族文字,为学习者提供辅助学习功能,促进优质教育教学资源在少数民族地区传播,推动教育信息化进程,从而缩小与发达地区的教育差距,有效提高少数民族地区综合竞争力[9-10]。

2.3 个人层面

提高相关单位工作人员的效率,方便办事群众的生活。通过语音识别进行输入和翻译,可以解放工作人员的双手,提高工作效率,也能帮助工作人员和少数民族群众提高沟通效率,从而减少群众的等待时间。

为不懂国家通用语言文字的少数民族残障人士提供便利。通过字幕形式实时展现对话,方便了听力障碍人士;通过语音输入,不需要打字便可以录入文字,也方便了手脚不便的残障人士。

3 基于语音识别技术的少数民族语音产品发展前景

维吾尔语语音识别的研究工作开始于20世纪90年代初,蒙古语和藏语的相关研究工作开始于21世纪初,随着语音识别技术的不断发展,相关语音产品的数量不断增多,在教育、医疗、司法等方面发挥着重要作用。但是目前产品的开发方向主要集中于语音输入法、语音翻译软件和转录产品,种类仍较为单一,受众多为政府、公安和法律等部门的人员,且产品推广力度不够,因此使用人数较少,受众范围较窄。

未来,少数民族的语音识别技术和相关产品开发定是热门的研究领域,有较好的发展前景。首先,通过在真实场景中应用语音产品,研究者得到的真实数据会越来越多,语音识别会更加准确,能更好地把握用户的需求;其次,随着更多少数民族学者投入研究,支持彝语、壮语等少数民族语的语音产品也会推出;最后,新的语音产品研发将会从群众需求出发,例如:智能家居的控制、车载语音系统的开发、公安消防报警系统的改良等,以提高其受教育的质量、更好地保障其人身财产安全等为目的,有效扩大受众范围,增强少数民族群众的幸福感,从而促进社会的和谐与进步。

参考文献(References):

[1] 李鹏飞.基于深度学习的维语语音识别研究[D].安徽大学,2016.

[2] 佚名.民族语文信息化成果[EB/OL].中国民族语文翻译局网,http://www.mzfy.org.cn/information/i=15&comContentId=15.html,2019-07-26.

[3] 佚名. 维汉语音转写通官方介绍[EB/OL]. PC下载网, https://www.pcsoft.com.cn/soft/163351.html,2019-08-15.

[4] 佚名. 捷通华声灵云智会、智录:性价比更高的智能语音转录方案[EB/OL].国脉电子政务网, http://www.echinagov.com/keji/250594.html,2019-08-15.

[5] 佚名. 西藏大学·讯飞语音及语言联合实验室发布系列技术成果[EB/OL].西藏自治区人民政府网, http://xizang.gov.cn/xwzx/qnyw/201611/t20161108_93128.html,2019-08-18.

[6] 佚名. 腾讯民汉翻译践行“科技向善”[EB/OL]. 腾讯云网,https://cloud.tencent.com/developer/article/1454493,2019-08-16.

[7] 迪丽尼格尔·热夏提.基于Android的维吾尔语语音助理应用软件的研发[D].新疆大学,2014.

[8] 米尔阿迪力江·麦麦提,吾守尔·斯拉木,努尔麦麦提·尤鲁瓦斯,热依曼·吐尔逊,艾尼宛尔·托乎提.基于智能手机的维吾尔语语音控制系统的开发[J].计算机应用与软件,2016.33(6):220-223,305

[9] 赵睿.藏语语音识别在远程教育中的应用[D].中央民族大学,2017.

[10] 李要嫱.基于主动学习的藏语语音识别在在线教育中的应用[D].中央民族大学,2018.

[11] 吾提库尔·艾尔肯.维吾尔语语音识别技术在智能家居中的研究与应用[D].新疆大学,2017.

[12] 张建华.基于深度学习的语音识别应用研究[D].北京邮电大学,2015.

[13] 孙杰,吾守尔·斯拉木,热依曼·吐尔逊.基于CMN网络的低资源柯尔克孜语识别研究[J].现代电子技术,2018.41(24):132-136,140

猜你喜欢

语音识别
空管陆空通话英语发音模板设计与应用
通话中的语音识别技术
面向移动终端的语音签到系统
农业物联网平台手机秘书功能分析与实现
基于LD3320的非特定人识别声控灯系统设计
航天三维可视化系统中语音控制技术的研究与应用
基于语音识别的万能遥控器的设计
基于语音技术的商务英语移动学习平台设计与实现
基于Android手机语音和Arduino控制板的机器人控制系统
支持向量机在语音识别中的应用