G PS 车载导航系统的藏语语音识别应用
2018-07-14南拉才让完么措
南拉才让 完么措
(西藏大学图书馆,西藏 拉萨 850000)
顺应我国车辆迅速增加和公路交通网的强大建设, 车载导航系统可以最好地满足自身车辆的定位以及迅速了解路况信息的需求。 因为在行驶过程中,驾驶者需要随时随地注意着路面的状况, 语音识别技术与车载系统的巧妙结合, 实现了人机交互的过程。 驾驶者双手就能够集中在方向盘的操作上, 无需用手去操作车载导航系统, 还可以完成其他一系列的后续操作, 这对于驾驶者已经是目前较为安全的手段之一。在当今严谨的交通规则下, 通过语音技术实现人机交互的方式, 大大降低了一系列驾驶问题, 例如开车时接听电话、 开车时点击屏幕操作其他系统等等危险行为。 语音识别技术与车载导航系统的完美结合, 真的是一个利好的消息和应用, 对于语音识别技术发展也有意味深长的意义。
1 语音识别技术的意义
通过系统性的识别理解把语音信号, 转化为相应的文本或命令操作的新型技术已经面世, 它就是我们强大的语音识别技术。 语音识别技术应该在多个领域中占有重要地位,例如移动电话、车载导航系统、社会信息服务等行业, 对各行各业都有一定影响力。 语音识别技术与车载导航系统结合, 也发挥很大的作用和得到深入应用。 以往比较旧款式的车载导航系统是需要驾驶者手动输入才能够确定目的地, 这样在行驶过程中输入时非常危险的行为。 随着先进的技术设备发展, 现在市面上很多的车载导航系统已经可以进行语音识别, 搭建起了稳定的人机交互交流平台, 深受广大驾驶者的热衷。 驾驶过程中, 司机需要在路上高度集中注意力, 但很多时候他们必须把目光转向汽车才能操作里面的设备。 设备, 所以语音识别技术在车载导航系统中有着至关重要的地位。 虽然车载导航系统是获取车辆信息的有效渠道, 但是目前很多车载导航系统接收信息还存在一些问题, 他们不太适合司机的习惯和实际需要。 司机正在开车, 如果分散视觉注意力会发生不堪设想的后果, 这时候听觉就成为了另一个收取信息的好工具。根据新的交通法,司机在开车时不允许接电话。 这是为防止驾驶员在驾驶过程中发生意外而建立的措施, 因为车载导航系统的操作远远多于接听电话,这个也是相当危险的信号和威胁。
举个例子,我们准备出发到某个酒店,即使酒店是四个字符, 如果在嵌入式系统中使用T9 输入法, 那么每个汉字需要约4 至5 个键,还有进一步的选词操作。因此,对于您选择的每个地名,用一只手离开方向盘大约需要10 秒钟, 但是同时您的注意力和眼睛被分散了,这听起来非常危险。 相对这些输入方法,语音识别有非常的优势, 可以说是另外一个概念。 语音识别技术只需要使用者说出具体的地名和操作步骤, 屏幕就会展现出来, 操作者只需要确认信息便完成整个操作过程。 这样的操作方式不但可以简化操作, 而且提高了操作者的安全性。 因此, 语音识别技术与车载导航系统的结合应用, 既提高了车载导航系统的使用率,也方便了驾驶者的操作, 对驾驶者者也有很大的帮助。 其实,除了语音识别技术之外,在设计出完美的语音接口后, 还可以实现语音的合成, 这样驾驶者根本不用低头留意屏幕上的信息。
2 语音识别技术在车载导航系统的应用
针对语音识别技术与车载导航系统的实际应用,主要体现在以下操作:
(1)命令输入。针对车载导航系统各层界面的各种指令进行控制, 只要车载导航仪启动菜单、 导航、游戏、音乐等模板及其子菜单名称进入语音识别库,通过简单的输入指令即可自由操作导航仪。
(2)地名输入。根据每个城市的主要交通道路或建筑物的名称,如果系统允许,这些名称可以并入语音识别库以直接识别。
(3) 连续数字串输入。 根据每条道路上的号牌识别, 或者利用导航仪拨打电话与接听等功能时, 就可以识别电话号码或呼叫对象。
(4) 附属设施查询。 寻找出地图中的酒店、 加油站、学校、医院等设施。
3 语音识别技术实现过程的步骤
语音识别技术实现过程主要是系统训练和系统识别, 大致分为以上两个步骤。 语音识别主要通过识别声学模型和文法分析语言模型来实现系统训练步骤。至于系统识别步骤, 是利用相应的识别算法, 分析语言信号中的特色参数, 然后与系统模型系列对比,最后获取识别结果。 语音识别技术的重点是对语音信号提炼和比对的模式识别。
预处理环节、提取特色参数环节、模型匹配和其他环节,都是语音信号的环节。 在预处理环节中,通过利用语音识别技术首先去除语音信号中的杂音和气流等不稳定信号。 在预处理后, 就是提取和分析语音信号中的特色参数。 提取特色参数的方法也有很多, 例如梅尔倒谱系数算法、 短时平均能量算法等等。 最后一个环节就是参数筛选, 按时间顺序对特色参数进行重新排列, 然后把模式表和参考模式进行逐一对比。 根据判定规则采用最佳参考模式进行识别, 因而得到最后的识别结果。
4 藏语在语音识别技术中的应用
因为受地理位置限制等原因, 藏区人民长期处于分散状态, 藏语也因此出现了各地的差异性, 在藏区不同的片区可能就会产生另外一种方言。 随着综合国力的提升, 藏区人民生活水平也随之带动起来, 交通和通信问题得到了很大的改善, 打破了藏语受限制的交流。 藏语需要一个具有权威性的参考点, 才能够形成藏语的规范化。 在现今信息化的时代中, 通过开发藏语语音识别系统, 不但可以成为地方性方法参考点, 而且能够形成共同的语言特别, 为藏语语音识别作出一定的贡献。
(1)逐渐完善藏语语音识别资料库,通过学习更多的藏语文本, 收集和整理相关资料, 进行相应的语音采集和系统标注。
(2)通过对音节的研究,结合藏语语言特点,在藏语语音别系统中确定音素作为识别基元。
(3)选取适合藏语语音的系统语言模型,结合声学提高系统识别能力。
(4)对在特定人和非特定人的藏语中,进行孤立词语识别和对比, 检验藏语特定人对于孤立词语的识别率,进一步提高藏语的语音系统识别性。
5 藏语语音识别系统的难点
藏语语音识别技术主要面临着以下困难:(1)基元选取。 语音基元有单词、音节和音素,是语音识别的重要工作。 藏文是一种音素拼音文字, 多数都是用音素进行表示。 藏语的音节最少是由一个字母构成, 最多是七个字母组成, 各个音节之间都会用音节符合相隔开。(2)端点位置检测。端点位置检测就是找到音节的起始点和结束点,是语音识别中的关键。(3)适应性能不高。 适应性能主要是针对环境和说话者。 特定环境下采集的语音可能只是在当时的环境下应用, 通用性会下降。 对说话者的适应性,主要体现在不同性别、年龄或情感音素情况下的相同语音内容, 都是会存在差异的。 (4)方言影响。 每一个地方都有属于自己的方言,藏区按方言划分为卫藏、康巴、安多三块,而卫藏又分“前藏”和“后藏”,可想而知藏语有多复杂。 (5)语料库资料短缺。 由于藏区不是一个系统的语音库,而藏区的地区划分也不是特别清晰, 每个地区都有其独立性和特别性, 所以目前收集到的语音资料库都是非常有限的资源。
6 藏语在语音识别技术的规划
藏语其实是一个非常值得深入研究的领域,还是有很多发展空间和问题有待研究。主要是藏语作为一种小语种,存在一定的复杂度,所以是一个很好的探究方向和目标。 希望藏语语音识别系统得以更加完整,针对日后规划,主要还有以下几个方面的工作探究:
(1)完善和整合语音资料库。藏语语音资料库资料尚少且未算很成熟, 若果想提高藏语语音识别系统的识别率, 还是需要继续整合和完善语音资料库, 不断拓展研究方向, 希望语音资料库越来越大, 为科学研究提供更多的参考。
(2)研究藏语的各种资料。 因为目前藏语研究都是比较片面和零碎, 希望日后能够对现存的问题优化分析,通过一系列的论证和实际检验,总结出更多的藏语语言学知识,提高藏语在语音识别技术中的完整度和整体识别度,让藏语语言被更多的人所熟悉和认识。
语音识别是以最方便、 自然和快捷的方式听懂人类语言的一门技术, 也是人机交互重要的一步。 车载导航系统也成为了新的研究热点, 不但可以为驾驶者提供更多便利功能, 还能大大提高了行驶安全。 许多新技术可以应用到车载导航系统中, 不断丰富和改进了系统的功能。 语音识别在车载导航系统的完美结合,造福广大人们群众。 相信在未来,通过多方的合作开发,互相提供技术支持,语音识别技术的逐渐强化,加上语言的多样性研究, 各种语言的识别准确度和精准度都会在语音识别技术中不断呈现和进步。 而藏语也可以作为一个很好的研究点, 因为其独特性和多元化是值得深究。