基于视障人群声J空3D导航APP的应用与探究

2020-05-03彭忠欣张帆

视界观·下半月 2020年1期

彭忠欣张帆

摘要：视觉障碍者简称视障者，其中我国视障人群1300多万人，约占全世界盲人总数的28%，也就是说平均每80个人中就有1人存在视力障碍。本文推出的声控3D导航系统，其通过声音辅助视障人群在脑海中构建画面，辅助用户将所在位置设置成中心点，把周围的地标按顺时针方向念出来，为用户勾勒出一幅实时地图，对于视障人群独自出行有着重要意义。这些特别的开发创新将有助于让视障人群成为独自出行探索世界的主导者，也能反哺促进我国场所的无障碍的建设和和谐社会的构建。

关键词：声控3D导航;视障人群;信息无障碍

视觉障碍者，根据第六次全国人口普查及中国互聯网视障用户基本情况2017比对，当前全世界大约有4500万视觉障碍者。在视障网民中，90后、80后占75%，其中90后占据45%，80后占据30%，特别在网民学历的构成中高中学历占比最高为42%。然而，在日常生活中，我们却很少能见到这些视障人群，因此大多数存在视障人群不敢独自出门，虽然都有出行的愿望，可由于无法保证自身出行安全，不得己要出行时，依然要求助家人、邻居或志愿者。

为了帮助视障人群克服视力障碍，更好地帮助他们独立探索世界，我们设计了基于视障人群独自出行声控3D导航APP。开发是在指导老师的设计下，通过用户把手机端平，声控3D导航就能说出当前地点，前方有什么以及目的地的行进方向等;当用户经过一些具体地标时，声控3D导航会自动提示相关信息与路线。并且本系统特别之处在于用户越靠近目的地，手机会发出稳定持续的、类似心跳声的鼓点，这种类似鼓点的声响会随着用户需要移动的方向的变化，及用户与目的地的距离的变化而改变，用户越靠近目标，鼓点声频率就会越高，而且这些鼓点声足够响亮，不会被都市喧闹嘈杂的声音所覆盖。这些特别的开发创新将有助于让视障人群成为独自出行探索世界的主导者。

下面我们就以声控3D导航系统总体架构设计为例，结合研究内容中体现四个技术方面进行具体的介绍：

一、从视障人群的感知角度进行导航位置确定

在为视障群设计的声控3D导航中，为了帮助他们快速定位，需要通过语言准确地描述出方位所处的朝向，周围标志性的建筑物，周围的情况前方三米、左右一米等。同时这些用词要贴近视障人士的语言系统，这里的语言描述要尽可能地准确及客观，以此来帮助视障人群形成他们的心智地图和空间画面，在APP程序开发界面要通过“我的位置”按钮，快速帮助视障人群确定当前的位置。“我的位置”会告诉您当前的位置，包括您所面对的方向，附近道路或十字路口的位置以及附近景点的位置。当您需要弄清楚自己的位置或所面临的主要方向时，“我的位置”非常有用。

二、不同场景情况下不同功能的音效进行声音上下文的音频标注

视障人群“听觉”功能的宗旨是带来声音信息，而声音信息可以分为两种：差异化的声音信息和同质化的声音信息。差异化的声音信息，分贝大小不同，基于差异化的声音，视障人群可以通过敏锐的听觉判断方向。同质化的声音信息，即同类型声音的分贝大小相同甚至相互混淆或者同类型声音发出的分贝值一样。在这种情况下，视障人群的听觉会受到严重影响，从而可能缺失辨别方向的能力，以及辅助记忆和其他的功能，这对视障人群来说是非常可怕的事情。那么首先借用传统GPS或高德、百度地图API调用应用程序提供的转向指示，使用空间3D声音信息标注，将视障人群行走时从他们身体所处的方向调出兴趣点，公园，道路和十字路口。围绕在视障人群附近的目的地设置信标允许此APP软件通过播放来自该目的地方向的可听信标声音来通知其位置。该信标可以在主屏幕上静音或取消静音。此外，声控3D导航APP在主屏幕上显示有关目的地的信息，包括与其的距离及其街道地址。

特别针对本项目研发过程中，需要解决关键问题如何在声控3D导航中缩小“语义鸿沟”问题。本创新团队认为提出相应的模型和算法最为关键，作为对音频标注过程中如何缩小低层特性与高层语义之间的积极作用不容小视。特别作为一种重要的上下文，语义概念之间的关联在多标记标注中尤为重要，因为传统的音频概念检测对每个概念单独训练分类器的处理思路实际上是讲多标记问题退化为一个多个二类分类型的集成问题，这样做最终语义信息的丢失将制约标注结果，也就会反射在视障人群大脑中语义的原始想法和意图的高层语义信息出现中断现场，不利于在脑海中构筑3D导航场景再现。所以本项目提出结合关联主题混合高斯模型，利用该模型假定音频片段由特征概念对构成的共现模型来提高导航过程中产生语音的原始表达意图的最大性能输出。

三、结论

笔者根据指导老师的意见，结合四人小组协同合作下共同完成，首先对系统总体架构设计，所述系统包括：一个具有摄像头的安卓智能手机一部、一个具有扬声器、收音器功能的一对立体声耳机，以便可以利用3D空间音频进行标注、编写计算单元程序、和一个导航地图API接口的购置。在相关技术实施过程中，我们会借用Android原生操作系统中内置添加无障碍辅助服务功能结合自动语音识别技术的利用，编程过程中采用广泛认可的基于上下文相关的深度神经网络隐马尔可夫模型来解决大词汇量语音识别的难题，最后结合判决算法对语音进行输出。另一个场景是在更大的空间里，某处有一个标签，标签里储存着一些声音，它一直在这里使用经典蓝牙进行信号发射，当视障人士走进了信号感应区内，且开启了Voicer或者手机读取声音的功能，他们就会立马读取储存在这周围的声音。相信伴随“互联网+”为很多人打开了认识世界的另一扇门，对视障人群而言也是如此，他们对互联网信息的渴望不亚于健全人。该项目目前在国内外市场都极度匮乏，市场潜力极大，在这种大环境下，我们所做的声控3D导航APP将有极大的应用前景和市场潜力。

视界观·下半月

2020年1期

基于视障人群声J空3D导航APP的应用与探究

杂志排行

视界观·下半月的其它文章