浅谈手势转换语音APP设计

2020-05-19殷献宁

现代营销·理论 2020年6期

殷献宁

摘要：本文综述了国内外聋哑人语音交互技术发展的现状，针对现有的聋哑人辅助发音系统普遍存在实现成本高、使用不方便的特点，并考虑到手机在大众生活中的普遍性，提出设计一款基于图像识别的手势转换语音APP。

关键词：聋哑人;人机交互;图像识别;信息转换;视觉设计

据最新资料显示，我国目前约有2057万聋哑人，占总人口的1.67%。语言交流是聋哑人与外界交流的最大障碍，而手语是消除这种障碍的直接桥梁。手语作为聋哑人与正常人群之间较为有效地传统交流手段，长期以来受到许多聋哑人和相关人士的青睐。然而，手语存在难理解、难记忆、难掌握、难学习的特点，因此，搭建一个正常人与聋哑人交流的平台就显得很必要了。

一、国内外研究现状与APP设想

目前，国内外在解决聋哑人与正常人沟通障碍问题的研究中比较多的是基于手语交互技术实现的。中科院计算机研究所研发了一套手语识别与合成系统。该系统由一副具有手势感应识别功能的手套和一台计算机组成。使用者的手势可以通过手套里的传感器和位置跟踪器进行识别，并把识别的信号经过计算机处理转换成相应的语音输出。由此可见人机交互技术在实现聋哑人无障碍交流中起着很重要的作用，但上述两种发明也存在着明显的弊端：使用不方便，无法大面积普及。我们想设计一种简便的，可以大面积普及的，结合当下手机在人们生活中的不可或缺性，我们想到了APP设计。我和我的小组成员们经过多次讨论，并深度分析了APP设计的可行性。我们认为APP的主要功能在于通过图像识别将手势转换成语音以及将语音转换成文字显示出来，由此涉及到的系统有成像系统（拍摄系统）、图像识别系统、搜索系统、存储系统、转换系统和语音系统，其中识别系统又分为手势识别和语音识别。

二、APP视觉语言

一个APP的成功，视觉设计功不可没。上面说过了，我们APP的两大功能，这两大功能一定要放在最显眼，最容易被受众找到的地方。在威廉斯的《写给大家看的设计书》一书中凝练了设计的四个基本原则：亲密、对齐、重复、对比。以我们熟悉的“支付宝”为例，其首页排版设计就运用了这四大原则。上半部分的十二宫格运用的是亲密和对齐以及重复的设计原则，和中间位置又形成了对比。上半部分的十二宫格的重复很大的增强了视觉效果，但又不会让人感觉不舒服。在界面的中部位置的两大版块尤为吸人眼球，我认为我们的APP的两大功能中的识别手势转换语音功能应该放在这里，并适当的加大图标。当用户打开APP的时候，一眼就能看到这个功能。还可以像“十二宫格”那样，在界面的上半部分排列一些诸如学习功能、观看功能等等。总之，界面的设计一定要让用户看着舒服，并且用着方便。

三、APP设计的可行性分析

再说一下APP的功能，基于图像识别的手势转换语音功能，说的通俗一点就是通过APP拍摄聋哑人做出的手势，然后转换成语音说给你听;基于语音识别转换文字功能，就是APP会识别你说的语音，然后转换成文字给聋哑人看。在点开手势转换语音系统入口时，APP会自动启动手机的“照相机”，然后开始拍摄聋哑人做出的手势，并实时转换为语音通过手机声音系统播放出来。其中最难的在于手势识别环节，即“利用应用识别的相关技术自动辨识聋哑人做出的手势并将其转存为数字信息”，然后将数字信息处理为语音信息。数字图像处理与识别技术是一直是学者们热衷的研究方向，从而使得图像识别技术取得了迅速的发展。目前国内外在图像识别领域普遍使用的是卷积神经网络，对于各种场景下的图像识别有非常好的效果。采用此图像识别系统作为手势图像处理的“中转站”是非常可行的。

如果说图像识别系统是APP的核心，那么存储系统则是基础，语音系统是它的外联，而搜索系统则是连接图像识别系统和存储系统的枢纽，转换系统又是连接搜索系统和语音系统的枢纽。拍摄系统将图像传达给图像识别系统，接下来就是搜索系统和存储系统的运行了。要说计算速度最快、存储容量最大的当属“云”技术。现如今，“云”技术在手机上的应用也是蓬勃发展，大部分手机都会带有“云”存储。我们将会尽可能的，录制更多的聋哑人在日常生活中所用到的手势，形成一个文件包，在用户下载APP的时候，和APP一起被下载到用户的手机中，设置它的默认存储路径为“云”存储。当图像识别系统做出反应后会连接搜索系统，搜索系统会在存储空间进行搜索配对相对应的手势。在这里，我们必须要保证搜索系统的搜索速度和准确性。全文搜索引擎是目前广泛应用的主流搜索引擎，国外代表搜索是Google，国内有最大中文搜索百度。它们从互联网提取各个网站的信息，建立起数据库，并能检索与用户查询条件相匹配的记录，按一定的排列顺序返回结果。根据搜索结果来源的不同，全文搜索引擎可分为两类，我们要采用的这类是拥有自己的检索程序，俗称“蜘蛛”程序或“机器人”程序，能自建数据库，搜索结果直接从自身的数据库中调用。我们将采用此搜索方法，从“云盘”里直接检索数据，然后再将数据信息发给转换系统。转换系统就比较简单了，就像微信里把语音转换为文字一样，这里是将搜索到的数据信息转换为语音信息，利用手机自带的系统就可以实现。转换为语音信息以后发送给语音系统，然后再播放给用户听，就实现了手势转换语音。基于语音识别转换文字功能就更简单了，通过识别用户的语音，转换成数据信息，从存储数据库检索到对应的文字信息，然后在APP上显示出来，就实现了语音转换文字。

四、结语

在整个APP设计过程中，人机交互一直贯穿始终。我们希望，我们的人机交互技术为保障的基于图像识别手势转换语音APP能够真正的帮助到聋哑人，让他们能更好的融入这个社会！

参考文献：

[1]陈文全.便携式聋哑人语音表达系统的设计[D]中国计量学院，2014：17-20.

[2]威廉斯（美）蘇金国、刘亮译.写给大家看的设计书[M]，北京：人民邮电出版社，2009：12-35.

[3]蒋树强，闵巍庆，王树微.面向智能交互的图像识别技术综述与展望[J]，计算机研究与发展，2016（01）：113-122.

基金项目：

本文为国家级大学生创新创业训练项目：“基于图像识别的手势转换语音APP设计”（编号201911688014）的研究成果。