APP下载

新型盲人阅读器的设计与研究

2017-12-13万心媛宋萌赵渴欣王绎然刘千

电脑知识与技术 2017年33期
关键词:新型

万心媛 宋萌 赵渴欣 王绎然 刘千

摘要:随着现代社会物质文明的极大丰富与不断发展,精神文明也在以飞快的速度发展,社会福利制度不断健全。盲人作为社会的弱势群体,他们的需求和自我价值的实现理应得到我们更多的关注,秉承着这种人文关怀,本团队针对盲人特别开发了一款全新的盲人阅读器来帮助盲人朋友解决日常生活的困难。本团队的盲人阅读器的创新点为两大技术体系的结合,分别为智能语音控制系统与盲人无障碍操作的结合和盲人阅读器中文字数据与声音数据的结合。可以预见,产品推向市场后,会带来非常好的经济效益、社会效益。

关键词:新型;盲人阅读器;智能语音

中图分类号:TP391 文献标识码:A 文章编号:1009-3044(2017)33-0198-04

Abstract:With the great enrichment and continuous development of material civilization in modern society, spiritual civilization is developing at a rapid pace, and the social welfare system is constantly improving.The blind as a social vulnerable groups, their needs and the realization of self-worth deserves more attention, uphold this humane care, the team specifically for the blind development of a new Of the blind reader to help blind friends solve the daily life of the difficulties.The team's blind reader's innovation is a combination of two major technical systems, namely the combination of intelligent voice control system and blind barrier-free operation and the combination of word data and sound data in blind readers.Can be expected, the product to the market, will bring a very good economic and social benefits.

Key words: Artificial intelligence; intelligent voice interaction; reading screen software; blind gestures; barrier-free voice verification

在当今社会中,绝大多数的文字内容都以可视化的信息出现,而盲人及视障人士无法像正常人一样进行阅读。在当今学术领域对盲人阅读器研究的文章众多,比如:2013年,《大连理工大学出版社》发表了一篇名为《盲人阅读器的研究与开发》的文章,该文的主要方向是研究盲人阅读器系统,该系统能够实现将待阅读文本进行图像采集,然后利用图像处理技术完成图像中文本的提取和文字识别,最后对识别的文字生成音频输出[1]。我们在此基础上进行大胆的技术创新与结合,致力于通过人工智能与盲人无障碍操作的结合以及文字数据与声音数据相结合,将新型阅读器打造成为一个新型的智能系统,解决盲人由于视力障碍造成的无法正常阅读的难题。我队研发的盲人阅读器主要是理念创新,将现有的诸多技术进行结合,经过反复的调试和改进,该系统可以更好地实现盲人阅读器的功能。

1 智能语音控制系统与盲人无障碍操作的结合

1.1 智能语音交互技术分析

智能语音交互技术属于多学科交叉的边缘学科,涉及语言学、心理学、工程和计算机技术等领域,不仅要对语音识别和语音合成技术进行研究,还要对人在语音通道下的交互机理、行为方式等进行研究[2]。智能语音交互是基于语音输入的新一代交互模式,通过说话就可以得到反馈结果。典型的应用场景—语音助手。自从iPhone 4S推出SIRI后,智能语音交互应用得到飞速发展。中文典型的智能语音交互应用如:虫洞语音助手、讯飞语点已得到越来越多的用户认可。

1.1.1 智能语音交互技术起源与发展

首先,硬件联网阶段,硬件接入互联网,获取云端信息,进行远程操控,达到互通互联。接下来,进入硬件智能交互阶段,人可以與硬件直接通过语言交流,通过语言获取各种服务。最后进入硬件智能化阶段,硬件具备学习、感知、决策的能力,会了解主人的性格、情绪和习惯,具备云端大脑,具有决策能力,能够更好地为主人服务。

在这整个实现的阶段,AI 技术将作为基础设施推动整个智能硬件从联网阶段到智能化阶段的进程,让所有机器都是成为具备智慧的机器人,最终由万物互联走进万物智能时代。

从技术层面上讲,AI 技术主要包括:语音识别、自然语言处理、计算机视觉。AI 成为物联网时代最重要的基础设施之一,相关核心技术就是组成基础设施的核心管网。

在 PC 时代,键盘是最重要的交互方式,智能机时代,触屏是最重要的交互方式,而物联网(机器人)时代,语言将成为最重要的交互方式之一。这意味着未来整个机器人生态链,从上游的芯片、方案到终端产品研发,从系统底层机器人OS,到上层 UI,应用开发,数据存储,内容呈现等等从都必须围绕语音交互这种新的交互方式。

那么由此可见,掌握语音交互核心技术的平台级公司未来或许会发挥巨大的价值,比如,唤醒、远距离语音识别、语义理解等。

就目前来说,语音交互技术主要有以下几条线路。

第一:语音交互技术的应用从下游终端往上游方案商、芯片走,形成软硬一体化解决方案,出货量数量级倍增。

第二:从车载、智能家居、玩具等垂直领域场景率先爆发,出货量达百万级别,语音交互成为标配。

第三:语义识别需求爆发,与内容和场景紧密结合。

语音识别需求爆发后,语义识别(即自然语言理解)需求也随之爆发。语音识别是将一段音频变成文本,但这段文本是什么意思,就需要进行语义解析。当智能硬件机器人能听会说之后,更重要的是让其和人一样学会理解和思考,而且这种理解和思考需要与特定领域和场景相结合。

目前语音技术的应用场景和产品还不够多,当未来亿万家庭中的数十亿设备以语音交互作为主流交互方式,这条管道像太平洋那么粗时,万物智能时代就真正来临了。

1.1.2 智能语音交互技术研究现状

在产业化的过程中,感知、认知和通用智能是三个不断深化发展的过程。目前语音交互技术正在经历着从感知智能向认知智能的飞跃,不仅要让机器听见,更要让机器听懂并反馈有效信息,甚至自主做出决策。但语音交互与具体场景的融合仍需要时间来逐步成熟[3]。

1.2 盲人无障碍操作技术体系

1.2.1 读屏软件的技术优化

读屏软件的工作原理就是将可见的信息转化成语音,通过扬声器播报出来,或者可以理解成读屏软件加上喇叭就是另一个显示器,只不过是用声音来展示的显示器。读屏软件的任务抓住屏幕上的文字,把它们传送到语音合成单元,用户可以用他们自己的方式阅读屏幕的内容[4]。

需要强调一点的是,读屏软件是被动型发音的,他是受人控制的,要他读哪里他就读哪里,这其实与鼠标的移动有些类似。

问题可以转换成如何将可见的信息转化成语音播报出来?

windows有专门的可访问性接口,提供给在windows平台下开发应用程序所用的无障碍接口。ios系统也有专门的可访问性接口,adobe也有专门的接口,w3c也有专门的web可访问性规范。

所以,只要开发者在做产品研发的时候,遵循这些已有的规范,就完全可以提供给盲人很好的使用体验,给盲人无障碍的操作体验。

1.2.2 盲人专用手势技术分析

在针对盲人的智能产品界面设计中,手势的设计也是必不可少的,研究表明:无论是早盲(包括出生即盲)还是晚盲都具有良好的空间感知及在空间中画出正确形状的能力[5]。盲人专用手势技术被首次广泛应用于乔布斯创造的iphone手机,对盲人来说,从传统的按键手机到触屏手机是一次巨大的转变。这意味着盲人不再能通过对于按键凸起的感知来操作手机 ,而手机操作的界面变成了一块完整、光滑的平板,那么如何将触屏手机上的操作界面被盲人所感知成为了一个亟待解决的技术难题;并且,触屏手机的稳定性与安全性也是值得开发者深入思考的。Iphone4手机注意到了这一点,将操作界面统一归拢于一起,让操作界面变得易于被盲人所感知。可是好景不长,随着iphone手机的系统升级,为了将手机的操作方式变得更为炫目,满足明眼人的更多娱乐需要,将盲人专用手势技术一再压缩。后来更新换代的更多系列手机更是为了满足明眼人的更多娱乐需求,同时为了压缩成本,厂商的利益倾轧,将盲人专用手势技术完全减除。可以说盲人专用手势技术还未完善,就已经被扼杀在摇篮中。而中国的很多触屏手机生产企业对于无障碍技术的开发意识更为淡薄,盲人专用手势技术在中国的开发进程极为缓慢,甚至陷入停滞的境地。

手势的设计是采用具有文化、地域的兼容性通用符号来作为手势的[6]。本团队的盲人阅读器作为一个触屏阅读器,致力于进一步开发盲人专用手势技术,重新研究已经快要陷入停滞的盲人专用手势技术的开发。我们团队对于盲人专用手勢技术的研究主要将延伸于以下几个方面;第一点,将盲人阅读器的所有操作统一于一起,通过长按盲人阅读器的侧部开关即可启动盲人阅读器总操作开关。在长按启动开关的同时,伴有智能语音控制系统的帮助,即伴有语音提示,通过语音介绍手机的基本功能,将这些功能通过编号的方式体现出来。盲人用户通过喊出编号即可进行对该项功能的开启。

1.2.3 盲人无障碍语音验证系统

随着信息社会的不断发展,人们对于信息的保密要求也不断提高。例如最基本的网上购票系统,通常会需要输入一系列的验证码来保证是用户本人进行操作,保证用户操作环境的安全。但是身为盲人这样的视障群体,看不见就对他们进行个人身份的验证产生了诸多阻碍。就会出现“我不能证明我是我自己”这样尴尬的问题。

就此,本团队的盲人阅读器将致力于开发专门为盲人用户设计的“盲人无障碍语音验证系统”。基于语音身份验证简单来说就是说话人识别。它是一个通过对说话人语音信号的分析和特征提取,自动确定说话人是否在所记录的说话人集合中,进而确定说话人是谁的过程[7]。通过和主要购票软件合作,设计盲人专用验证码,购票的全过程将由本团队盲人智能语音控制系统操作,在输入验证码的时候,通过语音提示数字加汉字或英文字符方式,盲人通过触摸阅读器盲点智能键盘来实现验证码的输入。这个问题解决以后,不仅能用在盲人购票上,在其他社交软件及电子支付平台上,也可以通过这种方式确保盲人的财产,个人信息安全。将此技术推广开来,将使盲人用户受益匪浅。

1.2.4 盲人无障碍社交

此外,在盲人阅读器现有基础上可以添加人工智能系统。这种技术并不是多么的复杂,现在很多手机上也都有这种功能,类似Siri。所以如果要解决盲人想要通过QQ、微信与常人进行交流的问题,只需用类似的技术。我们可以在盲人阅读器上安装一个类似home键的按钮,当盲人想要打开通话界面、微信、QQ进行社交时,只需长按此按钮,人工智能化服务会根据盲人的语音指示打开本阅读器上安装的社交软件,之后盲人可以继续发出指示收听未读联系人的消息并对不同联系人的消息进行筛选,同样也可以通过发出指令的方式与指定联系人进行交谈。

1.3 智能语音交互技术与盲人无障碍操作体系的融合

本团队的盲人阅读器在解决上述提到的科技创新点后,将这些技术模块进行安装,配备于Android 7.1.1 正式版 ,因为相对于ios系统来说,Android 系统是一个开放系统,可以任意下载app与读屏软件,有利于本盲人阅读器智能语音交互系统与盲人无障碍操作体系技术模块的安装与融合。并且最新的Android 7.1.1 正式版在稳定性和安全性方面有了更多的提高,这为本团队盲人阅读器的所装载的应用运行的速度和稳定性提供了大量支持,以至于不会出现阅读器突然黑屏和系统崩溃的技术失误。

在智能语音交互技术体系与盲人无障碍操作体系的技术模块被安装在阅读器上后,接下来,本团队将致力于解决这些技术模块与Android 7.1.1之间的系统排异问题。将尽可能与技术部门合作,进行反复调试,运行。尽可能达到操作的简洁化与速度的快捷化。

体系融合后的操作方式将变得极为简单,本团队的盲人阅读器将尽力做到将复杂都解决在阅读器内部,而在盲人用户进行操作时,将变得简单,便捷,使本阅读器做到用户友好化。

以下内容,将对本阅读器的无障碍手势按键及智能语音按键进行介绍:

第一个无障碍按键即本阅读器的智能语音体系启动总开关中的社交功能键,位于本阅读器的屏幕最下部,类似于iphone4s的home键的按钮,这这就是控制着开关屏幕和启动智能语音控制系统中社交操作的总开关。

这个按键的功能分为两部分。

第一部分,当盲人用户短按此开关时,将控制着屏幕的开关;第二部分,当盲人用户长按此开关时,将会启动智能语音控制体系中的社交功能,人工智能化服务会根据盲人的语音指示打开盲人手机上的社交软件,之后盲人可以继续发出语音指示收听未读联系人的消息并对不同联系人的消息进行筛选,同样也可以通过发出指令的方式与指定联系人进行交谈。所有的过程都通过盲人用户的语音指示来完成,极大方便了盲人用户的操作,解决了盲人用户社交的困难。

第二部分,第二个无障碍按键即盲人阅读器总操作开关,位于盲人阅读器的侧部,通过长按盲人阅读器的侧部开关即可启动盲人阅读器总操作开关。在长按启动开关的同时,伴有智能语音控制系统的帮助,即伴有语音提示,通过语音介绍手机的基本功能,将这些功能通过编号的方式体现出来。盲人用户通过喊出编号即可进行对该项功能的开启。这是盲人阅读器总操作的第一种语音控制方式,将阅读器功能内容进行编号和介绍是以防盲人用户初次使用对于本阅读器的功能还不熟悉。在使用一段时间后,盲人用户可以通过将本阅读器进行系统升级的方式,在使用本阅读器时,直接通过喊出自己想要进行的操作,本阅读器将直接通过智能语音控制系统的控制,进行对此项操作的运行,这是盲人阅读器总操作的第二种语音控制方式。此按键还将负责盲人阅读器的无障碍语音验证系统的操作。本阅读器尽可能将阅读器的操作结合于一起,使得盲人用户的操作尽可能做到简洁,提高用户的效率,符合现代社会快节奏的生活。

1.4 盲人阅读器与物联网与现代“智造”的结合

1.4.1 盲人阅读器和物联网的结合

物联网是通过射频识别技术、红外感应器、全球定位系统、激光扫描器等信息传感设备,利用现代通信技术,把待识别物体与互联网进行连接,从而实现对物体的识别、定位、跟踪、监控和管理[8]。在未来的社区,去超市买东西,不用付款,可以直接将物品拿回家,云端就会通过物联网技术,识别谁拿走了东西,并且自动扣款。盲人阅读器可以与物联网技术结合,当盲人去超市买东西时,将盲人阅读器靠近产品,就会语音播放这款产品的名字、功能、注意事项等,让盲人也可以和常人一样购物。

1.4.2 盲人阅读器在生产过程中要和现代的“智造”理念相融合

“智造”一词源于中国的工业发展。现在中国已经进去了“工业4.0”,“中國制造2025”等时代,要将工业从过去的人工,推向信息化,自动化,智能化一体融合的时代。盲人阅读器也要“制造”,在生产过程中信息化:把握住各个环节的信息反馈,做无误的决策;自动化:生产过程要全自动化,增大容错率;智能化:通过人工智能控制机器,能使其自动处理一些问题。

2 文字数据与声音数据的结合

2.1 单片机技术分析

单片机是一种集成的电路芯片,它采用超大规模的集成电路技术把具有数据处理能力的中央处理器CPU、随机存储器RAM、只读处理器ROM、多种I/O口和中断系统、定时器/计时器等功能(可能还包括显示驱动电路、脉宽调制电路、模拟多路转化器、A/D转换器等电路)集成到一块硅片上构成的一个小而完善的计算机系统[9]。

单片机开发系统是指单片机开发调试的工具。单片机自问世以来,性能不断提高和完善,其资源又能满足很多应用场合的需要,加之单片机具有集成度高、功能强、速度快、体积小、功耗低、使用方便、价格低廉等特点,正在逐步取代现有的多片微机应用系统。

2.2 音频信息处理技术

数字音频:在计算机中音频必须以数字形式表示,因此,必须把模拟音频信号转化成有限个数字表示的离散序列,这称为音频数字化。

采集与量化:获得数字音频需要采样技术和量化技术。采样是每间隔一段时间读取一次声音信号幅度,使声音信号在时间上被离散化。量化是把采样得到的声音信号幅度转化为数字值,是声音信号在幅度上被离散化。

获得数字音频的主要硬件是从模拟到数字的转换器(A-D 转换器),由他完成音频信号的采样工作,这一过程需要下面三个重要的指标来控制。

采样频率:指每秒钟采集声音样本的个数,采样频率越高,声音的保真度越高。量化位数:指每个声音样本需要用多少位二进制数来表示,常用的有八位、十二位和十六位。样本位数越多,声音的质量越高。声道数:指所使用的声音通道的个数。声道个数是指记录声音时,如果每次生成一个声波的数据,称为单声道;每次生成两个声波数据,称为双声道(立体声);每次生成两个以上声波的数据,称为多声道(环绕立体声)

采樣频率、采样精度和声道数决定了声音的音质和占用的存储空间,他们之间的关系是:存储容量=采样频率*量化位数/8*通道数*时间

2.3 单片机与数据库的智能链接

数据库是按一定的结构和规则组织起来的相关数据的集合。是综合各用户数据形成的数据集合,是存放数据的仓库[10]。

我们可以在阅读器内部的芯片(也就是单片机)上嵌入所需程序,智能链接一个数据库,数据库里存放多种数字音频数据,比如鸟叫声,流水声,雷声,雨声,鞭炮声……各种不同的声音数据对应着春天,流水,雷,雨,鞭炮这些汉字在计算机中的二进制码。当阅读器阅读到这些文字时,文字数据和声音数据就会进行二者之间的对应转换,从而达到读到相关文字时就会听到对应的音乐这样的效果。具体而言就是:当阅读器识别到“春天”二字时,会伴随清脆的鸟叫声;当扫描的文本中出现“鞭炮”、“流水”等汉字时,会伴随喧闹的鞭炮声或者悦耳的流水声等等。这是本团队盲人阅读器的另一大技术特色。

这样,盲人在利用本阅读器进行阅读时,可以通过本阅读器这样情景再现的方式,对于文本内容有更加直观、形象的理解。使盲人读者身临其境,让盲人用户处理视觉以外的其他感官被充分地调动起来,满足盲人朋友的更多需求。

3 结束语

本文重点阐述了盲人阅读器的基本原理与技术创新点,然后根据市场实际情况与政策环境,开展了一系列调研。在研究方法上,本文主要采用技术原理分析法、问卷调查法、实地调研法等方法,取得了市场的实际情况以及盲人朋友的真实需求情况。研究结果表明,本盲人阅读器运用科学的研究方法,不仅对盲人智能领域的技术进行了深入创新研究,并且将已有智能技术与创新技术进行结合。能够较好满足盲人朋友的生活、学习、娱乐等多方面的需求。

参考文献:

[1] 白雪英子. 盲人阅读器的研究与开发[D].大连:大连理工大学,2013.

[2] 胡郁,严峻. 智能语音交互技术及其标准化[J]. 信息技术与标准化,2015(4):14-17.

[3] 李志刚. 智能语音:从交互革命到人工智能入口[J]. 电器,2017(1):24-25.

[4] 孙静. 网站可达性及视障用户读屏软件可用性研究[D].大连海事大学,2006.

[5] 边坤. 基于视障人士信息产品界面的交互设计研究[J]. 包装工程,2016(24):156-159.

[6] 邹志丹. 基于盲人使用的电子产品通用化研究[J]. 装饰,2009(5):120-121.

[7] 周娜. 基于TMS320C6713的小型语音身份验证系统的设计及实现[D].华北电力大学,2009.

[8] 燕妮. 浅论物联网技术的应用研究[J]. 科技信息,2013(19):81+94.

[9] 赵亚转. 浅谈单片机应用与单片机芯片——兼对八位单片机学习的感想[J]. 科技传播,2010(8):111-112.

[10] 陈黎. 我国数据库的发展现状与趋势[J]. 现代情报,2006(11):138-140.

猜你喜欢

新型
建筑新型装配整体式混凝土结构的施工技术
官商交往要守住哪些底线
浅析新型建筑防水材料
新型农业经营主体需求导向的农业推广研究
新形势下电力市场营销模式与新型电价体系的研究
农民发展致富途径