基于卷积神经网络的盲人无障碍阅读系统
2022-08-19刘世鹏林晓然李慧颖曾文献通讯作者
刘世鹏,张 硕,林晓然,李慧颖,高 帆,刘 轩,曾文献(通讯作者)
(河北经贸大学 河北 石家庄 050000)
0 引言
为解决目前国内市场盲人阅读器的价格高昂、携带不便等问题,本文基于卷积神经网络研发了盲人无障碍阅读辅助系统。本系统使用多种模型进行建模,通过三维手势识别技术,有效捕捉待提取的文字与图片,并通过语音的表现形式反馈给盲人用户,使其获取视觉信息,有效解决了目前国内市场盲人阅读器存在的问题,保障了阅读困难群体的读书需求。
1 国内外发展现状
1.1 国外发展现状
德国雷伊·库尔兹维尔在美国盲人联合会的赞助下,开发了世界第一台盲人阅读器。随着人工智能技术的不断发展,世界上第一台诺基亚便携式盲人阅读设备Knfb Reader Classic 成功上市,售价约为3 500 美元,由于售价较高导致未能在市场广泛应用。近年来,随着计算机发展,盲人电子阅读器有了更全面的进步,但存贮空间大、成本较高等缺点未得到解决。国外市场相关的盲人阅读系统没有代表性产品,相关市场极为空缺。
1.2 国内发展现状
目前我国视力障碍者共有1 700 余万,另有阅读障碍者5 500 余万。近年来,市场上盲人阅读相关产品及技术研发也有了较大进步。
(1)2013 年,张子卿[1]设计出基于FPGA 的盲人阅读器,整个系统共包括图像收集、图像缓存和图像展示3种功能,用Verilog 的硬件描述语言完成,文字识别板块则通过搭建的SOPC,在NiosII IDE 条件下则通过C 语言编程来完成。文字图像处理分为预处理、特征提取和匹配识别。但是相比我们的盲人无障碍阅读系统,基于FPGA的盲人阅读器不是实时进行的,只能人工进行图片输入,盲人自己不能完成该工作,大大降低了使用的方便性,且特征提取运算量远远大于mobilenet 小网络,不能便携式携带,具有一定的局限性[1]。
(2)2020 年,湖北文理学院物理与电气工程学院以STM32 单片机为主控核心,将OCR 模块和TTS 模块有效融合,通过双摄像头模块实现文本信息的获取,并使用OCR 程序来实现图像输入、预处理、二值化、消除噪声、文本的倾斜校正、文本裁剪、字符识别、版面回府、后处理过程校对的功能。通过智能语言系统来识别手盲人的指令,并即时地将录入信息输出语音完成阅读。但是以STM32 为控制核心的辅助视障人群的阅读器将重心放在了预处理和数据库对比上,设计的OCR 文字识别技术在性能上较差。
通过对近年来相关产品的调查及分析,我们了解到现有产品的技术大多存在携带不便、价格昂贵、输入复杂、受众单一和信息读取不全等缺陷,本文的无障碍阅读系统在使用OCR 文字识别和TTS 文字转语音技术之外,还使用BlazePalm 手势识别技术解决了需要人工输入图片信息的问题,盲人用户可以自主完成阅读,不需要人为参与[2]。此外,本文无障碍阅读系统安装APP 即可使用,产品成本低,在社会上有较好的普及。
2 系统优势
本文盲人阅读辅助系统作为用户功能型产品,为以盲人为主体的视力障碍者,兼顾幼儿和中老年等一系列阅读障碍人群打造。本系统借助机器视觉和深度学习,最终呈现为智能阅读眼镜的形式。盲人用双手触摸书籍左上和右下的书角,眼镜上的智能摄像头即可通过捕捉盲人的手势来确定所阅读书本的位置,并利用文字识别对书本内容进行识别,识别后采用语音合成技术对内容进行语音输出,做到让视力障碍者可以无障碍阅读不同的书目。同时智能眼镜作为盲人服务型产品,与市面上其他产品相比更便携,价格也更为低廉,满足了困难群体、特殊群体的基本阅读需求,系统主要优势如下。
2.1 文字检测与识别
图像采集通过使用手势关键点检测技术来弥补当前文字检测技术不精准和识别率低的问题,大大提高了文字识别的准确性,能使盲人群体通过手势来进行精准阅读,提高了书本阅读的普及性。
2.2 自动语音交互
本系统融合文字转语音和语音交互两种技术,语音提示功能和语音交互功能实现了盲人的数据可视化。
2.3 小规模的多种模型相结合
本系统采用的手势关键点检测、文字识别和语音交互模型均为小规模模型,可以减少大量运算,并且通过特征点的快速匹配可以实现实时检测识别。
3 技术方案
3.1 实现流程
针对本文盲人阅读系统的研究目标、内容和关键问题,拟在数据采集与预处理、手势识别、OpenCv 帧数据截取、OCR 文字转换和TTS 音频转换方面展开研究工作。采用网络爬虫、BlazePalm 手势识别、OCR 技术、TTS 技术和ASR技术实现针对以盲人为主的多种用户的多功能阅读系统,具体路线见图1。
3.2 手势的采集与识别
3.2.1 数据采集与预处理
收集日常生活、运动中最常见的手势图片以及Google、百度、京东等近年来比赛数据,使用POINT CLOUD ANNOTATOR 工具人工对图片中手势进行关节的关键点标注,得到准备好的训练数据,见图2。
3.2.2 BlazePalm 手势识别
手势识别通过目标检测、关键点检测、手势推导来实现[3]。使用BlazePalm 单镜头检测模型进行目标检测,检测出手掌后使用Hand landmark 模型对已经标注好的数据进行训练,最后使用Gesture Recogntion 手势推导识别手势的意思,若意思为1 则表示用户确认准备好。三维手势关键点识别见图3。
3.2.3 OpenCv 帧数据截取
待手势确认后使用OpenCv 读取一帧图片,通过检测出的两个手指的位置截取出包含文字内容的矩形,进行5 次操作,截取出5 张图片,最后将5 张图片信息导入OCR 中。
3.3 文字识别
3.3.1 获取文字数据库
文字的数据集主要从Chinese Text in Wild (CTW)、Caffe-ocr 和近几年OCR 比赛中下载进行训练,通过在不同的数据集上挑选出合适汉字和英文两种语言的大量数据集,进行模型训练。“临”字数据集见图4。
3.3.2 OCR 文字识别介绍
OCR(Optical Character Recognition)即光学文本辨识,又叫文字识别,是对汉字自动录入的一种方式。它利用扫描和摄影等光学输入方法获得纸面上的文本图形数据,通过各种模式识别方法研究文本形状特征,可以把票据、报纸、图片、文件及其他印刷品转换为图形数据,然后通过文本辨识技术把图形数据转换为能够使用的计算机输入技术。
(1)传统文字识别模型卷积。伴随着深度学习的发展,为了解决更多实际问题和提高精度,神经网络有着向深度和宽度两个方向的发展,其中ResNet 通过残差模块加深网络深度[4];Google Inceptionl 网络通过Inception 模块增加网络宽度。虽然这些网络可以得到很高的准确率,但是其庞大的网络层和巨大的运算量使其不能在普通平台中实现实时的效果。图5 为传统卷积计算图。
(2)深度可分离卷积。深度可分离卷积主要包括两种过程,它们是DW 逐通道卷积计算(Depthwise Convolution)和PW 逐点卷积(Pointwise Convolution)。DW 逐通道卷积中的每个卷积核只与输入特征图中的一条通道发生卷积,输出同样大小的通道数。由于D W 逐通道卷积对每个通道进行独立的运算可以有效减少卷积计算量,但是这样却导致了不同通道相同位置的特征值[4],见图6。
PW 逐点卷积的算法和常规卷积算法十分接近,它的特点是卷积核呈1×1×M×N 卷积,可以用来处理DW 逐通道卷积时不能获得不同通道中同一区域的特征值的问题,通过PW 逐点卷积特征组合成新的特征图,见图7。
对图像分别进行了DB 文字检测,把检测出来的文字候选框转入给CRNN 文字识别,将文字识别结果按照自上而下,由左至右的先后顺序进行了保存,并将文本识别结果使用NLP 语义矫正和识别准确率的测评,选出5 张图片中识别率最高的结果,将识别好的文字结果保存到数据库中并标注为页数,最后将文字结果导入到TTS 中。
3.4 语音智能交互
3.4.1 语音和文本数据库导入
语音数据集和文本数据集主要从数据堂和阿里云、华为云等比赛中进行下载,其中数据堂中已经采集到了普通话、地方方言和外语三大语言种类,主要使用普通话和英语两种语言中特定的控制指令的数据集。
3.4.2 声学模型和语言模型
使用小规模DNN-HMM 声学模型对语音数据集进行声学训练,主要对控制指令的语音进行训练;使用N-gram 语言模型对控制指令的语言数据集训练识别。
3.4.3 语音识别
对输入的连续语音进行特征提取到解码器,解码器与小规模DNN-HMM 声学模型和N-gram 语言模型进行识别控制指令,通过不同的控制指令来改变语音速度。
4 研究成果
本文利用在计算机视觉领域的经验,研发的基于卷积神经网络的盲人无障碍阅读系统已经完成,系统运行效果见图8。
5 结语
十四五规划纲要中明确提出深入推动全民读书,积极构建“书香中国”,突出了国家保障经济困难人群、特殊群体的基本阅读需要,但对于盲人群体来讲,由于没有合适的阅读工具,他们仍面临着难以阅读的问题。本文提出了一种基于卷积神经网络的盲人无障碍阅读系统,主要通过盲人手指来确定所阅读书本的位置,并利用文字识别技术对书本内容进行识别,之后采用语音合成技术对内容进行语音输出,做到让盲人可以像正常人一样无障碍阅读不同的书目,保障了困难群体基本阅读需求。