基于语音交互与人体姿态识别的独居老人智能陪护系统

2021-07-11黄一明吴斌蔡培森余亚东

电子设计工程 2021年13期

黄一明，吴斌，蔡培森，余亚东

（绍兴文理学院数理信息学院，浙江绍兴 312000）

中国自20 世纪末进入老龄化社会以来，老年人口数量快速增加，老年人口占比大幅攀升。2000 年至2018 年，60 岁及以上老年人口从1.26 亿增加到2.49 亿人。同期，老年人口占比从10.2%上升到17.9%，提升幅度是世界平均水平的2 倍多。与庞大老年群体相对的是养老资源的供给难以满足养老需求[1-2]。此外，由于老人子女工作繁忙，平时都不在身边，更没有条件和时间顾及独居老人，因此如何在日常生活中持续照顾和监护独居老人的生理及心理健康，破解当前养老困局成为当下社会亟待解决的问题。

随着互联网、人工智能等技术的飞速发展，传统养老行业迎来了全面的转型升级。智慧养老的发展将会突破传统养老在居家照顾、出行、安全保护、健康管理、精神关爱等5 个方面的难点。文中介绍了一种基于语音交互与人体姿态识别技术的独居老人智能陪护系统，老人可以通过语音与系统进行交流，询问新闻、天气等信息，系统也可以通过实时视频监控，监测老人的安全，当发生意外时立刻向子女发送报警信息。

1 系统总体设计

基于语音交互与人体姿态识别技术的独居老人智能陪护系统主要分为3 个功能模块，即人体姿态识别、异常行为报警以及智能语音交互。系统设计框图如图1 所示。

图1 系统设计框图

1）人体姿态识别：通过摄像头对运动目标进行检测，针对目标检测的结果，经过一定的筛选后建立混合高斯背景模型，并进行形态学处理，再对运动目标建立外接矩形窗，通过矩形窗的高宽比来判断老人是否发生跌倒行为。

2）异常行为报警：报警采用声响以及通过GPRS/GSM 通信模块自动推送数据到子女手机，当触发异常行为报警后，将报警时间以及地点等信息存储到本地数据库中，同时在系统运行过程中，采用循环覆盖的方法存储由相机采集到的图像画面，一旦发生警报，则将这些图像组合为视频保存到本地数据库中。

3）智能语音交互：当系统被关键词唤醒时，语音交互模式启动，利用开源在线的科大讯飞SDK 对老人的语音信息进行语义识别与合成，并针对语音信息利用数据挖掘进行网络数据爬取，获取相关信息，如了解实时新闻、天气状况以及音乐播放等，满足老人的日常需求。

2 系统硬件设计

2.1 主控板

系统采用树莓派4（Raspberry Pi 4）作为主控中心，它是一款ARM Cortex-A72 架构的微型计算机，搭载1.5 GHz 的64 位四核处理器，4 GB LPDDR4 内存，支持Linux 操作系统的运行，具有OpenGL ES 3.0 GPU，支持HEVC/ H.265 视频的4kp60 硬件解码，并提供了CSI 排线接口和USB 2.0 与USB 3.0 数据传输端口，能够连接CSI 摄像头或者USB 通用摄像头；同时还具有多种串行、并行、PWM 等扩展引脚。

树莓派4 微型计算机体积小巧、功耗开销低、价格低廉、性能强大并且具有丰富的可拓展资源，是非常理想的主控中心平台，可快速得到硬件支持。

2.2 传感器模块

2.2.1 图像传感器

图像传感器是利用光电器件的光电效应，将感光面上的光信号转换为与之成相应比例的电信号的一种传感器。系统采用基于CSI 排线接口的单目摄像头，其搭载Sony IMX219PQ 图像传感器，具有高速视频成像和高灵敏度的特点。该摄像头模块在面对如固定模式噪声和拖尾效应等图像污染时具有十分良好的抑制作用，同时，还具有曝光控制、白平衡和亮度检测等自动控制功能。此外，该摄像头具有在黑暗环境中进行摄影的能力，使系统在夜间也能监测独居老人的行为活动，符合系统设计要求。

2.2.2 语音采集模块

系统使用ReSpeaker 4-Mic 阵列作为语音模块，它是一块适用于AI 和语音应用的四通道麦克风模块，具有I2S/TDM 输出转换功能的高度集成四通道ADC，拾音半径为3 m，可捕获高清晰度语音，因此使用ReSpeaker 4-Mic 阵列可以很好地契合该系统的设计。

2.2.3 GPRS/GSM通信模块

系统GPRS/GSM 通信采用希姆通公司推出的SIM900A 无线通信模块。SIM900A 是一款支持双频GSM/GPRS 的无线通信模块，其GPRS 的最大数据速率可达上行85.6 kbps，下行42.8 kbps。同时，模块还具有尺寸小、功耗低、环境适应性强等优点。此外，模块支持语音通话、SMS 短信以及全球GSM 网络，能够很好地支撑系统设计需要的紧急报警功能。

3 系统软件设计

系统软件设计基于Ubuntu 操作系统，人体姿态识别采用OpenCV 开源计算机视觉库，根据独居老人姿态的改变判断老人是否发生意外跌倒；语音交互设计将利用科大讯飞SDK 实现[3-6]，通过Python 灵活便捷的代码风格设计爬虫程序，通过爬虫将语音采集模块捕获到的语音信息进行爬取，得到各大新闻网站相关的时事资讯、气象信息以及音乐等。

3.1 语音交互设计与实现

系统采用的语音交互主要由语音数据采集层、智能语音系统层和语音数据处理层3 部分组成，如图2 所示。系统通过语音采集模块ReSpeaker 4-Mic阵列接收独居老人的语音数据，实现语音输入，智能语音系统层将对输入的语音数据进行处理，并通过爬虫技术实现相应网络数据爬取[7-9]，进而获得老人获取需求的信息。

图2 语音交互流程图

其中，对于语音数据处理的关键技术实现主要包括语音识别（ASR）、语义处理（NLP）和语音合成（TTS），如图3 所示。该系统采用科大讯飞开源语音开发平台实现语音识别与语音合成的功能。将采集到的老人的语音信号转化为文本数据信号后输入至自然语义处理系统，从识别出的文本数据信号中读取关键信息从而理解老人的需求，而图灵机器人作为一个开源的自然语义处理云计算引擎，能够抓取语音中与老人需求相关的重要数据，从而为进行逻辑处理做出相应反馈。语音合成是将文本数据信号转换成音频信号，通过输出播放设备反馈给老人。

图3 语音处理关键技术框图

3.2 人体姿态识别设计与实现

3.2.1 设计思路

人体姿态检测技术在国内外的发展都已相对充分。目前，主要有3 种方案，分别是基于外围环境传感器的检测、基于可穿戴设备的检测以及基于计算机视觉的检测，因为基于计算机视觉的检测方法具有无侵入性、易于使用的特点十分契合系统的需求，因此该系统采用此方案实现人体姿态识别。

姿态识别的主要处理步骤：首先，系统通过图像传感器采集视频图像，并对识别目标进行检测；然后，利用混合高斯背景模型对视频图像中的运动目标进行提取；再通过形态学、滤波等处理使提取出的目标轮廓边缘更加清晰、内部更加充实；再对运动目标进行特征提取，采用常见的最小外接矩形提取方法，此外在特征提取前，先标记出感兴趣的区域；最后，通过外接矩形窗口的宽高比判断目标是否发生跌倒行为，姿态识别流程如图4 所示。

图4 姿态识别流程图

3.2.2 混合高斯背景建模算法

混合高斯模型[10-14]是应用最广泛的背景建模算法，是对单高斯模型的改进，在背景多模态现象下具有优秀的鲁棒性。在混合高斯背景模型中，视频图像彼此之间的颜色信息被认为是不相关的，并且每个像素点的处理彼此独立。对于视频图像中的各个像素点，其值的变化在序列图像中可以看作是连续生成像素值的随机过程，也就是说高斯分布能够用于描述每个像素点的颜色规律。对于多峰高斯分布模型，通过叠加具有不同权重的多个高斯分布来给图像的每个像素建模。每个高斯分布对应一个可能产生图像上各个像素点所呈现颜色的状态。而高斯分布的权重和分布参数则随每一帧图像的获取进行实时更新。

当处理彩色图像时，假定图像像素点R、G、B 三色通道彼此独立并且具有相同的方差。对于随机变量x的观察数据集{x1,x2,…,xN}，其中xt=(rt,gt,bt)是在t时刻像素的样本，用混合高斯模型为其建模，定义当前观测点像素值的概率为：

其中，k为高斯模型的数量，η(xt,μi,t,τi,t)为t时刻第i个高斯分布；μi,t为其均值；wi,t为t时刻第i个高斯分布的权重。

η(xt,μi,t,τi,t)为高斯概率密度函数，公式如下：

τi,t为其协方差矩阵，公式如下：

其中，δi,t为t时刻第i个高斯分布，I为三位单元矩阵。

3.2.3 形态学处理

运动目标图像通过混合高斯背景建模被提取出来，并经过腐蚀膨胀[15-16]将运动目标图像缩小或放大，从而可以分割出完整的人体轮廓。

1）腐蚀是消除图像无用点的过程。质数点设置了阈值范围，以消除无关的细节。

2）膨胀是腐蚀的对偶运算，通过与腐蚀阈值的逆运算，可以将裂缝桥接起来填补目标空洞。

3.3 异常行为报警设计与实现

当系统检测到老人发生跌倒行为时，系统会自动记录下发生跌倒行为时的一帧图片，并触发室内安全警报[17]，通过GPRS/GSM 无线通信模块立即将老人跌倒的信息发送给子女手机，实现异常行为报警。

4 系统测试与分析

系统通过语音关键词被动唤醒语音交互功能，通过对输入语音进行识别、处理、合成，实现相应的应用需求[18]。通过网络爬取相关信息，响应速度较快并且与语音需求的匹配度较高，反馈的信息较为准确。对于姿态识别测试部分，通过多组数据可以得出正常行走、坐下、蹲下和跌倒4 种姿态时的外接矩形宽高比，利用各个姿态之间不同的外接矩形宽高比可以较准确地判定当前老人的行为，为了防止对跌倒行为的误识别，系统将在检测到摔倒行为时持续判定，若30 s 后系统仍检测到老人行为是跌倒状态时，便触发报警模块及时告知子女。

5 结束语

系统将语音交互、人体姿态识别技术与智能陪护相结合，保障独居老人生理健康安全，同时为老人提供智能语音服务改善独居老人日常生活的孤独感，满足独居老人的精神需求，为独居老人提供更加安全、便捷、智能的养老服务体验，响应智能养老建设的号召[19]。

文中通过对基于语音交互与人体姿态识别技术的独居老人智能陪护系统各功能的设计及实现，较完整地阐述了系统各个模块的功能测试及其之间的相互联系、相互作用，以实现相关功能的过程，并对相关功能进行了一系列测试，测试结果表明系统的整体性能较优良，达到了预期的设计目的。今后还需进一步完善系统的稳定性及可靠性，不断改进智能陪护系统的功能。