APP下载

基于卷积神经网络的服务机器人听觉隐私信息分类算法

2020-08-04王怀豹杨观赐林家丞贵州大学现代制造技术教育部重点实验室贵州贵阳550025

贵州大学学报(自然科学版) 2020年3期
关键词:测试数据语音卷积

王怀豹,杨观赐,李 杨,林家丞( 贵州大学 现代制造技术教育部重点实验室,贵州 贵阳 550025)

随着人口老龄化趋势加快,越来越多的独居老人需要被照顾,人们对助老机器人的需求也越来越明显[1]。为辅助老年人日常生活,薛同来等[2]研究了基于激光SLAM的助老机器人,其拥有自主构建室内地图以及自主导航的功能,可以定位目标物体和自主移动,并使用机械臂对物体进行抓取。为解决老年人心理健康问题,刘策等[3]构建了具有语音识别、手势识别、人脸识别和远程控制功能的多模式友好交互系统,实现了注册与验证、移动控制、新闻点播、日程提醒及语音对话5种功能。与此同时,为给老年人提供科学合理的饮食建议,苏志东等[4-5]提出了基于服务机器人听觉的个体膳食构成自主感知算法,实现了对用户膳食构成的智能感知,为用户医疗诊断、饮食干预和机器人的主动服务等提供决策依据。为了应对老年人记忆力衰退的情况,Ahn Ho等[6]提出了一种基于家庭服务机器人的大脑训练方法,将记忆训练部署到机器人上,以增强机器人功能性。为增强老年人的体质,降低老年人摔倒的风险,Foukarakis等[7]提出了一种利用机器人视觉系统来识别和跟踪用户行为的方法,可以提供相关的练习和反馈来激励用户进行体育锻炼和康复训练。为满足老年人的远程护理需求,Zhou等[8]提出了一种基于服务机器人的远程医疗系统。该系统在家庭成员和医生之间建立连接,利用自动健康数据采集技术和目标检测算法,实现远程护理。然而,智能家居系统和服务机器人广泛使用语音监听设备,这存在用户隐私泄露的风险。

有研究表明,用户会因担忧语音监听设备泄露隐私而影响心理状态甚至引起心理障碍[9]。如何构建对隐私内容有符合人心理需求反应的系统,是值得深入研究的课题。为获得机器人听觉行为隐私感知方法,解决语音监听设备存在的隐私泄露的风险,本文提出了基于卷积神经网络的服务机器人听觉隐私信息分类算法。

1 基于卷积神经网络的服务机器人听觉隐私信息分类算法

卷积神经网络是受生物学启发而提出形成的一种前馈神经网络,利用局部连接和权值共享特性,减少模型参数,并具有平移、尺度和视角不变性[10]。卷积神经网络不仅在图像分类领域贡献巨大,而且在自然语言方面也取得了引人注目的成果[11-13]。针对机器人听觉行为隐私感知,本文提出了算法1所示的基于卷积神经网络的服务机器人听觉隐私信息分类算法(Social Robot Auditory Privacy Information Classification Algorithm based on Convolutional Neural Network, APICA)。图1是卷积神经网络模型。

图1 卷积神经网络模型Fig.1 Convolutional neural network model

算法1基于卷积神经网络的服务机器人听觉隐私信息分类算法

输入:训练数据集I;

输出:特征模型Mi。

步骤1对训练数据集I进行数据预处理,生成批量不同类别隐私的训练数据集Ii,I={I1,I2,...,Ii};

步骤2输入批量数据集Ii,经过Embedding层,利用word2vec生成相同维度的字向量,使每条文本数据的尺寸为(600,64);

步骤3经过卷积层,进行一维卷积,通过256个尺寸为5×1的卷积核,获得256个596×1的特征向量;

步骤4经过全局最大池化层,得到256个最大特征向量值;

步骤5经过第一个全连接层,后面接Dropout及Relu激活函数,防止过拟合,同时增加神经网络模型的非线性;

步骤6经过第二个全连接层,通过softmax函数计算出文本数据包含隐私信息的预测概率分布及其相应的损失值;

步骤7执行误差反向传播操作,用Adam算法优化更新特征模型Mi,满足设置条件后输出隐私特征模型Mi。

步骤1中,进行数据预处理时,首先考虑到程序在python2环境下运行的编码问题。在打开文本数据集时,把文本的格式编码成UTF-8格式,在处理文本时解码为Unicode格式,然后按以下步骤进行:①读取训练数据集Ii,构建列表contents,列表中的每个元素即为一条文本数据中的字和符号;同时构建列表labels,列表中的每个元素即为对应文本数据的隐私类别;并构建字列表words,列表中的元素即为训练集中的字和符号;②读取字列表words,由此构建{字:数字id}的字典D1;③读取分类目录,构建{隐私类别:数字id}的字典D2;④根据字典D1,将列表contents中每个元素包含的字与符号进行数字编码,即为列表date_id;根据字典D2,将列表labels中的每个元素进行数字编码,即为label_id;⑤经过padding,把列表date_id中的每一个元素填充为固定长度600,同时对标签进行one-hot编码;⑥生成批量训练数据集I={I1,I2,...,Ii}。

在运用算法1获得特征模型Mi后,可得如下所示的机器人的听觉隐私信息监听系统工作流程:

(1)获取听觉设备监听的语音数据S;

(2)加载隐私特征模型Mi;

(3)利用科大讯飞语音模块将语音数据S转化为文本数据T;

(4)利用隐私特征模型Mi,对文本数据T进行鉴定,从而判断所监听的语音信息中是否具有所关注的隐私信息,并输出隐私类别;

(5)如果监听结束,则卸载模型;否则转步骤(1)循环监听。

2 机器平台

图2所示为课题组搭建的服务机器人平台MAT[5,14],主要包括Intel NUC mini主机、EAI DashgoB1移动底盘、IPad显示屏、科大讯飞六麦环形麦克风阵列板、Microsoft Kinect V2深度摄像头、辅助传感器和数据处理器等。听觉系统采用的六麦环形麦克风阵列板具有声源定位、回声消除、噪声过滤等功能,用于实现对音频信号的采集;视觉采用的Microsoft Kinect V2深度摄像头用于采集RGB彩色图像;机器人上配备的GSM通信模块可以在紧急状况下与监护人进行通话。为减少机器人平台运算负荷,训练数据和数据分析由数据处理工作站完成。服务机器人主机安装了Ubuntu16.04操作系统、Kinect 版本 ROS(Robot Operation System)系统、TensorFlow CPU版本深度学习框架和机器视觉工具包Opencv3.3.0。课题组运用Python语言实现了APICA算法,并将其部署在MAT机器人上。

图2 服务机器人平台MATFig.2 Used MAT robot

3 测试与分析

3.1 训练数据集、测试数据集和性能指标

使用MAT服务机器人的六麦环形麦克风阵列收集训练语音数据。与此同时,考虑到法律、文化习俗、认知心理学等与隐私信息形成有关的因素,调研相关文献资料,收集、整理、归纳出家庭生活中涉及语音隐私信息的特殊场景,研究确定不同场景下所涉及的语音隐私内容特征,设计了以下6种场景:(1)对话内容涉及家庭人员出行计划的场景;(2)对话内容涉及家庭人员联系方式的场景;(3)对话内容涉及支付密码的场景;(4)对话内容涉及宗教的场景;(5)对话内容涉及贵重物存放处的聊天场景;(6)对话内容涉及言语批评朋友或者攻击双方父母的场景。

基于上述6种场景构建了包括7种类别的训练数据集:

(1)第1类数据 对话内容涉及家庭人员出行计划的场景,其对话内容中包含:①未来出行计划的时间名词;②未来出行计划的地理名词。

(2)第2类数据 对话内容涉及家庭人员联系方式的场景,其对话内容中包含:①联系方式的相关表达;②有关联系方式的数字。

(3)第3类数据 对话内容涉及支付密码的场景,其对话内容中包含:①支付密码的相关表达;②有关支付密码的数字和字母。

(4)第4类数据 对话内容涉及宗教的场景,其对话内容中包含:①某人是某宗教成员;②某人表达愿意加入某宗教;③某人喜欢、尊崇、信仰某宗教。

(5)第5类数据 对话内容涉及贵重物存放处的场景,其对话内容中包含:①贵重物品的名称;②对应贵重物品的存放地点。

(6)第6类数据 对话内容涉及言语批评朋友或者言语攻击双方父母的场景,其对话内容中包含批评或谩骂朋友或父母的词汇。

(7)第7类数据 不属于上述6种场景的对话,属于不包含隐私信息的数据。

测试数据集构建方面,对话内容通过网上收集和课题组成员构思获得。训练数据集和测试数据规模见表1。

表1 训练数据与测试数据规模Tab.1 Detailed information about the training and test datasets

采用精确率P、召回率R与综合评价指标F1值度量算法的性能。

3.2 测试结果与分析

在已搭建的服务机器人平台上部署设计的算法,将超参数设置为:迭代次数为3 000,卷积核数目为256,批处理参数为64,初始学习率为0.001,Dropout保留比例为0.5。测试数据识别结果的混淆矩阵如表2所示。精确率P、召回率R和综合评价指标F1值统计结果如表3所示。

表2 识别结果的混淆矩阵Tab.2 Confusion matrix of recognition accuracy

表3 P、R和F1值统计结果Tab.3 Statistical results of P, R and F1 %

观察表2和表3可知:

(1)第1类测试数据共75条,其中正确识别数为68条,错误识别的有7条,系统的精确率和召回率分别为93.15%和90.67%。核查识别错误的数据,发现识别错误的原因为:①对话未出现具体的地理名词,而是通过其中一般名词和方向名词可以推理出地理名词;②对话出现多个地理名词,且对话双方经过反复谈论出行计划但最终又否定出行计划。

(2)第2类、第3类和第5类测试数据分别有72条、76条和48条,系统的精确率和召回率均为100%。

(3)第4类测试数据共58条,其中正确识别数为54条,错误识别为类别7的有4条,系统的精确率和召回率分别为96.43%和93.10%。核查识别错误的数据,发现识别错误的原因为:对话内容中存在否定是某个宗教人员的话语,如“我不是佛教成员,我是基督教成员。”

(4)第6类测试数据共58条,其中正确识别数为42条,错误识别为类别7的有16条,其精确率和召回率分别为95.45%和72.41%。核查识别错误的数据,发现识别错误的原因为:①言语批评的对象为影视剧或历史人物;②一些词语在不同的语句中含义不同,例:“我身体不舒服,有点想吐”与“我每次看到我们领导都想吐”,这两句话中的“吐”字,用在不同的地方具有不同的语义;③语气导致的语义改变而导致识别错误。

(5)第7类测试数据共238条,系统正确识别229条,错误识别为类别1、4、6的数据分别有5条、2条和2条,系统的精确率和召回率分别为89.45%和96.22%。

综上,测试数据集共625条数据,系统正确识别数为589条,总体识别准确率为94.24%,平均精确率为96.35%,平均召回率为93.20%,综合评价指标为94.53%,系统具有很好的识别和分类效果。

4 结语

研究服务机器人听觉隐私信息的感知和保护技术,有助于服务机器人的推广与普及。本文正是针对机器人所监听到的语音数据,提出和实现了基于卷积神经网络的服务机器人听觉隐私信息分类算法,来判定语音数据的隐私类别,为隐私数据的保护奠定基础。下一步将继续补充和完善训练数据集,使监听系统具有更好的鲁棒性;此外,听觉隐私数据的保护机制与方法也是值得深入研究的方向。

猜你喜欢

测试数据语音卷积
基于3D-Winograd的快速卷积算法设计及FPGA实现
卷积神经网络的分析与设计
魔力语音
基于MATLAB的语音信号处理
从滤波器理解卷积
基于MQ3与MP3的价廉物美的酒驾语音提醒器
测试数据管理系统设计与实现
对方正在输入……
基于傅里叶域卷积表示的目标跟踪算法
基于自适应粒子群优化算法的测试数据扩增方法