智能情绪调节器的研制

2021-05-19潘嘉惠贾宁

电子元器件与信息技术 2021年2期

关键词：外设语音情绪

潘嘉惠，贾宁

（大连东软信息学院，辽宁大连 116023）

0 引言

在人与人的交流过程中，除了语言、面部和行为所表达的直接的语义信息外，人类的情感也传递了重要的信息。对人类情感机理的研究与探索一直是科学研究的重要方向，人类的智能不仅表现为正常的理性思维和逻辑推理能力，也应表现为正常的情感能力。

在日常生活、学习和工作过程中，长时间的劳累很容易为用户带来一系列的负面的情绪影响，从而危害用户的健康。计算机作为现有的核心沟通工具之一，在与其进行交互时，人们希望机器能理解自己的需要和感受，并做出适当的反应。

因此，对于用户情感的识别与调节，具有很大的市场应用前景。未来的个人计算机通过情感识别技术，在对用户情感进行建模、分析的基础上，可以对用户的疲倦程度做出一个合理的判断。

进而通过语音对话、播放轻松音乐、调节舒适灯光、控制家居外设等多种形式，调节用户的情绪，缓解用户的疲倦感，提醒用户合理的休息，提供更健康、更优质的和谐人机交互体验。

现阶段的语音识别与生成技术都是基于大规模语音数据库来实现的，语音数据库的主要实现目标主要有两个：一是语音的训练阶段，通过统计学方法，深入挖掘大量语音数据中所蕴含的规律与模型二是在语音的生成阶段，提供大量的合成基元，通过一定规律来拼接成语音。

因此，语音库的构建是语音合成的一个重要组成部分。现有数据库由于版权、规模、费用、功能用途等方面原因很难满足现有的语音合成系统要求，而情感语音库相关方面的研究更加匮乏，综合以上原因，建立一个情感表达准确、语音质量高、数据规模大的情感语音数据库是研究情感语音处理的重要前提与基础。

1 情感识别方案（Emotion Recognition Solutions）

情绪调节器分为三个部分：情绪调节装置、服务器端和家居外设。通过三者之间的通信和联动达到与用户进行良好的情绪沟通的目。其主要运行顺序是通过唤醒模块进行唤醒可以通过语音和距离，然后用户的语音通过情绪识别模型从而识别用户是悲伤开心平静还是生气。

识别情绪之后通过情绪对话策略装置找到缓解用户情绪的办法比如通过用户的情绪来找到一些缓解他情绪的歌曲最后通过语音生成模型来表达装置分了三种模式：（1）说话者识别模型根据称呼和个性化声纹模型进行识别；（2）语音识别模型根据语音转为语音文本然后对文本进行判别后通过硬件反馈内容生成对话文本和相应的情绪调节文本最后生成了语音模型；（3）情绪识别模型识别情绪反馈应答最终进入到语音模型共同完成情绪文本进行语音应答。模型如图1所示：

图1 交互体体系(Interactive Architecture)

2 硬件实现（Hardware Implementation）

情绪调节装置由唤醒模块、情绪识别模型、情绪对话策略和语音生成模块构成。唤醒模块用于装置的语音唤醒，可通过语音唤醒或距离唤醒方式实现。情绪识别模型则利用流行的深度学习算法，在线识别用户语音中表达的高兴、愤怒、悲伤或平静等情绪。情绪对话策略则注重于用户特定情绪的反馈，其输出为调节用户的特定情绪表达。

语音生成模块则根据生成模型，在线生成指定声纹特征、指定情感的文字的语音，并使用富有感情的语气朗读出来。在针对情绪识别之前，首先需要确定语音信号中的情感特征，本项目针对韵律学特征、基于谱的相关特征、声学质量特征、融合特征、深度学习下语音特征等进行情感分析，目前，已经获得的声学特征与情感之间的关联，如表1所示。

表1 不同情感语音的特征规律(Characteristics of speech sound with different emotions)

服务器端在获取语音数据后，可以上传用户的语音到服务器，可以使用各自的标签对进行数据的提取，针对不同的音频文件，设计其具有特色的文件名解析规则，即提供不同的正则表达式模板，在锁定标签对所包含的数据范围后，对其进行数据拆分，解析目标信息。

家居外设将系统可识别的控制信号送至CPU处理器。控制软件进行系统功能识别，在串口向无线模块发出相应的操作指令，借助无线模块，系统控制命令被快速传送至外设中，从而实现针对家庭内部的各种电器和传感器进行有效的监测活动。操纵家居外设的基本流程如图2所示：

图2 家居外设操纵基本流程(Home Peripherals Control Basic Process)

3 关键技术分析(Key Technology)

采用低级描述符（LLD）和高级统计功能（HSF）可以获得语音特征局部信息，但是无法涵盖语音特征的全局信息，特征提取的维度越高，特征表示越全面，但随之而来的是更为复杂的深度学习模型，反而无法获得更高的识别精度。针对韵律学特征、基于谱的相关特征、声学质量特征、融合特征、深度学习下语音特征等进行情感分析

考虑在传统的手工制作的基础上，增加原始语音的全局信号输入，这样既保证了手工制作特征的维度适当，又可以得到语音的全局信息。基于此，利用神经网络构建手工制作的HSF和CRNN学习特征的联合表示，专注于包含强烈发音信息记录的特定部分和全局信息，从而实现对语音情感强弱的判定。

具体地，通过隐藏层，将两种类型的特征一起投影到相同的特征空间中，同时减少原始特征的维度。网络架构由两个部分组成，第一部分是卷积特征提取器，它以频谱图作为输入，频谱图的横坐标是时间，纵坐标是频率，坐标点值为语音数据能量。由于其采用二维平面表达三维信息，所以能量值的大小是通过颜色来表示的。

对于预先分段的语音，可以获得每个片段的CNN学习特征。第二部分是BMLSTM，其中每个时间步对应于原始音频输入的一段，无需对音频进行削波或填充，而且可以保留段间的长期依赖性。服务器端主要是Hadoop的分布式存储架构，HDFS的数据存储方式，基于云服务器的数据库设计基于Hadoop的分布式存储架构基于HDFS的数据存储方式，自动完成多次备份操作基于云服务器的数据库设计

在获取语音数据后，可以上传用户的语音到服务器，可以使用各自的标签对进行数据的提取，针对不同的音频文件，设计其具有特色的文件名解析规则，即提供不同的正则表达式模板，在锁定标签对所包含的数据范围后，对其进行数据拆分，解析目标信息。此部分工作冗余性较强，解析规则显得格外重要。

通过最大池化层、最小池化层和平均池化层计算输出的统计数据，并将得到的池化向量连接成一体。解析后的数据存入HDFS中，并自动完成多次备份操作，此处设置为3个副本，便于后续数据的存储与查询。服务器端存储数据的基本流程如图3所示：

图3 服务器端存储数据的基本流程(The basic process of storing data on the serve side)

关键词识别算法. 首先采用一种基于度量距离的改进型语音分割算法, 将连续语音流分割成孤立音节, 再将音节细分成和音素状态联系的短时音频片段, 分割后的音频片段具有段间特征差异大, 段内特征方差小的特点.接着利用一种改进的矢量量化方法对音频片段的状态特征进行编码。

实现了关键词集内词的高精度量化编码和集外词的低精度量化编码. 最后以音节为识别单位, 采用压缩的状态转移矩阵作为音节的整体特征, 送入深度神经网络进行语音识别. 仿真结果表明, 该算法能从自然语音流中较为准确地识别出多个特定关键词。

自相关基音检测算法是语音信号处理的关键技术,算法的效率直接影响语音信号实时处理的质量.在对自相关基音检测算法基本原理进行分析的基础上,设计了Matlab算法实现方案,通过对一段具体语音时域信号采样值进行滤波、分帧、求短时自相关函数得到了浊音语音的基音周期.试验结果表明,该算法结构简单,运算量小,效率高。

声音作为一种重要的信息媒介,能够为维修人员提供大量的装备信息;但实际维修环境受到车辆启动噪声的干扰,难以准确直观地对声音进行判断;为实现对炮控系统各主要声音部组件启动过程的识别,提出了一种基于改进谱减法降噪和多类型识别策略的声音识别算法;通过对炮控系统各部组件与发动机声音信号的分析。

利用改进谱减法对声音样本进行了降噪处理,并通过实验优化了谱减参数,进一步提升了降噪性能,解决了强噪声干扰的问题;利用滑窗校正和短时能量同步检测的方法制定了具体的识别策略,解决了实际应用中识别结果不稳定以及多类型过程识别的问题;通过实验验证,该声音识别算法对炮控系统各部件启动状态识别准确率达92.4%,具有较好的识别性能

4 软件实现（Software Implementation）

情绪调节装置：深度学习网络模型情绪识别关键词识别语音听写去噪。

系统主要从语音库中的数据提取情感语音的韵律特征并进行建模，其生成的语音质量与语音库的原始数据有直接关系。所以研究情感语音生成技术的首要工作就是建立一个数据规模大、情感表达准确、收录语音质量高的情感语音库。情感语音按采集方式不同分为自然语音、诱导语音和表演语音。本数据库是基于自然语音的形式构建真实情感的集合，共收录高兴、愤怒、平静和悲伤四种情感。

构成语音数据库的文本要求覆盖尽可能多的语言单元，同时又要求语音数据库的规模不能过大，因此在建立情感语音数据库时，拟引入改进的贪婪算法，将传统的文本筛选方式与统计方法相结合。语料形式选择富有丰富情感的言语，相对不同的语境具有不同的理解形式，话语样式在一定程度上满足情感丰富多样性的需要。录音文件以wav格式保存，采样率为4400Hz，精度为16bit，采用单声道录制。

实现一个可以在线调节用户情绪的装置，根据用户的语音识别情绪，从而对其进行调节，基于此，将智能情绪调节器分为三个部分：情绪调节装置、服务器端和家居外设。通过三者之间的通信和联动达到与用户进行良好的情绪沟通的目。其主要运行顺序是通过唤醒模块进行唤醒可以通过语音和距离，然后用户的语音通过情绪识别模型从而识别用户是悲伤开心平静还是生气，识别情绪之后通过情绪对话策略装置找到缓解用户情绪的办法比如通过用户的情绪来找到一些缓解他情绪的歌曲最后通过语音生成模型来表达。

家居外设内部实现向无线模块发出相应的操作指令借助无线模块，系统控制命令被快速传送至外设中针对家庭内部的各种设备和相关传感器进行有效的监测活动辅助情绪调节树莓派设备结合无线模块，实现服务器与外设通信针对用户特定情绪，自动播放治愈语音、乐曲多种模式，实现自动唤醒。

智能情绪装置我们主要用了卷积神经网路，韵律学特征，深度学习下语音特征技术，服务器端主要是Hadoop的分布式存储架构，HDFS的数据存储方式，基于云服务器的数据库设计，家居外设主要是树莓派开发板,Wifi通信设备，传感器。

本项目的创新点1提出传统语音特征的提取方法、深度学习特征表示的情感语音特定的提取方法2将语音识别、说话者识别、情感识别及个性化语音生成模型相结合，提出一种新型的智慧情绪调节系统3设计了一种全局特征选择、局部感受野与注意力机制相结合的多通道神经网络模型，在增加注意力机制的基础上，构建语音情感分类模型。外设模型如图4所示：