人工智能识别主持人语音情感

2021-01-20夏文心

文化产业 2020年33期

◎夏文心

（云南师范大学传媒学院云南昆明 650500）

就目前而言，人工智能技术成为我们日常生活中不可缺少的一项重要技术，可以通过运用互联网计算机系统研究许多事物以及这些事物的方方面面，如识别人们的语音、情感、态度等，并从理论研究逐渐走向实质性研究[1]。人工智能通过辨别我们的语音，能获取主持人在此时所要表达的情绪和情感；从原有的数据库中筛选调取与个人情绪情感相匹配的音乐、视频以及图像，通过“情感标签”筛选出适应个人情绪，然后实现自动配乐和配景[2]。

一、研究的方法与步骤

本研究首先进行情感定义，使输出语音有相应的对应标签。使用语谱图作为主持人的语音的认识辨别功能，利用GAN（简称生成对抗网络）对原始输入特征进行提取。使用长短记忆网络对GAN的输出特征进行进一步提取[3]，使其具有上下时刻关联性，大大提高了最终的识别结果。将提取出的特征进行分类，输出“情感标签”。

二、情感的定义

本研究的主要基础与核心部分，是探究情感是什么，如何进行情感的分析。当前学术界通常将情感表示为连续型情感和离散型情感。连续型情感主要是匹配一个比较单一的情感态势和语音这个空间中的一小部分或者是连续的一个段落，然后通过连续的情感坐标表达人类的语音情感态势[4]。

三、提取语音特征的方法

怎样提炼筛选适合的匹配的特征用以显示不同的情绪情感，最关键最主要的问题是在于，怎样提取筛选比较合适的匹配的特点特征来表达不一样的情绪情感，同时具有准确性与泛化性。声学特征通常具体包括：频谱的特征、连续的特征、Teager能量算子，质量的特征。本文我们使用生成对抗网络来进行语音特征提取与生成，经过GAN的判别网络进行精确的语音识别，从而提升语音识别的精确度[4]。

四、GAN模型的定义

生成对抗网络进行语音特征的提取增强了语音识别的准确性，我们在生成器阶段使用GAN对其语音技术进行准确的特征提取[3]。判别器使用卷积神经网络进行精度判别。二者之间使用空间变换网络进行连接。

五、GAN+ LSTM + SVM情感识别模型设计

本部分主要研究基于GAN+ LSTM + SVM的情感识别模型的设计。

（一）GAN提取语音特征

首先是进行基于GAN的语音情感的特征进行筛选与提取，在运用网络进行特征的筛选与提取时，其深度在比较大程度上决定了最后识别出来的结果成效的好坏[4]。伴随着卷积神经网络逐渐增加的层级数量、逐渐变深的深度，筛选出不同的维度特征越来越多样化，比较高的维度特征更加具有抽象特点，可以更好地表现出最终展现结果的好坏。