基于傅里叶变换对婴幼儿语音分析问题的研究

2019-09-10左梦婷温朝晖

赤峰学院学报·自然科学版 2019年7期

左梦婷温朝晖

摘要：针对婴幼儿语音分析的问题，运用了快速傅里叶变换、多元统计分析、平均十二音律法、短时平均能量、马氏距离等方法，构建了男女声鉴别模型、声音谱曲模型、婴幼儿声音语义分析等模型，综合运用了MATLAB、EXCEL等软件编程求解.结果表明，基因频率可以准确判别男女声，通过短时平均能量可以识别婴幼儿所要表达的情感.

关键词：婴幼儿;语音分析;傅里叶变换;平均十二音律法;短时平均能量

中图分类号：TP391.42 文献标识码：A 文章编号：1673-260X（2019）07-0058-05

婴幼儿的大脑发育与语音之间存在一定的关聯，婴儿出生时，便会伴随“哇哇”的哭声降临这个世界，他会自发的扫视周围环境，对自身的需求产生不同的情绪信息[1].而由于语言功能尚未完全发育，刚出生的婴儿不能通过清晰的文字语言表达自己的情绪，只能通过简单的哭、笑等本能反应来体现自己的需求，因此对婴幼儿语义分析的研究就显得尤为重要.

就目前而言，国内许多专家学者对语音信息识别进行了诸多研究，并取得了一定的成果.麻旻等[2]将基因频率作为鉴别男女声音的标准，分别采取傅里叶变换和自相关的方法进行了语音的基因提取，通过分析比较得出基因频率可以有效进行男女声的识别.赵清阳[3]通过将KNN算法与情感特征参数相结合的方法，对婴儿的情感模式进行识别，通过识别率的高低判断婴儿的需求.顾国良等[4]运用动态时间规整算法，建立了一套实时婴儿哭声识别系统，提高了婴儿监护的质量.

1 模型假设

为了便于解决问题，本文提出以下假设：（1）假设所采集的音频无杂音及其他干扰.（2）假设音的频率只与弦长有关，其他变量固定.（3）假设曲谱不存在无效的音符，即所有的乐谱均能唱出.（4）假设对音频的处理在允许的误差范围.（5）一切数据来源真实、准确.

2 基于傅里叶变换对男女声音的分析

2.1 研究思路

首先，运用GOLDWAVE软件，采集多名男女声演唱同一首歌的音频，通过MATLAB软件绘制出时域图;其次，通过傅里叶变换，得到声音信号的频谱图，找出男女声音的区别;最终，选取合适的声音信号指标建立判别模型，得到鉴别男女声音的判别函数.

2.2 研究方法

2.2.1 傅里叶变换

指将时间域上的信号转化为频率域上的信号，使数据得以简单的处理[5].它认为一个周期函数包含多个频率分量，任意函数f（t）可通过多个周期函数相加而合成.

2.2.2 判别分析

又称“分辨法”，是一种判断个体所属类别的统计方法.其原理是按照一定的判别准则，建立一个或多个判别函数，根据某一研究对象的各种特征值确定判别函数中的待定系数，并计算判别指标，据此确定某一样本属于何类.

2.3 模型的准备

2.3.1 声音信号的采集与预处理

选择一间空旷安静的教室，将男女生分隔开，通过GOLDWAVE软件进行现场录音.保存类型为mp3，属性显示Layer，44100Hz，128kbps，立体声.将采集成功的音频文件按照要求进行重命名，并将其格式修改为WAV，以便MATLAB软件的读取.

2.3.2 绘制时域图与频谱图

在MATLAB软件中，通过Audioread函数从对应的音频文件中读取所需要的声音信息，绘制出时域图.并通过FFT函数对时域信号数据进行傅里叶变换，得到频谱图.男女声结果分别如下图1、2所示：

通过上图可以看出，女生的声音频率主要分布在200Hz-2000Hz，男生的声音频率主要分布在200Hz-900Hz.由此可以得出初步结论：女声的声音高频成分较多，男生的声音低频成分较多.

2.4 模型的建立与结果分析

声音是由物体的机械振动产生，以波的形式在介质中传播[6].因此，声音具有频率、波长等共同特性.生活中人们常通过每个人的音色不同来区分声音.基于此，我们选择时域和频域作为指标来建立判别函数.对于时域，选择波的半宽度作为指标;对于频率，选择频率集中区域的中位数来反映频率的差异，结果如下表1所示：

通过判别函数W（X），可以将待判样本的时域和频域信息带入此函数，若函数值大于0，则属于男生;若函数值小于0，则属于女生.

3 基于十二音律法对婴儿声音制谱的研究

3.1 研究思路

首先，用MATLAB软件将音频转化为数字串，选取500个样本值，并补零至1000个，进行快速傅里叶变化，结合坑函数进行峰值判断;其次，对音乐要素进行量化，由主音频率存在的关系确定主音为A，由平均十二音律法确定一节基本为3拍，整个音频为3/4拍，进而对距离比值进行转化，得出频率范围在10-4000Hz的结论;最后，进行乐谱合成.

3.2 模型的准备

数字变化引起声音变化，数字变化的频率与整个乐谱的频率紧密相连[7]，因此需要估计出每一时刻的振动频率，利用MATLAB软件将音频转化为数字串，得到此段音频的频率为44100Hz.通过查阅相关资料知，“坑函数”匹配技术在各种基音估计技术中误差较小，效果较好.而任何乐声的图像都是有规则的周期性图像，根据傅里叶定理知，任何一个周期函数都可以表示成三角级数的形式，即

由公式知，所有泛音的频率都是基本音频率的整数倍，称为基本音的谐波，所以傅里叶研究说明任何乐声都是一些简单声音的复合.

3.3 模型的建立

由MATLAB软件知附件中音频的频率为44100Hz.为了获取这一时刻的基频，现需要在该时刻的附近截取一小段样本.因为需要求出瞬时频率且需要保证最低的基频也有可能进行几周震荡，所以这一小段样本的长度不能太长，也不能太短.根据MATLAB软件的运行结果，取500个样本值，总样本数目为5000，周期为0.1秒.这样，低至100Hz的周期信号，也有可能振荡10周.

因为频点越密，精度越高，所以在这500个采样值后补零至1000个点的长度，做1000个点的快速傅里叶变换，得到这1000个点的复数值.而前面500个点就代表了全部的频率信息，第500个点对应频率22050Hz.因为前100个点覆盖了从0Hz到2691Hz的语音信号，对识别音频来说是足够的.变化后频率点的间隔变为2.7Hz，为此模型的量化误差.

3.4.2 音符的确定

首先，对10000个的稳定性进行单位根的检验，判断出稳定.

其次，在稳定的基礎上，得到的平均值为9.49.

接着，在的平均值接近10的情况下，定比值10的音为B，频率为982Hz.

最后，其他音根据与B音频的倍数，确定频率，由频率转化成对应音符.其中，转化后频率范围在10至4000Hz.

3.4.3 乐谱的生成

综上，可以得到：主音节拍为A调;节拍为3/4拍，以1/4分音符为一拍，一节三拍.根据乐理知识，可绘制乐谱如下图5所示：

4 基于短时平均能量对婴儿声音语义的分析

4.1 研究思路

首先，运用MATLAB软件计算出婴儿声音的短时平均能量;其次，与情绪参照表的中的指标值进行对比，观察与哪一数值更为接近;最终，通过对比分析得到该婴儿声音的语义.

4.2 模型的准备

语音信号是一个非平稳态过程，不能用处理平稳信号的数字信号处理技术对其进行分析处理[8].但是，由于不同语音在短时间范围内（一般认为在10～30ms），其特性基本保持不变，即相对稳定[9].因而可以将其看作是一个准稳态过程，对语音信号进行分帧技术处理，如下图6所示.

接着，对这段婴儿语音进行加汉明窗处理，如下图7所示：

4.3 模型的建立与结果分析

语音的能量振幅会随着时间的变化而变化，语音信号的振幅特征和情感信息有着较强的相关性.对于婴儿来说，当他们高兴、愤怒、饥饿时，他们的音量会伴随着这些情绪而变大，而类似依恋、困倦这些情绪发生时，往往音量会低于前者[10].一般这些情感的平均振幅越大或者越小，它们的情感表现特性就越强[11].所以，在婴儿的语音情感信息研究中，这个振幅的构造特性会作为重要的特征来研究.短时能量为一倾采样点值的加权平方和，定义短时能量公式如下：

式中w（n）为汉明窗函数，n为窗长，在计算能量参数之前，先将输入的语音信号进行预处理、分帧，然后对每一帧运用上述公式计算能量值，即可得到短时能量构成的时间序列.

通过MATLAB软件，成功得到了该婴幼儿音频的短时能量图.进一步地，需要求出平均短时能量，这里，采用求定积分的方法来大致求出平均短时能量.

即最终得到的平均短时能量为0.145.由情感特征参数贡献度表可知，婴幼儿在不同平均短时能量对应的不同情感，可以发现该数值最接近0.1401，即为高兴状态下的平均短时能量，故依据此判别方法，判定该婴儿在此语义下的情感为高兴.

5 结语

本文基于傅里叶变换，对婴幼儿语音分析问题进行了探究，运用了MATLAB、EXCEL等软件编程，绘制出相关图表，简洁直观.巧妙地利用了声音频率与弦长之间的关系，充分应用了统计分析技术，得到了可以反映音乐要素的规律和统计量，通过仿真验证能够以较高的准确率进行男女声音识别，较为清晰地知道婴儿所要表达的含义，对日后婴儿护理等方面有一定的参考价值.

参考文献：

〔1〕魏丽娜.婴儿情绪信息的模式识别技术研究与实现[D].复旦大学，2012.

〔2〕麻旻，李祥.一种基于MATLAB实现的男女声识别算法[J].仪表技术，2018（07）：21-23.

〔3〕赵清扬.婴儿需求表达语音信息的智能识别技术研究[D].复旦大学，2014.

〔4〕顾国良，许鹏，沈晓燕.基于数字信号处理器的婴儿声音识别系统的设计与实现[J].生物医学工程研究，2018，37（03）：276-280.

〔5〕李嘉亮.基于matlab的声音信号简单分析与处理[J].中国科技信息，2013（08）：49-50.

〔6〕陈家焱，陈冬娇，张达响.基于Matlab的声音信号采集与分析处理[J].计算机与现代化，2005（06）：91-92+96.

〔7〕袁凤玲.婴儿啼哭声的特征分析与识别[D].西华大学，2011.

〔8〕宫瑾，沈小键，贾磊，李鸿鑫，杨子康，金建设，赵帅.婴儿欲望与状态识别系统[J].物联网技术，2018，8（02）：7-12.

〔9〕陶冶，徐琴美.12个月中国婴儿熟悉词表征中声调的语义特性[J].心理学报，2013，45（10）：1111-1118.

〔10〕张荣刚.婴儿智能看护系统的语音识别模块设计[J].太原师范学院学报（自然科学版），2012，11（02）：64-67.